Customer Success Story: Sirdata

Was ist Sirdata?

Sirdata ist ein innovatives französisches Unternehmen, das im Jahr 2012 gegründet wurde und sich auf die Datenverarbeitung spezialisiert hat.

Das Unternehmen sammelt rohe Browser-Daten von Webnutzern unter strikter Einhaltung der Gesetzgebung im Bereich Datenschutze und Wahrung der Privatsphäre. Durch die Analyse der Semantik jeder besuchten Webseite identifiziert Sirdata schwache Interessenssignale von Benutzern und bewertet ihren Intentionsgrad in Echtzeit. Dieses Know-how erlaubt es dem Unternehmen, vorgefertigte und auf die Zielgruppe zugeschnittene Cluster zu erstellen: Interesse, Intention, Lebensereignisse, Demografie, Zielgruppenerweiterung, Marke – entsprechend den Targeting-Strategien der jeweiligen Marketing-, Daten- und Kommunikationsexperten.

Sirdata ermöglicht es Herausgebern, ihren Website-Traffic zu monetarisieren, und Werbetreibenden (oder von ihnen beauftragten Agenturen), die richtigen Zielgruppen zur richtigen Zeit anzusprechen. Außerdem ermöglicht es beiden, ihr Kundenwissen zu erweitern und ihre Datenmarketing-Strategien durch Tools (SSP, DSP, Adserver, DMP, CDP, CRM etc.) präziser zu gestalten.

Sirdata ist ein Board-Mitglied des Interactive Advertising Bureau (IAB), ein Turing Club und Mitglied der französischen Aufsichtsbehörde für professionelle Werbung (Autorité de Régulation Professionnelle de la Publicité, ARPP). Das Unternehmen entwickelte hochskalierte Inhouse-Lösungen rund um Daten wie – unter anderem – ihr Semantic & Scoring Tool oder ihre Consent Management Platform (CMP). Als Datenanbieter mit einer sicheren Infrastruktur und Serverbereitstellung ist das Unternehmen strategisch für seine Kunden.

Ihr Projekt

Sirdata sammelt Daten von Website-Besuchern, die dazu ihre Einwilligung gegeben haben. Sobald die Daten gesammelt und durch den Semantic & Scoring Hub verarbeitet wurden, werden sie entweder in der Demand-Side-Platform (DSP), in der Sell-Side-Platform (SSP), in dem Data Management Provider (DMP), in der Customer Data Platform (CDP) oder im CRM bereitgestellt. Kurz gesagt, jedes Tool, das von Marken, Herausgebern und Agenturen genutzt wird, um eine genaue, markensichere und nutzerorientierte Marketingstrategie zu verfolgen. Möglich wird dies durch das Know-how des Unternehmens in den Bereichen Datenverarbeitung, API-Management und Tool-Verbindung.

Innerhalb des Programmatic- und Martech-Sektors unterstützt Sirdata Marken und deren Agenturen, die Daten benötigen, um zu entscheiden, ob sie eine Anzeigenplatzierung in einer Echtzeit-Auktion kaufen wollen oder nicht und so ihre Chance erhöhen, mit ihrem Zielpublikum zu kommunizieren. Für Herausgeber ist eine Anzeige mit Verhaltensdaten achtmal wertvoller im Verkaufsprozess als eine Platzierung ohne Daten (laut IAB Europe). Dank Sirdata haben sie nun die Möglichkeit, ihr Inventar mit Daten zu verkaufen, um besser auf die Anforderungen des Marktes zu reagieren und gleichzeitig ihre Einnahmen zu steigern.

Darüber hinaus hält sich das Unternehmen stets an die Gesetzgebung und hat in der Tat nie sensible Daten gesammelt. Das Hauptziel der Sirdata-Datenverarbeitung ist es, die Kaufbereitschaft der Verbraucher für ein Produkt zu verstehen und so Werbetreibende bei der Übermittlung von aussagekräftigen und gewinnbringender Botschaften an ihre Interessenten und/oder Kunden zu unterstützen. Ein Werbetreibender wie eine Fluggesellschaft wird z. B. nur daran interessiert sein, eine Werbebotschaft für einen Urlaubsflug an eine bestimmte Zielgruppe zu übermitteln.

Sirdata hat die DSGVO und kommende Gesetzgebungen als Chance begriffen und sehr früh in die Anpassung seiner Prozesse an die geltenden Vorschriften investiert. Nach einem recht turbulenten Jahr 2018, in dem Sirdata feste Positionen zur Compliance einnahm, zählt das Unternehmen nun zu den wenigen, die vollständig zustimmungsbasiert arbeiten.

Ein technischer Blickwinkel


Aktuell verfügt Sirdata über rund 30 Server. Das Unternehmen nutzt zwei verschiedene Serverangebote von Dedibox. Einen mit viel Speicherplatz für ihre Persistenzanforderungen und einen anderen für ihre rechenintensiven Aufgaben. Hauptsächlich verwenden sie STORE-4-XL für die Speicherung und PRO-4-L für ihr Frontend.

Da Sirdata heute mit regelmäßigem Datenverkehr konfrontiert ist, hat man sich für Dedibox-Server und dedizierte Hardware entschieden. Auch die kostengünstige Infrastruktur ist ein wichtiger Aspekt.

Für das Webcrawling nutzt Sirdata zwischen 20 und 50 Instances. Üblicherweise erwirbt das Unternehmen das Recht, Webseiten zu durchsuchen, aber einige ihrer Instances sind blockiert. Daher hat Sirdata seine Aufgaben besonders robust vorinstalliert. Die Infrastruktur ist so konzipiert, dass sie sehr stark und langlebig ist. Typischerweise ist das Unternehmen in der Lage, den Verlust von 30 Prozent seiner Infrastruktur zu verkraften, ohne dass dies Auswirkungen auf die Produktion hat.

Auf der Netzwerkseite liegt Sirdata bei 1G, mit Spitzenwerten bei 10G Netzwerkverkehr.

Sirdata Tools und Software


Die Infrastruktur von Sirdata wird mit einem stark gepatchten Kubernetes verwaltet und für den Datenverkehr wird Nginx als Load Balancer eingesetzt.

Das Frontend ist in Go in einem Sidecar innerhalb eines Pods geschrieben, wobei die Pufferschicht von RabbitMQ verwaltet wird, was den Umgang von Verbindungsabbrüchen recht einfach ermöglicht. Dieser Konfigurationstyp ist sehr effizient, da er es ermöglicht, 2000 Abfragen pro Sekunde pro App/Pod bei nur 200M RAM zu verwalten.

Für sein Backend verwendet Sirdata viele JVM-Technologien. Die Backend-Anwendung wurde mit Spring Boot geschrieben, und der Algorithmus zur Verarbeitung natürlicher Sprache wurde in Kotlin geschrieben. Für die Persistenzschicht verwendet Sirdata Cassandra und Kafka.

Was sind die aktuellen Herausforderungen von Sirdata?

Sirdata gehörte zu den Früheinsteigern von Kubernetes. Da die verwendeten Funktionen zunächst nicht nativ waren, musste Sirdata sie patchen. Heute sind die meisten Funktionen, die das Unternehmen benötigt, in der Upstream-Distribution von Kubernetes nativ verfügbar.
Daher möchte Sirdata seine Infrastruktur auf ein Upstream-Kubernetes migrieren.

Auf der NLP-Seite ist Sirdata daran interessiert, zu erforschen, wie GPU dem Unternehmen zu einer verbesserten automatischen Klassifizierung von Webseiten im laufenden Betrieb verhelfen könnte. Scraping verbleibt der zeitaufwändigste Schritt in seiner Pipeline.

Scaleway-Vorteile

“Scaleway ist ein in Europa ansässiges Unternehmen und hat ein hervorragendes Preis-Leistungs-Verhältnis. Wir brauchen diese Art von Infrastruktur, weil der Wert jeder unserer Abfragen eher klein ist, so dass wir auf hohe Volumen skalieren müssen, um eine attraktive Leistung für unsere Kunden zu haben", sagt Rémi Demol, Mitgründer und CTO von Sirdata.

Das Unternehmen freut sich darauf, die neuen und zukünftigen Angebote von Scaleway zu nutzen, wie zum Beispiel Big-Data-Dienste. Da sie viele Big Data Workflows haben, sind sie sehr daran interessiert, Dienste mit einem relevanten Wert zu nutzen, die ihnen das Risiko und die Komplexität abnehmen. Ein weiterer Bereich wäre die semantische Analyse nach Bedarf und ganz allgemein eine Toolbox für NLP, die sie als Dienst nutzen könnten. Schließlich, so ihr CTO, wäre auch ein verwaltetes Kubernetes auf dedizierten Servern sehr nützlich.