Customer Success Story: Sirdata

Qui est Sirdata ?

Fondée en 2012, Sirdata est une entreprise française innovante spécialisée dans le traitement de données.

Elle collecte les données brutes de navigation d’internautes, et ce, dans le strict respect de la législation relative à la protection des données et de la vie privée.
Par l’analyse de la sémantique de chaque page web visitée, elle identifie les signaux faibles représentatifs des intérêts des utilisateurs et note leurs degrés d’intention en temps réel.

Elle crée, ensuite, des groupes d’audience sur-mesure et linéaires intégrant : intérêts, intentions, événements marquant, informations démographiques, lien avec une marque, éventuelle extension d’audience… Ceci, en fonction des stratégies de ciblage des utilisateurs finaux de sa solution qui sont en général des professionnels du Marketing, de la Data ou de la Communication.

Sirdata permet aux éditeurs de monétiser le trafic de leur site Web, et aux annonceurs (ou agences mandatées) de cibler les bons publics, au bon moment.
Elle leur offre, par ailleurs, la possibilité d’enrichir leur connaissance-client et d’affiner leurs stratégies de data-marketing au travers de leurs propres outils (SSP, DSP, Adserver, DMP, CDP, CRM…).

Membre de l’Interactive Advertising Bureau (IAB), de l’Autorité de Régulation Professionnelle de la Publicité (ARPP) et du Club Turing, les équipes de Sirdata ont développé des solutions internes hautement scalables autour de la donnée.
On peut notamment citer leur outil de sémantique et de notation ou encore leur plateforme de gestion du consentement (CMP).
Être un fournisseur de données bénéficiant d’une infrastructure sécurisée ainsi que de serveurs à la demande est un point hautement stratégique, tant pour Sirdata que pour ses clients.

Leur Projet

Après avoir obtenu le consentement des visiteurs d’un site web, Sirdata collecte leurs données et les traite au travers de sa plateforme de sémantique et de notation.
Elle les livre, ensuite, via une Demand-Side-Platform (DSP), une Sell-Side-Platform (SSP), un Data Management Provider (DMP), une Customer Data Platform (CDP) ou un CRM.
Les données recueillies sont donc exploitables à travers tout outil qu’utiliserait une marque, un éditeur ou une agence dans le cadre du pilotage de stratégies marketing pertinentes et orientées utilisateurs.
Cette interconnexion est rendue possible grâce à l’expertise de l’entreprise en matière de traitement de données et de gestion des API.

Dans le secteur de la Programmatique et du Martech (Marketing et Technologie), Sirdata accompagne les marques et les agences qui sont en besoin de données pour n’acheter que les placements publicitaires qui leur permettront d’atteindre leurs publics cibles.
Il faut savoir que pour les éditeurs, une publicité intégrant des données comportementales quant à son audience, a une valeur huit fois supérieure à celle d’une publicité simple (d’après l’IAB Europe).

Grâce à Sirdata, ces derniers ont maintenant l’opportunité de vendre plus facilement car elles répondent aux exigences du marché, tout en augmentant leurs revenus.

L’entreprise a toujours été respectueuse de la législation et n’a jamais recueilli de données sensibles. L’objectif principal derrière son activité est de comprendre l’appétence des consommateurs quant à l’achat d’un produit et d’aider les annonceurs à leur délivrer un message significatif et à haute-valeur ajoutée. Par exemple, un annonceur tel qu’une agence de voyage souhaitera adresser ses communications promotionnelles qu’à un public précis.

Saisissant l’opportunité offerte par la RGPD, Sirdata a rapidement adapté ses processus aux réglementations en vigueur. Après une année 2018 mouvementée au cours de laquelle elle a maintenu une position ferme sur la conformité exigée, l’entreprise compte maintenant parmi les rares à être entièrement construites autour de la base du consentement total.

Point de vue technique


Faisant face à un trafic régulier, Sirdata a décidé de s’en tenir aux serveurs Dedibox et au matériel dédié car la rentabilité de l’infrastructure est également un aspect important.

L’entreprise possède donc environ 30 serveurs pour lesquels elle utilise deux différentes offres de Dedibox. L’une avec beaucoup d’espace de stockage pour les besoins de mémoire et une autre dédiée aux exécutions de tâches intensives. Pour l’essentiel, l’entreprise utilise des STORE 4 XL pour le stockage ainsi que des solutions PRO 4 L pour le front-end.

Pour l’exploration, il faut compter entre 20 et 50 instances. En temps normal, l’entreprise achète le droit d’explorer les pages web mais il arrive que certaines de ses instances soient bloquées. Voilà pourquoi, aujourd’hui, elle possède une résilience intégrée pour ses tâches, ce qui lui permet d’avoir une infrastructure solide et durable. L’entreprise peut ainsi perdre jusqu’à 30% de son infrastructure sans que cela ne cause d’impact sur sa production.

Au niveau du réseau, Sirdata est à 1G, avec des pics de trafic pouvant aller jusqu’à 10G.

Outils et logiciels de Sirdata


L’infrastructure de Sirdata est managée grâce à une grosse couche de Kubernetes et son trafic est réparti via Nginx.

Le frontend est écrit en Go, dans un sidecar à l’intérieur d’un pod, avec une couche tampon sous RabbitMQ, ce qui lui permet de gérer assez facilement les déconnexions.
Ce type de configuration est très efficace puisqu’il permet de gérer 2000 requêtes par seconde par application/pod, pour seulement 200M de RAM utilisée.

Pour le backend, Sirdata utilise de nombreuses technologies JVM. Son application backend est écrite en utilisant Spring Boot, et son algorithme NLP est en Kotlin. Les couches de persistence quant à elles, utilisent Cassandra et Kafka.

Quels sont les challenges actuels de Sirdata ?

Sirdata fût l’un des premiers utilisateurs de Kubernetes car les fonctionnalités utilisées à l’époque n’étaient pas natives et elles pouvaient nécessiter des “réparations”. Aujourd’hui, la plupart des fonctionnalités dont l’entreprise a besoin étant présentes nativement sur la distribution de Kubernetes, Sirdata souhaiterait y migrer la totalité de son infrastructure.

Du côté NLP (Natural Processing Language), les équipes s’intéressent à explorer comment les Instances GPU pourraient aider à construire une classification automatique des pages à la volée. Le scrapping reste l’étape la plus longue de leur pipeline.

Les atouts de Scaleway

“Scaleway est une entreprise située en Europe et a un excellent ratio qualité/prix. C’est de ce type d’infrastructure dont nous avons besoin car la valeur de nos commandes commence relativement faiblement mais qu’elle a tendance à scaler vers le haut afin de maintenir une performance attractive pour nos clients.” nous dit Rémi Demol, co-fondateur et CTO de Sirdata.

L’entreprise a hâte d’utiliser les nouvelles et futures fonctionnalités de Scaleway, telles que les services Big Data. Disposant de nombreux flux de travail Big Data, ils souhaitent utiliser des services à forte valeur ajoutée, qui gèrent le risque et la complexité en dehors d’eux.