Les étapes de la gestion des données dans une CDP Headless

De nos jours, les entreprises investissent de plus en plus dans de nouvelles technologies capables de collecter et d’agréger divers types de données afin de rendre le travail plus agile et efficace. Cependant, lors de l’utilisation d’une pile technologique complexe, des défis importants apparaissent souvent, tels que :

L’incapacité à gérer les données de manière centralisée car elles sont organisées en silos qui ne communiquent pas entre eux, ce qui entraîne des doublons d’informations et une maintenance accrue pour le nettoyage et la mise à jour.
La création de segments d’audience incomplets et peu fiables en raison de la dispersion des informations.
La difficulté, voire l’impossibilité, d’intégrer différentes plateformes, ce qui entraîne des problèmes d’activation des données pour la création de campagnes marketing personnalisées et efficaces.

Ces défis poussent de nombreuses entreprises à adopter une Customer Data Platform (CDP).

Une CDP peut collecter, unifier et gérer les données de première et de tierce partie dans un entrepôt de données unique, offrant ainsi une vue à 360 degrés de leurs clients. Cela permet aux organisations d’obtenir l’intelligence d’affaires nécessaire pour augmenter les ventes, fidéliser les clients et prendre des décisions stratégiques fondées sur les données.

Souhaitez-vous mettre en œuvre cette stratégie ?

Nos modèles d’IA peuvent vous aider à atteindre ces résultats en quelques semaines, pas en plusieurs mois.

Découvrez comment

Dans un épisode passionnant du podcast Humans of Martech, Michael Katz rappelle les 8 étapes essentielles qui constituent une Customer Data Platform, telles que rapportées par Arpit Choudhury dans sa série d’articles sur les Customer Data Platforms :

Infrastructure de données clients (CDI)
ETL (Extract, Transform, Load)
Stockage
Résolution d’identité
Segmentation d’audience
Reverse ETL
Qualité des données
Gouvernance des données et conformité en matière de confidentialité

Chacune de ces étapes représente un défi tant d’un point de vue technologique que stratégique et éthique. Explorons ensemble celles que nous considérons comme les plus significatives dans le contexte d’une solution exploitant la puissance du Cloud Data Warehouse au lieu d’une Customer Data Platform traditionnelle, à savoir :

CDI (Customer Data Infrastructure)
ETL (Extract, Transform, Load) et ingestion de données
Résolution d’identité
Segmentation d’audience
Reverse ETL

Infrastructure de données clients (CDI)

Cette phase englobe toutes les activités d’acquisition de données utilisateurs. Au sein de la CDI (Customer Data Infrastructure), elle comprend tous les outils et stratégies de collecte, en commençant par le suivi analytique et les pixels publicitaires, en poursuivant par la convergence des données au sein des systèmes CRM, et en s’étendant à des solutions de collecte plus avancées telles que les cartes de fidélité au point de vente, les données géolocalisées ou les données synthétiques.

Cette phase est souvent sous-estimée et abordée de manière inverse par rapport au flux de travail idéal. L’approche courante tend à être « collecter les données d’abord, puis comprendre comment les utiliser », ce qui mène souvent à des difficultés lors de la fusion ultérieure ou à l’absence de données fondamentales. Un exemple classique est de ne pas exposer dans le suivi en ligne les données typiques du monde physique, comme les identifiants d’utilisateurs, ce qui rend ensuite impossible la corrélation entre les deux comportements.

Une infrastructure de données clients solide part des besoins et des objectifs de l’entreprise, couvre l’ensemble du parcours client et vise une collecte de données éthique et robuste.

Dans cette phase, il est souvent essentiel d’adopter une approche « lean », en suivant de manière exhaustive mais uniquement ce qui est nécessaire. Cette approche permet de dissiper l’illusion de suivre toutes les données et garantit que seules les données ayant un but précis circulent dans les systèmes de l’entreprise.

ETL (Extract, Transform, Load) et ingestion de données

L’ETL est la deuxième étape du parcours des données utilisateurs et englobe tous les processus qui mènent à l’extraction des données, à leur transformation dans un format commun et à leur chargement dans l’entrepôt de données.

Au cours de cette phase, les entreprises rencontrent souvent des problèmes de transformation des données, de perte de données lors de l’ingestion et de nécessité de maintenir la cohérence des données. Ces problèmes découlent fréquemment d’approches sous-optimales lors de l’étape initiale, où de grandes quantités de données incohérentes et mal structurées sont collectées, laissant la responsabilité de l’ingestion à la phase ETL, ce qui rend difficile la résolution des problèmes à la source.

Même à ce stade, partir d’objectifs commerciaux « lean » permet d’établir des modèles et des structures de données, ainsi qu’un but clair. Cela simplifie la compréhension de la manière dont les tables doivent être liées et du format de données optimal, rendant le travail ETL simple et robuste et garantissant la présence d’un Data Warehouse rationalisé, efficace et facile à maintenir.

Résolution d’identité

Dans cette phase, l’identité d’un utilisateur est tracée à travers diverses plateformes à l’aide d’identifiants uniques. Ce processus est fondamental pour le concept même de Customer Data Platform. Avant tout, il déplace l’attention des canaux vers l’utilisateur, rendant les actions ciblées et la fidélisation largement accessibles. De plus, il permet de briser les silos de l’entreprise et d’obtenir une vue véritablement unifiée du comportement et de l’interaction de l’utilisateur.

Ce qui rend la résolution d’identité complexe, c’est qu’une entité peut avoir plusieurs identifiants associés. Ces identifiants peuvent varier en fonction de la source ou du système dont ils proviennent. Par exemple, une personne peut avoir un identifiant basé sur son numéro de téléphone dans un système, un autre basé sur son adresse e-mail dans un autre système, et ainsi de plus. La hiérarchie des ID implique d’organiser ces identifiants dans une structure ou une séquence logique qui détermine lesquels sont les plus fiables ou prioritaires par rapport aux autres.

La partie cruciale de la résolution d’identité consiste à lier ces identifiants entre eux. Cela peut se faire par diverses techniques, telles que l’analyse des similitudes entre les identifiants, la vérification de l’égalité entre eux ou l’utilisation d’algorithmes de corrélation avancés. L’objectif est de connecter ou de mapper différents identifiants à un identifiant primaire ou unique pour l’entité en question.

Bytek Prediction Platform résout ce problème en aidant à la configuration d’un identifiant unique dès la phase de collecte des données, garantissant ainsi que l’ensemble du processus reste cohérent et rationnel. Cette approche permet d’éviter des activités complexes de modélisation et de réconciliation qui peuvent être coûteuses et entraîner une faible qualité des données.

Une fois la phase de résolution d’identité terminée, vous pouvez être certain d’avoir une vue à 360 degrés de l’utilisateur. Par conséquent, tous les modèles et segments que vous appliquez peuvent être attribués à l’utilisateur individuel, libérant ainsi tout le potentiel de l’automatisation et de la personnalisation de l’expérience utilisateur.

Segmentation d’audience

Les utilisateurs sont divisés en groupes homogènes basés sur des critères tels que les intérêts, les comportements ou les données démographiques. Ce processus permet de personnaliser les stratégies marketing en fonction des besoins et des préférences de chaque groupe.

Commençons par distinguer deux processus qui sont parfois confondus mais bien différents : la segmentation et le clustering.

Par segmentation, nous entendons la division de notre base de clients en segments. Habituellement, cette activité est basée sur des critères qualitatifs et des décisions commerciales. Les audiences créées ne tiennent pas compte de la « similitude » entre les utilisateurs, qui peut être prise en compte à l’aide de techniques de clustering statistique. L’importance est sans aucun doute forte, mais la valeur statistique est faible, ce qui entraîne une mauvaise fiabilité des données et une difficulté à utiliser le segment pour le reciblage ou l’analyse d’insights.

Le clustering, en revanche, est une analyse statistique qui permet de diviser une audience en groupes d’utilisateurs « similaires » en fonction des paramètres que nous utilisons. Par exemple, nous pouvons produire une analyse RFM visant à identifier les clients à fort potentiel, les clients fréquents mais dépensant peu, et les meilleurs clients. En utilisant des techniques de clustering comme K-Means, nous regrouperons les utilisateurs en segments efficaces et significatifs, en attribuant le bon label et en surveillant statistiquement quand notre clustering continue d’avoir une bonne cohérence.

Souvent, la segmentation des utilisateurs souffre de problèmes qui compromettent complètement son efficacité. Examinons les plus courants :

Appartenance incorrecte à un groupe

Cela se produit généralement lorsque nous n’utilisons pas de méthodologies de segmentation statistique ou lorsque les données entrantes sont inexactes. Dans le premier cas, nous avons été trop arbitraires dans la création du segment d’audience, incluant des utilisateurs qui n’appartiennent probablement pas directement à ce groupe. L’exemple classique est l’inclusion d’utilisateurs dans la catégorie « Meilleurs clients » qui ne sont pas actuellement les meilleurs clients de l’entreprise, mais qui recevront tout de même des messages et des promotions comme s’ils l’étaient.

Dans le second cas, le problème ne réside pas dans le système de segmentation mais dans la collecte des données : nous avons peut-être perdu certaines transactions importantes en raison de problèmes de suivi ou de données mal gérées provenant d’une source particulière. Par conséquent, un client très important pourrait se retrouver dans un cluster de moindre valeur et ne pas bénéficier pleinement de toutes les stratégies qui lui sont dédiées.

Le problème d’une taille de groupe trop petite

Une autre erreur courante en segmentation est la tendance à créer des groupes trop petits pour être statistiquement significatifs et utilisables sur les plateformes publicitaires.

Si nous voulons garantir que nos stratégies marketing tirent le meilleur parti du potentiel de segmentation, nos groupes doivent avoir une taille permettant de les cibler dans des campagnes sur les plateformes publicitaires ainsi que dans nos systèmes de marketing direct.

En ce qui concerne les plateformes publicitaires, nous devons tenir compte des limitations de confidentialité et des limitations réelles de diffusion. La première limitation est une méthode de protection des plateformes visant à les empêcher d’identifier facilement les utilisateurs individuels téléchargés sur leurs plateformes et d’avoir ainsi accès à des informations sans leur consentement. La protection est absolument nécessaire, mais elle pose un défi de ciblage. Nous devons toujours être en mesure de créer des audiences d’au moins 800/1000 utilisateurs si nous voulons assurer l’activation via Meta ou Google.

Nous devons également nous rappeler que tous les utilisateurs ne seront pas reconnus lorsque nous envoyons ces segments aux plateformes. Les pourcentages de correspondance varient considérablement d’un secteur à l’autre, et nous ne pouvons vérifier qu’a posteriori si nos stratégies de segmentation créent effectivement des audiences utilisables.

Même dans le cas de campagnes de marketing direct, il est important d’avoir la bonne taille d’audience. Avoir des segments de 1 ou 2 utilisateurs n’est pas avantageux en termes d’agrégation et d’automatisation et peut nous empêcher d’envoyer des messages efficaces.

La pertinence limitée de la segmentation pour les stratégies marketing

Souvent, les activités de segmentation sont réalisées sans tenir compte de la stratégie marketing et des objectifs commerciaux. Typiquement, les entreprises sont divisées en silos, et la segmentation est effectuée soit par l’équipe IT/Data Science, soit par l’équipe Marketing.

Cette division des rôles conduit souvent à des segments qui ne sont pas parfaitement alignés avec la stratégie et, par conséquent, difficiles à utiliser. Par exemple, avoir un segment de clients fréquents n’est pas toujours stratégique si notre objectif ultime n’est pas d’augmenter le nombre de meilleurs clients mais de faire croître la base de clients.

Dans le cas de segments basés sur la démographie ou les intérêts, la question devient encore plus sensible. Fournir des données sur le sexe ou l’âge est une activité standard qui implique souvent une complexité et des défis liés au RGPD, même s’il n’y a pas de campagne envisageant cette segmentation.

Seule l’implication active des professionnels de l’entreprise dans le projet d’enrichissement des données clients garantit que l’audience s’aligne sur les besoins stratégiques et soit immédiatement applicable.

La faible similitude entre les individus au sein du groupe

Comme nous l’avons vu au début, une segmentation manuelle qui ne tient pas compte d’une approche statistique risque d’inclure dans certains clusters des utilisateurs qui ne sont pas réellement similaires aux autres. Bien que cette flexibilité puisse être très appréciée d’un point de vue stratégique, il n’est pas rare de voir que l’utilisation d’audiences construites de cette manière entraîne de mauvaises performances de campagne en raison d’une segmentation d’audience incorrecte.

Reverse ETL

Le processus de Reverse ETL est un élément crucial de la capacité d’une CDP à s’intégrer dans un écosystème marketing et à activer efficacement la segmentation et l’enrichissement des données clients.

Le processus inversé part de la source unique de vérité, l’entrepôt de données créé lors de la phase ETL, et extrait les données pour les intégrer dans des plateformes d’activation telles que le CRM, les plateformes de Marketing Automation et les plateformes PPC (Google, Meta, TikTok).

Le processus de Reverse ETL est seul responsable de la création de requêtes efficaces et d’intégrations stables pour garantir que les données circulent correctement et permettent à l’équipe marketing d’obtenir des résultats optimaux.

Cependant, il ne suffit souvent pas d’avoir des requêtes bien structurées. Nous devons nous concentrer sur les besoins spécifiques d’une campagne ou d’un parcours d’automatisation pour garantir que le flux de données puisse être activé avec une stratégie claire et percutante.

Bytek Prediction Platform est construite sur ce postulat, transformant le paradigme des données non seulement au niveau technique mais, plus important encore, au niveau stratégique.

Nous avons déjà développé des stratégies d’activation et d’amélioration des performances telles que l’enchère enrichie, et grâce à nos stratégies, nous pouvons inverser le flux de données et exposer toutes les données nécessaires pour que des plateformes comme Google Ads exploitent les données de première partie et améliorent considérablement les performances des campagnes.

Ce processus est rendu possible par une vaste expérience dans la collecte et l’intégration de données marketing, ainsi que par une compréhension approfondie des dynamiques du marketing numérique.

De cette manière, le processus de Reverse ETL peut véritablement être décrit comme de bout en bout.

Cas d’utilisation

Secteur

Équipe

Les étapes de la gestion des données dans une CDP Headless

Infrastructure de données clients (CDI)

ETL (Extract, Transform, Load) et ingestion de données

Résolution d’identité

Segmentation d’audience

Appartenance incorrecte à un groupe

Le problème d’une taille de groupe trop petite

La pertinence limitée de la segmentation pour les stratégies marketing

La faible similitude entre les individus au sein du groupe

Reverse ETL

Cela pourrait également vous intéresser

Activation de l’audience : Comment transformer les segments prédictifs en campagnes omnicanales, expériences et relations client

Concevoir la collecte de données de première partie dès le premier point de contact : pourquoi la qualité des données commence par l’architecture, et non par les outils

Signal Engineering : la nouvelle infrastructure de la performance publicitaire à l’ère post-cookie

Prêt à transformer vos données en revenus ?