L’intelligence artificielle révolutionne le secteur des entreprises, offrant des outils avancés pour analyser les données et comprendre le comportement des utilisateurs. Grâce aux techniques d’apprentissage automatique (machine learning) et de traitement du langage naturel, les entreprises peuvent extraire des informations précieuses des interactions numériques, personnaliser les expériences client et optimiser les stratégies marketing.
Dans cet article, nous explorerons comment l’IA permet l’identification précise des intérêts des utilisateurs à partir des données de navigation, en nous concentrant sur les défis et les solutions techniques associés à ce processus.
Analyse des intérêts : comment ça marche
Afin d’identifier les intérêts d’un utilisateur visitant un site web, il suffit de collecter et d’analyser les données de navigation, c’est-à-dire les pages visitées. Ces données, étant collectées directement depuis le site, entrent dans la catégorie des données de première partie (first-party data).
Souhaitez-vous mettre en œuvre cette stratégie ?
Nos modèles d’IA peuvent vous aider à atteindre ces résultats en quelques semaines, pas en plusieurs mois.
Découvrez commentLe processus consiste à attribuer une étiquette indiquant un intérêt thématique et/ou produit à chaque page du site. Une fois ces étiquettes attribuées, il suffit d’analyser la manière dont l’utilisateur a navigué à travers les différents intérêts.
Imaginons que nous voulions identifier les intérêts produits d’un utilisateur naviguant sur le site Amazon. En utilisant un algorithme simple qui prend en compte les pages consultées et le temps passé sur celles-ci, nous pouvons déduire que l’utilisateur est intéressé par, disons, les tapis, simplement en fournissant à l’algorithme les catégories de produits associées aux différentes pages.
Cependant, attribuer un intérêt thématique aux utilisateurs visitant différentes pages peut être plus complexe. Supposons que le même utilisateur ait visité trois pages qui, basées uniquement sur le type de produit, n’ont rien en commun. Ces pages pourraient cependant partager un intérêt transversal ou « personnalisé », tel qu’un accent sur la durabilité et l’environnement.
Dans ce cas, nous pourrions attribuer à l’utilisateur à la fois un intérêt produit et un intérêt personnalisé, indiquant qu’il est sensible aux questions environnementales. Par conséquent, il serait approprié de lui proposer des produits liés à cette sphère.
Le processus d’attribution de cet intérêt semble simple : nous devons analyser le contenu textuel des pages et attribuer la même étiquette à toutes les pages qui traitent du même sujet. Cependant, les principaux défis émergent ici, car une analyse sémantique sophistiquée et la capacité à reconnaître des thèmes communs au sein de contenus hétérogènes sont requises.
Approches et algorithmes pour l’analyse des intérêts
Afin de catégoriser les pages d’un site selon des intérêts thématiques, différentes approches peuvent être adoptées, et nous en proposons ici trois, en essayant de souligner leurs avantages et leurs inconvénients.
Apprentissage automatique
La première approche, la plus traditionnelle, implique l’utilisation d’un modèle de classification classique basé sur l’apprentissage automatique. Dans ce cas, il est nécessaire de sélectionner un algorithme de classification parmi les nombreux disponibles et de procéder à la construction d’un dictionnaire pour l’entraînement de l’algorithme. Cela implique d’avoir une définition claire de toutes les étiquettes personnalisées avec lesquelles on souhaite classer les pages du site et de fournir un nombre adéquat d’exemples, de textes et de descriptions associés à chaque étiquette.
Ces modèles présentent des avantages significatifs. Premièrement, ils sont déterministes, ce qui signifie que l’application du même algorithme aux mêmes données produira toujours le même résultat. De plus, ils sont peu coûteux et peuvent être implémentés en interne sans avoir recours à des fournisseurs.
Cependant, il existe également des limites. L’entraînement du modèle nécessite la création d’un dictionnaire souvent très étendu ; il ne suffit pas de fournir un ou deux exemples par étiquette, mais beaucoup plus sont nécessaires. Cela signifie qu’un effort considérable est requis pour créer un dictionnaire adapté à l’entraînement du modèle. De plus, ces modèles fonctionnent efficacement lorsque le nombre de clusters est limité. Sur un site comme Amazon, où des centaines de clusters peuvent être identifiés, l’approche devient moins réalisable. Chaque fois qu’un nouveau cluster, une nouvelle étiquette ou un nouvel intérêt est ajouté, il est nécessaire de mettre à jour le dictionnaire et de réentraîner le modèle, rendant cette méthode insoutenable.
IA générative
La deuxième approche implique l’utilisation de modèles d’intelligence artificielle générative, qui peuvent être implémentés de deux manières : avec et sans limitations.
IA générative avec limitations
En utilisant l’IA générative « avec limitations », vous fournissez à l’outil la liste complète des clusters souhaités et quelques exemples pour chacun, significativement moins que les 30 à 40 exemples nécessaires dans les modèles d’apprentissage automatique traditionnels. Ces modèles pré-entraînés excellent dans la gestion d’un grand nombre de clusters et nécessitent peu de maintenance, car des plateformes telles qu’OpenAI gèrent une grande partie du processus. Pour ajouter un nouveau cluster, il suffit de modifier le prompt initial, d’inclure le nouveau cluster et d’ajouter quelques exemples.
Cependant, cette méthode présente deux problèmes fondamentaux :
- Le modèle n’est pas déterministe : l’application du même algorithme aux mêmes données plusieurs fois peut conduire à des résultats différents, ce qui est indésirable pour la cohérence des données.
- Coûts élevés : si vous avez un site avec, disons, 20 000 pages, l’utilisation de l’API fournie par un prestataire devient économiquement insoutenable. Cela est dû non seulement à la grande quantité de données à analyser, mais aussi au fait que les longs prompts requis pour le processus augmentent considérablement les coûts.
IA générative sans restrictions
Dans ce cas, au lieu de fournir tous les clusters, seuls quelques exemples sont transmis à l’IA générative, demandant au modèle d’effectuer la classification sur cette base et d’inventer d’autres clusters utiles à la classification. La première exécution peut très bien fonctionner : l’outil lit, classe et identifie des clusters significatifs. Avec un prompt bien formulé, les résultats obtenus peuvent être très satisfaisants. De plus, l’IA peut identifier de manière autonome de nouveaux clusters émergents. Cette méthode est efficace avec de nombreux clusters et nécessite très peu d’exemples. Malgré les avantages, il existe quelques points critiques :
- Le modèle reste non déterministe : chaque fois que le modèle est réexécuté pour mettre à jour les intérêts, il peut générer des clusters différents, ne se souvenant pas des classifications précédentes. Par exemple, ce qui est étiqueté « éco-durabilité » aujourd’hui pourrait devenir « respect de l’environnement » lors d’une exécution ultérieure. Cela conduit à la nécessité de mettre en œuvre un système de nettoyage et de standardisation des résultats, annulant partiellement les avantages initiaux.
- Bien que les coûts soient inférieurs à ceux de la version restreinte, ils restent assez élevés.
Dans un scénario idéal, nous aurions un modèle déterministe auquel nous pourrions fournir un dictionnaire relativement limité, évitant ainsi de passer trop de temps à sa construction. Le modèle devrait fonctionner efficacement avec de nombreux clusters, nécessiter peu de maintenance et être peu coûteux.
Notre solution avec les embeddings
Pour y parvenir, nous avons adopté – et intégré à notre plateforme de prédiction Bytek – une approche basée sur les embeddings. Cette technique est largement utilisée dans le traitement du langage naturel et d’autres applications d’intelligence artificielle pour améliorer la compréhension de texte, la recherche sémantique, la classification et la génération de contenu. Les embeddings transforment le texte en vecteurs numériques de haute dimension tout en préservant la signification sémantique du contenu. Cette transformation est cruciale car elle permet de comparer les textes sur la base de leur contenu sémantique.
Une fois chaque texte représenté comme un vecteur numérique, il est possible de calculer la distance entre deux textes, de manière analogue au calcul de la distance entre deux points dans un espace numérique. Même en utilisant la simple distance euclidienne, des résultats significatifs peuvent être obtenus. Par exemple, la distance entre les mots « tapis » et « kilim » (un type de tapis) est beaucoup plus petite que celle entre « tapis » et « verre », car les embeddings capturent les relations sémantiques entre les mots.
Avantages de l’approche par embeddings
Cette méthode résout efficacement les problèmes précédents :
- Déterminisme : Le modèle produit des résultats cohérents à chaque exécution.
- Clusters prédéfinis : Les clusters sont fournis lors de la phase d’entraînement, évitant la génération de clusters indésirables.
- Dictionnaire limité : 3 à 4 exemples par cluster suffisent, réduisant le temps de préparation.
- Évolutivité : Fonctionne bien avec un grand nombre de clusters.
- Faible maintenance : Nécessite une intervention minimale après l’implémentation initiale.
- Coûts réduits : Les coûts sont gérables et inférieurs à ceux des autres solutions.
Attribution des intérêts aux utilisateurs
Une fois les étiquettes attribuées à toutes les pages, l’étape suivante consiste à attribuer des produits et/ou des intérêts à chaque utilisateur. Pour ce faire, nous avons développé un algorithme propriétaire qui prend en compte à la fois le comportement individuel de l’utilisateur et le comportement collectif des autres utilisateurs. Par exemple, un utilisateur réellement intéressé par l’éco-durabilité a tendance à visiter de nombreuses pages connexes, passe du temps à lire les descriptions de produits en détail et interagit en profondeur avec le contenu. Par conséquent, un accès occasionnel à une page sur la durabilité n’est pas suffisant pour conclure que l’utilisateur est intéressé par ce sujet.
Il est essentiel d’analyser :
- Comportement transversal : Comment l’utilisateur interagit avec différents intérêts.
- Comparaison collective : Comment son comportement se rapporte à celui d’autres utilisateurs ayant des intérêts similaires.
Ce n’est que par cette analyse approfondie que les intérêts réels de l’utilisateur peuvent être déterminés avec un degré de confiance élevé. Cette approche intégrée permet une classification plus précise et fiable des intérêts, améliorant la personnalisation et l’efficacité des stratégies de marketing et d’interaction avec les utilisateurs.



