Retos y soluciones en el uso de la IA para clasificar los intereses de los usuarios

La inteligencia artificial está revolucionando el sector corporativo, ofreciendo herramientas avanzadas para analizar datos y comprender el comportamiento de los usuarios. Mediante técnicas de aprendizaje automático y procesamiento del lenguaje natural, las empresas pueden extraer información valiosa de las interacciones digitales, personalizar las experiencias de los clientes y optimizar las estrategias de marketing.

En este artículo, exploraremos cómo la IA permite identificar con precisión los intereses de los usuarios a partir de los datos de navegación, centrándonos en los retos y las soluciones técnicas asociadas a este proceso.

Análisis de intereses: cómo funciona

Para identificar los intereses de un usuario que visita un sitio web, basta con recopilar y analizar los datos de navegación, es decir, las páginas visitadas. Estos datos, al recopilarse directamente desde el sitio, se encuadran en la categoría de datos de primera parte (first-party data).

¿Quiere implementar esta estrategia?

Nuestros modelos de IA pueden ayudarle a conseguir estos resultados en semanas, no en meses.

Descubra Cómo

El proceso consiste en asignar a cada página del sitio una etiqueta que indique un interés temático y/o de producto. Una vez asignadas estas etiquetas, basta con analizar cómo navegó el usuario entre los distintos intereses.

Imaginemos que queremos identificar los intereses de producto de un usuario que navega por el sitio de Amazon. Con un algoritmo sencillo que tenga en cuenta las páginas vistas y el tiempo dedicado a ellas, podemos deducir que el usuario está interesado, por ejemplo, en alfombras, simplemente proporcionando al algoritmo las categorías de producto asociadas a las distintas páginas.

Sin embargo, atribuir un interés temático a los usuarios que visitan distintas páginas puede ser más complejo. Supongamos que el mismo usuario visitó tres páginas que, basándonos solo en el tipo de producto, no tienen nada en común. No obstante, estas páginas podrían compartir un interés transversal o “personalizado”, como un enfoque en la sostenibilidad y el medioambiente.

En este caso, podríamos asignar al usuario tanto un interés de producto como un interés personalizado, indicando que es sensible a las cuestiones medioambientales. En consecuencia, sería adecuado ofrecerle productos relacionados con este ámbito.

El proceso de asignación de este interés parece sencillo: hay que analizar el contenido textual de las páginas y asignar la misma etiqueta a todas aquellas que traten el mismo tema. Sin embargo, aquí es donde surgen los principales retos, ya que se requiere un análisis semántico sofisticado y la capacidad de reconocer temas comunes dentro de contenidos heterogéneos.

Enfoques y algoritmos para el análisis de intereses

Para categorizar las páginas de un sitio según intereses temáticos, pueden adoptarse distintos enfoques, y aquí proponemos tres, intentando destacar sus ventajas e inconvenientes.

Aprendizaje automático

El primer enfoque, el más tradicional, consiste en utilizar un modelo clásico de clasificación basado en aprendizaje automático. En este caso, es necesario seleccionar un algoritmo de clasificación entre los muchos disponibles y proceder a construir un diccionario para entrenar el algoritmo. Esto implica tener una definición clara de todas las etiquetas personalizadas con las que se desea clasificar las páginas del sitio y proporcionar un número adecuado de ejemplos, textos y descripciones asociados a cada etiqueta.

Estos modelos tienen algunas ventajas significativas. En primer lugar, son deterministas, lo que significa que aplicar el mismo algoritmo a los mismos datos siempre producirá el mismo resultado. Además, son de bajo coste y pueden implementarse internamente sin necesidad de proveedores.

Sin embargo, también existen limitaciones. El entrenamiento del modelo requiere la creación de un diccionario, a menudo muy extenso; no basta con aportar uno o dos ejemplos por etiqueta, sino que se necesitan muchos más. Esto supone un esfuerzo considerable para crear un diccionario adecuado para entrenar el modelo. Además, estos modelos funcionan eficazmente cuando el número de clústeres es limitado. En un sitio como Amazon, donde pueden identificarse cientos de clústeres, el enfoque resulta menos viable. Cada vez que se añade un nuevo clúster, etiqueta o interés, es necesario actualizar el diccionario y reentrenar el modelo, lo que hace que este método sea insostenible.

IA generativa

El segundo enfoque consiste en utilizar modelos de inteligencia artificial generativa, que pueden implementarse de dos maneras: con limitaciones y sin limitaciones.

IA generativa con limitaciones

Al usar IA generativa “con limitaciones”, se proporciona a la herramienta la lista completa de clústeres deseados y unos pocos ejemplos para cada uno, significativamente menos que los 30-40 ejemplos necesarios en los modelos tradicionales de aprendizaje automático. Estos modelos preentrenados destacan al gestionar un gran número de clústeres y requieren poco mantenimiento, ya que plataformas como OpenAI se encargan de gran parte del proceso. Para añadir un nuevo clúster, basta con editar el prompt inicial, incluir el nuevo clúster y añadir un par de ejemplos.

Sin embargo, este método presenta dos problemas fundamentales:

El modelo no es determinista: aplicar el mismo algoritmo a los mismos datos varias veces puede dar lugar a resultados diferentes, lo cual es indeseable para la consistencia de los datos.
Costes elevados: si tiene un sitio con, por ejemplo, 20.000 páginas, utilizar la API proporcionada por un proveedor se vuelve económicamente insostenible. Esto no solo se debe a la gran cantidad de datos que hay que analizar, sino también a que los prompts largos necesarios para el proceso incrementan significativamente los costes.

IA generativa sin restricciones

En este caso, en lugar de proporcionar todos los clústeres, solo se pasan a la IA generativa unos pocos ejemplos, pidiéndole al modelo que realice la clasificación basándose en ellos e inventando otros clústeres útiles para la clasificación. La primera ejecución puede funcionar muy bien: la herramienta lee, clasifica e identifica clústeres significativos. Con un prompt bien formulado, los resultados obtenidos pueden ser muy satisfactorios. Además, la IA puede identificar de forma autónoma nuevos clústeres emergentes. Este método es eficaz con muchos clústeres y requiere muy pocos ejemplos. A pesar de las ventajas, existen algunas criticidades:

El modelo sigue siendo no determinista: cada vez que se vuelve a ejecutar el modelo para actualizar los intereses, puede generar clústeres diferentes, sin recordar clasificaciones anteriores. Por ejemplo, lo que hoy se etiqueta como “eco-sostenibilidad” podría convertirse en “respeto medioambiental” en una ejecución posterior. Esto conlleva la necesidad de implementar un sistema de limpieza y estandarización de resultados, anulando parcialmente los beneficios iniciales.
Aunque los costes son inferiores a los de la versión restringida, siguen siendo bastante elevados.

En un escenario ideal, dispondríamos de un modelo determinista al que pudiéramos suministrar un diccionario relativamente limitado, evitando así dedicar demasiado tiempo a su construcción. El modelo debería funcionar eficazmente con numerosos clústeres, requerir poco mantenimiento y tener un coste bajo.

Nuestra solución con embeddings

Para lograrlo, adoptamos —e integramos en nuestra Bytek Prediction Platform— un enfoque basado en embeddings. Esta técnica se utiliza ampliamente en el procesamiento del lenguaje natural y en otras aplicaciones de inteligencia artificial para mejorar la comprensión de textos, la búsqueda semántica, la clasificación y la generación de contenido. Los embeddings transforman el texto en vectores numéricos de alta dimensionalidad, preservando el significado semántico del contenido. Esta transformación es crucial porque permite comparar textos en función de su contenido semántico.

Una vez que cada texto se representa como un vector numérico, es posible calcular la distancia entre dos textos, de forma análoga a calcular la distancia entre dos puntos en un espacio numérico. Incluso utilizando la simple distancia euclídea, pueden obtenerse resultados significativos. Por ejemplo, la distancia entre las palabras “alfombra” y “kilim” (un tipo de alfombra) es mucho menor que la existente entre “alfombra” y “vidrio”, ya que los embeddings capturan las relaciones semánticas entre las palabras.

Ventajas del enfoque con embeddings

Este método resuelve eficazmente los problemas anteriores:

Determinismo: el modelo produce resultados consistentes en cada ejecución.
Clústeres predefinidos: los clústeres se proporcionan en la fase de entrenamiento, evitando la generación de clústeres no deseados.
Diccionario limitado: bastan 3-4 ejemplos por clúster, lo que reduce el tiempo de preparación.
Escalabilidad: funciona bien con un gran número de clústeres.
Bajo mantenimiento: requiere una intervención mínima tras la implementación inicial.
Bajos costes: los costes son asumibles y menores que los de otras soluciones

Asignación de intereses a los usuarios

Una vez asignadas las etiquetas a todas las páginas, el siguiente paso es asignar productos y/o intereses a cada usuario. Para ello, hemos desarrollado un algoritmo propietario que tiene en cuenta tanto el comportamiento individual del usuario como el comportamiento colectivo de otros usuarios. Por ejemplo, un usuario realmente interesado en la eco-sostenibilidad tiende a visitar muchas páginas relacionadas, dedica tiempo a leer en detalle las descripciones de los productos e interactúa con el contenido en profundidad. En consecuencia, un acceso ocasional a una página sobre sostenibilidad no es suficiente para concluir que el usuario está interesado en este tema.

Es esencial analizar:

Comportamiento transversal: cómo interactúa el usuario con distintos intereses.
Comparación colectiva: cómo se relaciona su comportamiento con el de otros usuarios con intereses similares.

Solo mediante este análisis en profundidad pueden determinarse los intereses reales del usuario con un alto grado de confianza. Este enfoque integrado permite una clasificación de intereses más precisa y fiable, mejorando la personalización y la eficacia de las estrategias de marketing y de interacción con el usuario.

Caso de uso

Sector

Equipo

Retos y soluciones en el uso de la IA para clasificar los intereses de los usuarios

Análisis de intereses: cómo funciona

Enfoques y algoritmos para el análisis de intereses

Aprendizaje automático

IA generativa

IA generativa con limitaciones

IA generativa sin restricciones

Nuestra solución con embeddings

Ventajas del enfoque con embeddings

Asignación de intereses a los usuarios

También podría interesarle

Activación de Audiencias: Cómo transformar segmentos predictivos en campañas omnicanal, experiencias y relaciones con los clientes

Diseño de la recopilación de datos propios desde el primer punto de contacto: por qué la calidad de los datos comienza con la arquitectura, no con las herramientas

Signal Engineering: la nueva infraestructura del rendimiento publicitario en la era post-cookie

¿Listo para convertir sus datos en ingresos?