L’intelligenza artificiale sta rivoluzionando il settore aziendale, offrendo strumenti avanzati per analizzare i dati e comprendere il comportamento degli utenti. Attraverso tecniche di machine learning e di elaborazione del linguaggio naturale, le aziende possono estrarre informazioni preziose dalle interazioni digitali, personalizzare l’esperienza dei clienti e ottimizzare le strategie di marketing.
In questo articolo esploreremo come l’IA consenta di identificare accuratamente gli interessi degli utenti a partire dai dati di navigazione, concentrandoci sulle sfide e sulle soluzioni tecniche associate a questo processo.
Analisi degli interessi: come funziona
Per identificare gli interessi di un utente che visita un sito web, è sufficiente raccogliere e analizzare i dati di navigazione, ovvero le pagine visitate. Questi dati, essendo raccolti direttamente dal sito, rientrano nella categoria dei dati di prima parte (first-party data).
Vuoi implementare questa strategia?
I nostri modelli di IA possono aiutarti a raggiungere questi risultati in settimane, non in mesi.
Scopri comeIl processo prevede l’assegnazione di un’etichetta che indichi un interesse tematico e/o di prodotto a ogni pagina del sito. Una volta assegnate queste etichette, basta analizzare come l’utente ha navigato tra i diversi interessi.
Immaginiamo di voler identificare gli interessi di prodotto di un utente che naviga sul sito di Amazon. Utilizzando un semplice algoritmo che considera le pagine visualizzate e il tempo trascorso su di esse, possiamo dedurre che l’utente sia interessato, ad esempio, ai tappeti, semplicemente fornendo all’algoritmo le categorie di prodotto associate alle varie pagine.
Tuttavia, attribuire un interesse tematico agli utenti che visitano pagine diverse può essere più complesso. Supponiamo che lo stesso utente abbia visitato tre pagine che, basandosi solo sulla tipologia di prodotto, non hanno nulla in comune. Queste pagine, però, potrebbero condividere un interesse trasversale o “personalizzato”, come l’attenzione alla sostenibilità e all’ambiente.
In questo caso, potremmo assegnare all’utente sia un interesse di prodotto che un interesse personalizzato, indicando la sua sensibilità alle tematiche ambientali. Di conseguenza, sarebbe opportuno proporgli prodotti legati a questo ambito.
Il processo di assegnazione di questo interesse sembra semplice: dobbiamo analizzare il contenuto testuale delle pagine e assegnare la stessa etichetta a tutte le pagine che trattano lo stesso argomento. Tuttavia, è qui che emergono le sfide principali, poiché sono necessarie una sofisticata analisi semantica e la capacità di riconoscere temi comuni all’interno di contenuti eterogenei.
Approcci e algoritmi per l’analisi degli interessi
Per categorizzare le pagine di un sito in base agli interessi tematici si possono adottare diversi approcci; qui ne proponiamo tre, cercando di evidenziarne vantaggi e svantaggi.
Machine Learning
Il primo approccio, quello più tradizionale, prevede l’uso di un classico modello di classificazione basato sul machine learning. In questo caso, è necessario selezionare un algoritmo di classificazione tra i molti disponibili e procedere alla costruzione di un dizionario per l’addestramento dell’algoritmo. Ciò implica avere una definizione chiara di tutte le etichette personalizzate con cui si desidera classificare le pagine del sito e fornire un numero adeguato di esempi, testi e descrizioni associati a ciascuna etichetta.
Questi modelli presentano alcuni vantaggi significativi. In primo luogo, sono deterministici: applicando lo stesso algoritmo ai medesimi dati si otterrà sempre lo stesso risultato. Inoltre, hanno costi contenuti e possono essere implementati internamente senza bisogno di provider esterni.
Tuttavia, vi sono anche dei limiti. L’addestramento del modello richiede la creazione di un dizionario spesso molto esteso; non basta fornire uno o due esempi per etichetta, ne servono molti di più. Ciò significa che è richiesto un impegno considerevole per creare un dizionario adatto all’addestramento del modello. Inoltre, questi modelli funzionano efficacemente quando il numero di cluster è limitato. In un sito come Amazon, dove si possono identificare centinaia di cluster, l’approccio diventa meno fattibile. Ogni volta che viene aggiunto un nuovo cluster, etichetta o interesse, è necessario aggiornare il dizionario e riaddestrare il modello, rendendo questo metodo insostenibile.
IA Generativa
Il secondo approccio prevede l’uso di modelli di intelligenza artificiale generativa, che possono essere implementati in due modi: con limitazioni e senza limitazioni.
IA generativa con limitazioni
Utilizzando l’IA generativa “con limitazioni”, si fornisce allo strumento l’intero elenco dei cluster desiderati e alcuni esempi per ciascuno, un numero significativamente inferiore ai 30-40 esempi necessari nei modelli di machine learning tradizionali. Questi modelli pre-addestrati eccellono nella gestione di un gran numero di cluster e richiedono poca manutenzione, poiché piattaforme come OpenAI gestiscono gran parte del processo. Per aggiungere un nuovo cluster, basta modificare il prompt iniziale, includere il nuovo cluster e aggiungere un paio di esempi.
Tuttavia, questo metodo presenta due problemi fondamentali:
- Il modello non è deterministico: applicare più volte lo stesso algoritmo ai medesimi dati può portare a risultati diversi, il che è controproducente per la coerenza dei dati.
- Costi elevati: se hai un sito con, ad esempio, 20.000 pagine, l’uso delle API fornite da un provider diventa economicamente insostenibile. Questo non solo per la grande quantità di dati da analizzare, ma anche perché i lunghi prompt richiesti per il processo aumentano significativamente i costi.
IA generativa senza restrizioni
In questo caso, invece di fornire tutti i cluster, si passano all’IA generativa solo alcuni esempi, chiedendo al modello di eseguire la classificazione basandosi su di essi e inventando altri cluster utili alla classificazione. La prima esecuzione può funzionare molto bene: lo strumento legge, classifica e identifica cluster significativi. Con un prompt ben formulato, i risultati ottenuti possono essere molto soddisfacenti. Inoltre, l’IA può identificare autonomamente nuovi cluster emergenti. Questo metodo è efficace con molti cluster e richiede pochissimi esempi. Nonostante i vantaggi, ci sono alcune criticità:
- Il modello rimane non deterministico: ogni volta che viene riavviato per aggiornare gli interessi, può generare cluster diversi, non ricordando le classificazioni precedenti. Ad esempio, ciò che oggi è etichettato come “eco-sostenibilità” potrebbe diventare “rispetto per l’ambiente” in un’esecuzione successiva. Ciò comporta la necessità di implementare un sistema di pulizia e standardizzazione dei risultati, annullando parzialmente i benefici iniziali.
- Sebbene i costi siano inferiori rispetto alla versione con restrizioni, rimangono comunque piuttosto elevati.
In uno scenario ideale, avremmo un modello deterministico a cui poter fornire un dizionario relativamente limitato, evitando così di spendere troppo tempo nella sua costruzione. Il modello dovrebbe funzionare efficacemente con numerosi cluster, richiedere poca manutenzione e avere costi contenuti.
La nostra soluzione con gli Embeddings
Per ottenere questo risultato, abbiamo adottato – e integrato nella nostra Bytek Prediction Platform – un approccio basato sugli embeddings. Questa tecnica è ampiamente utilizzata nell’elaborazione del linguaggio naturale e in altre applicazioni di intelligenza artificiale per migliorare la comprensione del testo, la ricerca semantica, la classificazione e la generazione di contenuti. Gli embeddings trasformano il testo in vettori numerici ad alta dimensione, preservando il significato semantico del contenuto. Questa trasformazione è fondamentale perché permette di confrontare i testi sulla base del loro contenuto semantico.
Una volta che ogni testo è rappresentato come un vettore numerico, è possibile calcolare la distanza tra due testi, analogamente al calcolo della distanza tra due punti in uno spazio numerico. Anche utilizzando la semplice distanza euclidea, si possono ottenere risultati significativi. Ad esempio, la distanza tra le parole “tappeto” e “kilim” (un tipo di tappeto) è molto più piccola di quella tra “tappeto” e “vetro”, poiché gli embeddings catturano le relazioni semantiche tra le parole.
Vantaggi dell’approccio con gli Embeddings
Questo metodo risolve efficacemente i problemi precedenti:
- Determinismo: il modello produce risultati coerenti a ogni esecuzione.
- Cluster predefiniti: i cluster vengono forniti nella fase di addestramento, evitando la generazione di cluster indesiderati.
- Dizionario limitato: sono sufficienti 3-4 esempi per cluster, riducendo i tempi di preparazione.
- Scalabilità: funziona bene con un gran numero di cluster.
- Bassa manutenzione: richiede un intervento minimo dopo l’implementazione iniziale.
- Costi contenuti: i costi sono gestibili e inferiori rispetto ad altre soluzioni.
Assegnazione degli interessi agli utenti
Una volta assegnate le etichette a tutte le pagine, il passo successivo è assegnare prodotti e/o interessi a ciascun utente. Per farlo, abbiamo sviluppato un algoritmo proprietario che considera sia il comportamento del singolo utente sia il comportamento collettivo degli altri utenti. Ad esempio, un utente realmente interessato all’eco-sostenibilità tende a visitare molte pagine correlate, dedica tempo a leggere le descrizioni dei prodotti in dettaglio e interagisce profondamente con i contenuti. Di conseguenza, un accesso occasionale a una pagina sulla sostenibilità non è sufficiente per concludere che l’utente sia interessato a questo argomento.
È essenziale analizzare:
- Comportamento trasversale: come l’utente interagisce con i diversi interessi.
- Confronto collettivo: come il suo comportamento si relaziona a quello di altri utenti con interessi simili.
Solo attraverso questa analisi approfondita è possibile determinare i reali interessi dell’utente con un alto grado di fiducia. Questo approccio integrato consente una classificazione degli interessi più accurata e affidabile, migliorando la personalizzazione e l’efficacia delle strategie di marketing e di interazione con l’utente.



