DEJAN lancia un tool per identificare il grounding di Google Gemini.
DEJAN AI replica il classificatore di grounding di Google Gemini, svelando come l'AI decide le ricerche web. Impatto sulla visibilità AI.
Questo processo opaco, che decide cosa è rilevante e cosa no, con implicazioni enormi per la visibilità online e la veridicità delle informazioni, ha spinto DEJAN AI, un’azienda di SEO per l’intelligenza artificiale, a provare a replicare il classificatore che determina se una query debba essere ancorata a contenuti web esterni.
Quando un assistente AI come Google Gemini fornisce una risposta, spesso afferma di aver “cercato sul web”. Ma quali sono esattamente i frammenti di testo che ha estratto da una pagina per costruire la sua risposta?
È una scatola nera, un processo opaco che decide cosa è rilevante e cosa no, con implicazioni enormi per la visibilità online e la veridicità delle informazioni.
Ora, un’azienda specializzata in SEO per l’intelligenza artificiale, DEJAN AI, ha deciso di provare a replicare e rendere pubblico uno degli ingranaggi più critici di questo meccanismo: il classificatore che decide se una query dell’utente merita o meno di essere “grounded”, cioè ancorata a contenuti web esterni.
Non si tratta di uno strumento ufficiale, ma di un modello addestrato in-house che mima il processo decisionale interno di Google per il grounding, offrendo uno spaccato tecnico su come l’AI filtra le nostre richieste.
L’approccio “Genera e poi ancorà” è diventato uno standard per gli assistenti conversazionali più avanzati. Invece di affidarsi esclusivamente alla conoscenza statica acquisita in fase di addestramento, il modello può decidere di lanciare una ricerca in tempo reale e fondere i risultati nella sua risposta.
Google, con Gemini, ha implementato un sistema di “dynamic retrieval”: per ogni prompt, un classificatore interno assegna un punteggio di confidenza tra 0 e 1.
Solo se questo supera una certa soglia – impostabile dagli sviluppatori e con un default di 0.3 – il modello attiva la ricerca web e produce una risposta “grounded”. È questo il meccanismo che DEJAN AI ha cercato di replicare, addestrando un proprio modello su diecimila prompt inviati a Gemini con il grounding abilitato.
Cosa rivela uno strumento che sbircia nel motore di Gemini
Il lavoro di DEJAN AI, che si presenta come un’autorità nell’innovazione della visibilità nella ricerca AI, non è solo un esercizio accademico. Il loro classificatore è un modello commerciale integrato nei loro toolkit di machine learning.
La sua esistenza getta luce su un aspetto cruciale: nel nuovo ecosistema della ricerca guidata dall’AI, comprendere la “mente” del modello è diventato un obiettivo strategico.
L’azienda stessa ammette che il suo strumento gratuito di analisi AI Rank, e per estensione questo tipo di ricerca, serve a comprendere cosa guida un business, quali mercati gli interessano e chi è il suo pubblico.
In altre parole, è uno strumento di intelligence per un mondo in cui la visibilità del brand nella mente dell’AI è diventata più importante della posizione in classifica.
La trasparenza tecnica di questo approccio è apprezzabile, ma solleva immediatamente una questione parallela: quanto è affidabile il processo di grounding di Gemini stesso?
I test condotti da DEJAN AI rivelano dettagli interessanti sul funzionamento interno. In un esempio, Gemini ha fatto riferimento a risultati di ricerca utilizzando marcature di indice interno come [6.2], dove la prima cifra indica la query specifica eseguita e la seconda il risultato esatto.
Questo suggerisce un meccanismo di indicizzazione interno per gestire i risultati delle ricerche, un livello di complessità che va oltre la semplice chiamata a un motore di ricerca.
Per gli utenti enterprise, Google offre una versione più controllata di questo sistema: il Web Grounding for Enterprise, che utilizza un indice web dedicato, non registra i dati dei clienti e supporta controlli di servizio VPC, chiaramente pensato per settori regolamentati.
Tuttavia, la fiducia nel grounding come panacea per l’accuratezza si scontra con evidenze problematiche. Studi indipendenti hanno rilevato che una percentuale significativa delle risposte “grounded” di Gemini presenta problemi di attribuzione delle fonti, a volte citandole in modo errato o fuorviante.
Il problema non è solo tecnico, ma concettuale: l’AI può estrarre frammenti da una pagina, ma fatica a valutare il contesto più ampio, il tono satirico o la differenza tra un’opinione editoriale e un fatto consolidato.
Questo crea un paradosso: da un lato, Google sperimenta sintesi AI di articoli su Google News con chiara attribuzione, dall’altro, il meccanismo di base che dovrebbe supportare tali sintesi mostra crepe nella sua fondatezza.
La partita vera non è la trasparenza, ma l’influenza
Il vero valore dello strumento di DEJAN AI, quindi, potrebbe non essere tanto nella diagnosi del grounding, quanto nella sua promessa più ampia: aiutare le aziende a navigare un panorama in cui influenzare gli agenti AI è diventato cruciale tanto quanto influenzare gli umani.
Se puoi prevedere quando e come un modello cercherà attivamente informazioni, puoi tentare di modellare la conoscenza che trova.
È un cambio di paradigma totale per il SEO, che da anni ottimizza per algoritmi che valutano link e pertinenza testuale.
Ora, l’obiettivo è posizionarsi nella “mente” di un modello di linguaggio, il cui processo decisionale è più opaco e dinamico.
Questa corsa all'”AI visibility” avviene mentre Google è sotto assedio legale per le fonti della conoscenza di Gemini. L’azienda affronta cause per presunta violazione del copyright nell’addestramento del modello e, in Europa, una multa di 250 milioni di euro per aver utilizzato contenuti di editori senza il dovuto consenso.
Il grounding, in teoria, dovrebbe mitigare questi problemi attingendo a contenuti indicizzati pubblicamente e fornendo attribuzione. Ma la realtà è che il confine tra l’uso di dati per l’addestramento e l’uso per il grounding in tempo reale è labile, e le tutele per gli editori sono ancora nebulose.
Alla fine, il classificatore di DEJAN AI è un sintomo di un’era di transizione. Dimostra che la comunità tecnica non si accontenta delle scatole nere fornite dai giganti dell’AI e cerca di smontarle per comprendere, e forse influenzare, le nuove regole del gioco.
Ma la domanda che rimane aperta è più profonda: stiamo costruendo strumenti per rendere più trasparente e affidabile l’AI conversazionale, o stiamo semplicemente creando nuovi strati di ottimizzazione per un sistema la cui affidabilità di base – la sua capacità di discernere e attribuire correttamente la verità – non è ancora stata risolta?
La trasparenza sul “come” viene selezionata un’informazione è un primo passo, ma è inutile se non affronta il “perché” quella selezione può ancora produrre risposte fuorvianti.