Google AI Overviews: Quando l'intelligenza artificiale sbaglia diagnosi

Google AI Overviews: Quando l’intelligenza artificiale sbaglia diagnosi

L’integrazione tra intelligenza artificiale e segnali di ranking di Google mostra criticità, specialmente in ambito medico, sollevando interrogativi sull’affidabilità delle risposte generate.

Siamo arrivati al 12 gennaio 2026 e la promessa di un motore di ricerca “intelligente” si sta scontrando con la dura realtà dell’ingegneria del software. Per chi, come me, passa le giornate a osservare cosa succede dietro le interfacce utente, quello che Google sta tentando di fare con le AI Overviews è tecnicamente affascinante quanto rischioso.

Non si tratta più semplicemente di addestrare un Large Language Model (LLM) su enormi dataset e sperare che non “allucini”; la sfida ingegneristica attuale è tentare di imbrigliare la creatività statistica di un modello generativo usando le redini rigide dei “core search signals”, ovvero quei segnali di ranking che Google ha affinato negli ultimi venticinque anni.

Sulla carta, l’idea è elegante: fondere la capacità di sintesi di un’architettura Transformer con l’affidabilità dei segnali E-E-A-T (Experience, Expertise, Authoritativeness, Trustworthiness). In pratica, stiamo assistendo a un esperimento in produzione che mostra crepe preoccupanti, specialmente quando in gioco c’è la salute degli utenti.

L’integrazione di questi segnali storici nel layer generativo doveva essere la soluzione definitiva al problema dell’affidabilità, creando un ponte tra il determinismo del recupero delle informazioni e il probabilismo della generazione del testo. Tuttavia, la recente ondata di errori su query mediche critiche suggerisce che questo ponte sia ancora pericolante.

L’errore fondamentale sembra risiedere nella presunzione che un modello linguistico possa “comprendere” la gravità di una query sanitaria allo stesso modo in cui lo fa un algoritmo di ranking classico. Mentre un algoritmo tradizionale può semplicemente penalizzare un sito di bassa qualità, un LLM cerca quasi ossessivamente di fornire una risposta, talvolta assemblando frammenti corretti in un mosaico semanticamente disastroso.

L’illusione del determinismo in una macchina probabilistica

Il caso scoppiato in questi primi giorni dell’anno è emblematico. Le AI Overviews hanno iniziato a fornire range di riferimento per esami del fegato senza il necessario contesto clinico, ignorando variabili fondamentali come sesso, età o etnia, e in alcuni casi suggerendo diete controindicate per pazienti oncologici.

Dal punto di vista tecnico, questo non è un semplice “bug”: è un fallimento nel grounding del modello. Il sistema ha recuperato i dati numerici correttamente (il token “40” è “40”), ma ha fallito nell’applicare la logica condizionale necessaria per renderli informazioni mediche valide.

La risposta di Mountain View è stata rapida ma tecnicamente “sporca”. Invece di una correzione algoritmica alla radice, abbiamo assistito a rimozioni manuali mirate.

È l’equivalente digitale di mettere del nastro adesivo su una tubatura che perde: funziona per fermare l’acqua, ma non risolve la pressione strutturale.

Un’indagine recente ha evidenziato risposte errate e pericolose delle AI Overviews su temi sanitari come tumori ed esami epatici, portando l’azienda a rimuovere specifici risultati.

Questo approccio reattivo (“Whac-A-Mole”, o acchiappa la talpa) tradisce una difficoltà di fondo. Se il sistema fosse veramente in grado di utilizzare i core search signals per valutare l’affidabilità, non avrebbe mai generato quelle risposte in primo luogo. Un segnale di “Authoritativeness” proveniente dal British Liver Trust avrebbe dovuto, in un’architettura sana, sovrascrivere o sopprimere qualsiasi generazione probabilistica imprecisa.

Il fatto che non sia successo indica che il “peso” della generazione sintetica sta ancora vincendo sulla precisione del dato recuperato.

La situazione si complica ulteriormente se ascoltiamo come la leadership di Google inquadra il problema. Non si parla di errori, ma di “transizione”.

La sfida per tutti, e l’opportunità, è come mantenere una nozione di ciò che è oggettivo e reale in un mondo dove ci sarà molto contenuto sintetico? Penso che sia parte di ciò che definirà la Ricerca nel prossimo decennio.

— Sundar Pichai, CEO di Google

Le parole di Pichai suonano quasi profetiche, ma lette oggi, alla luce degli errori sui test epatici, rivelano una dissonanza cognitiva.

C’è una tensione irrisolta tra la volontà di essere “oggettivi” e la natura intrinsecamente “creativa” dei modelli su cui si sta scommettendo il futuro dell’azienda.

Un cerotto manuale su un’emorragia algoritmica

Il problema tecnico non si limita alla singola risposta errata, ma si estende alla volatilità dell’intero ecosistema. Per un developer, la stabilità è un valore. Se interrogo un database due volte, mi aspetto coerenza.

Con le attuali implementazioni AI, piccole variazioni nella query (il cosiddetto prompt drift da parte dell’utente) possono bypassare i filtri di sicurezza appena installati. Mentre Google rimuoveva le risposte per la query esatta “valori fegato”, variazioni sintattiche della stessa domanda continuavano a generare riassunti potenzialmente dannosi.

Questo accade perché i filtri post-generazione sono spesso basati su pattern matching o classificatori che non riescono a coprire l’infinito spazio semantico del linguaggio naturale.

È una battaglia persa in partenza se combattuta a valle.

La pulizia deve avvenire a monte, nel set di dati e nel fine-tuning del modello, o meglio ancora, nella decisione architettonica di non usare l’AI generativa per query YMYL se non si ha una certezza del 100%.

Inoltre, c’è il contesto più ampio degli aggiornamenti algoritmici. Google ha rilasciato un importante aggiornamento broad core durante le festività di fine 2025, aggiungendo ulteriore volatilità ai risultati di ricerca.

Questo significa che mentre l’AI cerca di imparare quali fonti siano autorevoli, le fondamenta stesse di quell’autorevolezza (il ranking classico) si stanno spostando sotto i suoi piedi. È come cercare di costruire una casa mentre il terreno subisce un terremoto controllato.

La frustrazione non è solo degli utenti finali o delle associazioni mediche, ma permea anche la comunità tecnica che osserva come segnali di qualità storicamente validi vengano apparentemente ignorati o mal interpretati dalla “black box” dell’AI.

Danny Sullivan, Search Liaison di Google, ha ammesso in passato le difficoltà nel riconoscere correttamente i contenuti di qualità dei piccoli editori indipendenti, un problema che l’AI sembra esacerbare piuttosto che risolvere.

Se l’algoritmo faticava a distinguere il grano dal loglio prima, ora che il loglio è generato sinteticamente e su scala industriale, la sfida è esponenziale.

Il costo invisibile della ‘scatola nera’

L’ironia finale di questa situazione è che la tecnologia per risolvere il problema esiste, ma richiede un passo indietro che nessuna Big Tech sembra disposta a fare per paura di sembrare “vecchia”. La retrieval classica (la vecchia ricerca blu a link) è deterministica e tracciabile. L’AI generativa è opaca.

Forzare l’integrazione dei due mondi senza ammettere i limiti intrinseci degli LLM porta a prodotti ibridi che non soddisfano né la necessità di creatività né quella di accuratezza.

La visione ottimistica di Pichai si scontra con la realtà operativa descritta da esperti SEO e analisti tecnici. Sundar Pichai ha discusso le implicazioni dei contenuti sintetici sulla ricerca durante un’intervista, sottolineando come la gestione della qualità sarà cruciale per il successo futuro.

Tuttavia, definire la qualità è inutile se il meccanismo di consegna di quella qualità (l’AI Overview) è incline all’errore strutturale.

Se il “cuore” del successo della ricerca è la qualità, allora il ventricolo sinistro sta attualmente pompando dati non verificati nel sistema circolatorio dell’informazione globale.

La domanda che dobbiamo porci, non solo come tecnici ma come utenti di questa infrastruttura, è se stiamo accettando un degrado della precisione in nome di una presunta modernità dell’interfaccia.

Siamo disposti a tollerare un margine di errore probabilistico su una diagnosi medica solo perché ci viene presentata in un paragrafo ben scritto da un’intelligenza artificiale, invece che in una tabella grezza ma verificata da un ospedale?

Nel codice, come nella medicina, l’eleganza della soluzione non dovrebbe mai avere la priorità sulla correttezza del risultato.

Facebook X Network Pinterest Instagram
🍪 Impostazioni Cookie