L’ingenuità dell’Ai e i numeri di telefono sbagliati: un problema di fiducia nelle fonti
L’intelligenza artificiale fatica ancora a fornire numeri di telefono corretti, nonostante l’apparente semplicità del compito
Se c’è una promessa che l’intelligenza artificiale generativa ci ha fatto, è quella di liberarci dalla fatica della ricerca manuale.
Non più dieci link blu su cui cliccare sperando di trovare un orario di apertura, ma una risposta diretta, sintetica e, teoricamente, corretta.
Tuttavia, a due anni di distanza dalle prime grandi ondate di adozione di massa, ci scontriamo ancora con un problema di architettura fondamentale: la gestione della verità fattuale in un sistema probabilistico.
Il caso dei numeri di telefono è emblematico.
Sembra un task banale — una semplice query di recupero informazioni (Information Retrieval) — eppure rappresenta ancora oggi uno dei talloni d’Achille dei Large Language Model (LLM).
Non stiamo parlando di interpretare una poesia ermetica, ma di riportare una stringa numerica univoca.
Eppure, guardando ai dati emersi già nel 2024, uno studio ha rivelato che i modelli forniscono numeri errati nel 36% dei casi quando questi vengono confrontati con le pagine ufficiali del servizio clienti.
La gravità tecnica di questo dato non risiede tanto nell’errore in sé, quanto nella dinamica con cui viene generato. Per un tecnico, capire perché la macchina sbaglia è più importante dell’errore stesso, perché rivela i limiti strutturali del sistema.
E qui la sorpresa è che l’AI, spesso, non sta “allucinando” nel senso classico del termine.
Il paradosso della citazione corretta
Nel gergo tecnico, un’allucinazione si verifica quando il modello inventa informazioni plausibili ma inesistenti per colmare un vuoto probabilistico.
Ma nel caso dei contatti aziendali, la situazione è più insidiosa. I modelli non stanno inventando numeri casuali; stanno leggendo fonti sbagliate con estrema fedeltà.
I dati mostrano che quando un modello AI fornisce un numero di telefono, nel 93% dei casi il numero corrisponde effettivamente a quello presente nella pagina che il modello cita come fonte. Il motore di grounding (il processo che ancora la risposta a un documento reale) funziona.
Il problema è a monte: la selezione della fonte.
Il fatto che i modelli AI facciano riferimento a una pagina citata il 93% delle volte indica che il numero di telefono non è un’allucinazione e viene recuperato da una pagina di riferimento.
— Team di Ricerca, Seer Interactive
Questo ci porta a un problema di data provenance.
I modelli tendono a fidarsi troppo di aggregatori di terze parti, directory obsolete o siti di recensioni non verificati, che spesso contengono dati “sporchi”. Le fonti ufficiali e controllate dai brand venivano citate solo nel 41% dei casi, mentre il restante 59% proveniva da fonti esterne.
In pratica, l’AI agisce come un impiegato diligente ma ingenuo, che copia il numero scritto sul muro del bagno invece di guardare l’elenco telefonico ufficiale.
Questa distinzione è cruciale perché cambia radicalmente l’approccio alla risoluzione del bug. Non serve aumentare i parametri del modello o la sua “creatività”; serve migliorare la logica di ranking delle fonti in fase di RAG (Retrieval-Augmented Generation).
Se il sistema non sa distinguere l’autorità del dominio brand-official.com da random-spam-directory.xyz, la risposta sarà tecnicamente coerente (il numero è stato letto correttamente) ma fattualmente disastrosa.
L’architettura della disinformazione
Le differenze tra i vari modelli evidenziano approcci ingegneristici diversi al problema del reperimento delle informazioni. Gemini di Google, ad esempio, ha mostrato performance nettamente superiori rispetto ai competitor in questo specifico task, con un’accuratezza dell’89%, contro il 68% di ChatGPT.
Non è magia, è integrazione verticale.
Google possiede il grafo di conoscenza più vasto al mondo per quanto riguarda le attività commerciali (Google Business Profile e Maps). Quando Gemini risponde, non sta solo predicendo la prossima parola più probabile; sta (spesso) interrogando un database strutturato che Google cura da decenni.
Al contrario, i modelli che si basano puramente sul crawling del web aperto si trovano a dover disambiguare tra migliaia di pagine contraddittorie senza un’ancora di verità strutturata.
Per le aziende, questo ha comportato la necessità di sviluppare nuove metriche di controllo. Non basta più monitorare il posizionamento SEO classico; è diventato necessario definire nuovi KPI per la ricerca AI come l’Answer Accuracy Rate, che misura non solo se il brand appare, ma se le informazioni riportate sono fattualmente corrette, allineate alle fonti canoniche e prive di distorsioni.
Tuttavia, c’è un aspetto ancora più preoccupante dell’accuratezza: la persistenza dell’errore.
Se un numero sbagliato entra nel dataset di addestramento o viene indicizzato come “risposta ad alta fiducia” da un motore di ricerca generativo, rimuoverlo è molto più complesso che aggiornare una pagina HTML. Richiede meccanismi di unlearning o di sovrascrittura forzata tramite prompt di sistema che non sempre sono accessibili ai proprietari dei dati.
Mitigazione o forza bruta?
Di fronte a queste instabilità, l’industria ha risposto non tanto risolvendo il problema alla radice (la pulizia del web è utopia), quanto costruendo strati di controllo sempre più complessi sopra i modelli base.
La soluzione tecnica emergente è quella della ridondanza: non fidarsi mai del primo output.
Aziende specializzate hanno iniziato a implementare architetture che utilizzano più LLM in parallelo per verificare i fatti, una sorta di “peer review” automatizzata in tempo reale.
La nostra più grande preoccupazione nell’adozione dell’IA generativa è affrontare le allucinazioni. Per mitigare questo problema, abbiamo integrato un approccio multi-LLM per convalidare in modo incrociato gli output e ridurre la dipendenza da un singolo modello.
— Dennis Yap, Fondatore di AI Seer
In questo scenario, le aziende stanno adottando strategie multi-LLM per verificare la validità delle risposte, dove un modello genera la risposta e altri due o tre modelli agiscono come “revisori”, controllando la coerenza logica e la corrispondenza con le fonti citate.
Se i modelli sono in disaccordo, il sistema scarta la risposta o segnala l’incertezza all’utente. È una soluzione elegante dal punto di vista logico, ma brutale da quello computazionale: stiamo moltiplicando il costo energetico e di calcolo per ogni singola query solo per assicurarci che un numero di telefono non sia inventato.
Questa corsa agli armamenti per la verifica dei fatti solleva una questione fondamentale sul futuro della ricerca online.
Se per ottenere un’informazione affidabile dobbiamo bypassare l’interfaccia AI e tornare alla fonte originale — come suggeriscono ironicamente gli stessi ricercatori (“In quanto consumatore, forse per ora vai semplicemente sul sito ufficiale per i tuoi numeri di telefono“) — allora l’intermediazione dell’AI ha fallito il suo scopo primario di efficienza.
Siamo arrivati al 2026 con sistemi capaci di scrivere codice, comporre sonetti e superare esami di medicina, ma che inciampano ancora nel passarci un numero di telefono corretto perché hanno letto la pagina sbagliata.
La domanda non è più se l’AI sia intelligente, ma se stiamo costruendo un’infrastruttura di conoscenza abbastanza robusta da supportare la sua ingenuità.
Finché l’algoritmo privilegerà la plausibilità sintattica sulla veridicità della fonte, il rischio di chiamare un numero inesistente — o peggio, una truffa — rimarrà una feature, non un bug.