Quando l'intelligenza artificiale sbaglia: il caso di Ashley MacIsaac e le allucinazioni di Google

Quando l’intelligenza artificiale sbaglia: il caso di Ashley MacIsaac e le allucinazioni di Google

Quando l’IA sbaglia: il caso del violinista accusato ingiustamente dimostra come la tecnologia privilegi la plausibilità alla correttezza

Quando l’infrastruttura tecnologica che media la nostra percezione della realtà fallisce, le conseguenze smettono di essere un problema di “debugging” e diventano un problema sociale.

Il recente caso di Ashley MacIsaac, il noto violinista canadese vittima di una cancellazione basata su dati spuri, non è un semplice errore isolato: è la manifestazione sintomatica di un approccio all’Intelligenza Artificiale che privilegia la plausibilità semantica sulla correttezza fattuale.

L’incidente si è verificato quando la Sipekne’katik First Nation ha deciso di annullare un concerto previsto per il 19 dicembre in Nuova Scozia.

La decisione non è scaturita da un controllo dei casellari giudiziari o da fonti giornalistiche verificate, ma da una ricerca rapida su Google.

La funzione “AI Overview”, che da tempo troneggia sopra i risultati organici, ha fornito un riassunto che accusava falsamente il musicista di reati sessuali, confondendolo con un omonimo o assemblando frammenti di dati non correlati.

L’evento è stato cancellato dopo che gli organizzatori si sono affidati a questo riepilogo AI di Google, dimostrando come l’autorevolezza tecnica di una piattaforma possa indurre all’errore anche le istituzioni.

Questo episodio solleva un velo inquietante sulla meccanica dei Large Language Models (LLM) quando vengono forzati a comportarsi come motori di ricerca deterministici.

L’allucinazione come feature, non come bug

Per comprendere la gravità tecnica dell’accaduto, bisogna guardare sotto il cofano di questi sistemi. Google, nella sua corsa per competere con OpenAI e Perplexity, ha integrato modelli generativi direttamente nella Search.

Il problema fondamentale è architetturale: un LLM non è un database di fatti.

È un motore probabilistico addestrato per prevedere il “token” (la porzione di parola) successivo più probabile in una sequenza.

Quando il modello ha elaborato la query su “Ashley MacIsaac”, non ha cercato la verità. Ha scandagliato il suo spazio vettoriale latente, trovando associazioni tra il cognome “MacIsaac” e termini legali presenti nel suo dataset di addestramento — probabilmente riferiti a un’altra persona con lo stesso cognome.

Il sistema ha quindi generato una frase grammaticalmente perfetta e semanticamente coerente, ma fattualmente falsa.

In gergo tecnico, questa è un’allucinazione. Ma chiamarla così è riduttivo: è il funzionamento standard di un modello che non possiede un concetto di verità, ma solo di correlazione statistica.

La risposta delle parti coinvolte è stata immediata, ma rivela una lacuna nella gestione del rischio. Mentre Google si è limitata a scuse di rito definendo i suoi sistemi “dinamici”, il danno reputazionale era già stato fatto.

La fiducia cieca nell’output della macchina ha portato a conseguenze tangibili, tanto che MacIsaac ha dichiarato pubblicamente di voler intraprendere un’azione legale per diffamazione, supportato da avvocati pronti a sfidare il colosso di Mountain View sulla responsabilità degli algoritmi.

Un pattern di inaffidabilità sistemica

Sarebbe un errore archiviare il caso MacIsaac come un’anomalia statistica. La storia recente dell’implementazione AI di Google è costellata di incidenti simili, che evidenziano una fretta nel deployment di tecnologie non ancora mature per l’uso generalista.

I guardrails (i filtri di sicurezza) implementati sembrano essere patch reattive piuttosto che soluzioni strutturali al problema della generazione di falsità.

Solo pochi mesi fa, un altro incidente aveva messo in imbarazzo il gigante tech, quando il modello Gemma è stato rimosso dopo aver generato false accuse contro la senatrice Marsha Blackburn, inventando di sana pianta collegamenti a scandali inesistenti.

In quel caso, come in questo, il modello ha agito come uno “stochastic parrot” (pappagallo stocastico), ripetendo pattern linguistici di accusa senza alcuna verifica della fonte.

La ripetizione di questi errori suggerisce che il problema non risiede nel singolo modello o nel singolo dataset, ma nella pretesa di utilizzare l’IA generativa come oracolo onnisciente.

La tecnologia RAG (Retrieval-Augmented Generation), che dovrebbe ancorare le risposte dell’AI a fonti reali recuperate dal web, fallisce miseramente quando il recupero delle informazioni è impreciso o quando il modello “decide” di ignorare il contesto recuperato a favore delle sue probabilità interne più forti.

Il costo dell’opacità

Dal punto di vista dello sviluppo software, ciò che preoccupa maggiormente è l’opacità di questi sistemi. In un ambiente open source, o con algoritmi trasparenti, sarebbe possibile tracciare la catena logica (o illogica) che ha portato all’associazione errata.

Con i modelli proprietari “black box”, siamo costretti a fidarci dell’output finale senza poter auditare il processo.

L’eleganza tecnica non risiede nella complessità del modello, ma nella sua affidabilità e prevedibilità.

Un sistema che funziona il 99% delle volte ma nel restante 1% distrugge la reputazione di un individuo non è un sistema pronto per la produzione, specialmente se posizionato come la porta d’accesso principale all’informazione mondiale.

La cancellazione del concerto di MacIsaac è un monito: stiamo delegando il giudizio critico a macchine che sanno scrivere benissimo, ma non sanno nulla di ciò che scrivono.

La domanda che dobbiamo porci non è quando l’AI smetterà di sbagliare, ma se sia tecnicamente ed eticamente sostenibile affidare la verifica della verità a sistemi intrinsecamente probabilistici.

Sistemi dove la reputazione di una persona vale meno della coerenza statistica di una frase.

Facebook X Network Pinterest Instagram
🍪 Impostazioni Cookie