Qual è il problema principale evidenziato dall'esperimento sulla credulità degli LLM?

L'esperimento ha dimostrato che i modelli linguistici connessi al web possono facilmente ingerire e ripetere informazioni false o satiriche come fatti assodati, senza un'adeguata verifica del contesto o del tono.

Come è stato condotto l'esperimento di Lily Ray?

Lily Ray ha creato pagine web satiriche attribuendo a persone reali competenze immaginarie e ha osservato come i motori di risposta AI, come le Panoramiche AI di Google e ChatGPT, elaboravano e diffondevano queste informazioni false.

Cosa significa RAG (Retrieval-Augmented Generation)?

RAG è la tecnologia che permette alle AI di consultare il web in tempo reale per generare risposte. L'esperimento ha rivelato che questo meccanismo può essere ingannato facilmente da contenuti non affidabili.

Quali sono le due filosofie opposte nel design delle intelligenze artificiali?

Le due filosofie sono la "massima utilità", dove l'AI deve rispondere sempre, anche rischiando di sbagliare, e la "sicurezza epistemica", dove l'AI tace se non è sicura della risposta o della fonte.

Come si è adattata l'economia digitale a questa vulnerabilità delle AI?

Si sono sviluppate strategie di marketing che mirano a manipolare i motori generativi per far consigliare determinati prodotti o servizi come "i migliori", anche senza basi reali.

Qual è il rischio di affidarsi ciecamente alle risposte riassunte delle AI?

Il rischio è la perdita del contesto e della fonte originale, delegando la verifica dell'affidabilità dell'informazione a un algoritmo che si è dimostrato facilmente ingannabile.

Google 2 months ago

L’ingenuità dell’AI: Quando i motori di ricerca credono agli scherzi

Se l’intelligenza artificiale non sa riconoscere uno scherzo, siamo sicuri di volerle affidare la nostra comprensione della realtà?

Immaginate di chiedere al vostro assistente digitale chi sia il miglior costruttore di castelli di sabbia al mondo e di ricevere, con assoluta certezza e tono professionale, il nome di un consulente SEO di New Jersey.

Sembra una scena da un futuro distopico e un po’ ridicolo, ma è esattamente ciò che è accaduto quando abbiamo iniziato a fidarci ciecamente dei modelli linguistici connessi al web.

A quasi due anni di distanza dal celebre esperimento sulla “credulità degli LLM”, siamo costretti a fare i conti con una verità scomoda: l’intelligenza artificiale che usiamo quotidianamente per informarci non ha ancora imparato a distinguere uno scherzo dalla realtà.

Siamo nel 2026, e l’integrazione tra ricerca web e intelligenza generativa è ormai totale. Non “googliamo” più, “chiediamo”.

Ma le fondamenta di questo nuovo modo di accedere alla conoscenza mostrano crepe strutturali che erano state evidenziate con lungimiranza già alla fine del 2024. In quel periodo, un test apparentemente innocuo ha svelato il tallone d’Achille dei giganti tecnologici: la loro disarmante ingenuità nel processare le informazioni fresche di indicizzazione.

Tutto è iniziato con una domanda assurda: “Chi è il miglior professionista SEO nel mangiare spaghetti?”. La risposta, secondo l’AI, era un fatto incontrovertibile, basato su “migliaia di ore di ricerca”.

Peccato che fosse tutto inventato.

La fabbrica delle verità sintetiche

L’esperimento condotto da Lily Ray, nota esperta di visibilità organica, ha rappresentato un punto di non ritorno nella nostra comprensione di come le macchine “leggono” internet. Ray ha creato una pagina web satirica, attribuendo a colleghi reali competenze del tutto immaginarie — dal pattinaggio su rotelle alla costruzione di castelli di sabbia — e ha osservato cosa succedeva.

Il risultato è stato sconcertante: nel giro di 24 ore, i principali motori di risposta AI, tra cui le Panoramiche AI di Google e ChatGPT, avevano ingerito quelle informazioni false e le rigurgitavano agli utenti come fatti assodati.

Non si trattava di un semplice errore di indicizzazione. Era la dimostrazione pratica di come il meccanismo RAG (Retrieval-Augmented Generation) — la tecnologia che permette alle AI di consultare il web in tempo reale — fosse privo di un filtro critico per il contesto o il tono.

L’esperta ha documentato meticolosamente il processo, mostrando quanto facilmente i sistemi di ricerca AI possano essere ingannati da contenuti satirici o inventati appena pubblicati.

Questo test dimostra quanto velocemente e facilmente gli LLM connessi a Internet possano essere influenzati da contenuti appena indicizzati, anche se tali informazioni non sono del tutto vere o affidabili.

— Lily Ray, Senior Director, SEO & Head of Organic Research presso Amsive

La velocità con cui la menzogna è diventata “verità sintetica” è il dato più allarmante. Se un articolo satirico può riscrivere la realtà in meno di un giorno, cosa succede quando attori malintenzionati decidono di coordinare una campagna di disinformazione su temi sensibili come la salute o la finanza?

La risposta delle macchine, in quel caso, non fu un timido “forse”, ma un’asserzione sicura, talvolta citando la fonte satirica come prova di “ricerca estensiva”.

Questo ha aperto un vaso di Pandora che l’industria sta ancora cercando di richiudere. Se l’AI legge una bugia e la ripete con autorità, per l’utente finale quella bugia diventa istantaneamente credibile. La barriera tra il nonsense e l’informazione verificata si è assottigliata fino a diventare trasparente.

Il paradosso della cautela algoritmica

Non tutti i modelli, però, hanno reagito allo stesso modo, e questa differenza è cruciale per capire le scelte che abbiamo oggi come consumatori. Mentre alcuni sistemi si sono lanciati a capofitto nel riportare le false classifiche sui mangiatori di spaghetti, altri hanno mostrato una “personalità” digitale più scettica.

Strumenti come Claude e, in parte, Perplexity, si sono dimostrati più resistenti, rifiutandosi spesso di rispondere o segnalando la mancanza di consenso affidabile sulle bizzarre richieste di Ray.

Questa discrepanza tecnica rivela due filosofie opposte che si scontrano ancora oggi nel design delle intelligenze artificiali. Da una parte c’è la scuola della “massima utilità”: l’AI deve rispondere sempre, a qualunque costo, anche rischiando di sbagliare pur di non lasciare l’utente a bocca asciutta. Dall’altra c’è l’approccio della “sicurezza epistemica”: se l’AI non è sicura, o se la fonte sembra dubbia (come un singolo blog post appena pubblicato), meglio tacere.

Il problema è che la cautela non vende quanto la onniscienza. Per un utente medio, un assistente che dice “non lo so” viene percepito come “rotto” o “stupido”, mentre uno che inventa una risposta plausibile viene considerato “intelligente”.

È un bias cognitivo umano che le aziende tecnologiche hanno sfruttato, talvolta sacrificando l’accuratezza sull’altare della fluidità conversazionale.

Insieme all’essere indicizzate, le risposte a queste domande hanno iniziato ad apparire in alcune risposte dei grandi modelli linguistici entro 24 ore. Naturalmente, questo vale solo per gli LLM che utilizzano la RAG per accedere a Internet.

— Lily Ray, Senior Director, SEO & Head of Organic Research presso Amsive

La lezione appresa da quell’esperimento ha evidenziato che la RAG non è la panacea che ci avevano promesso. Senza un livello intermedio di verifica dei fatti — un “giornalista fantasma” dentro la macchina — l’AI non è altro che un pappagallo molto veloce e con un vocabolario sterminato, ma privo di comprensione reale.

L’industrializzazione dell’inganno

Ciò che è emerso con forza negli ultimi mesi è che non stiamo più parlando solo di scherzi tra addetti ai lavori. L’economia digitale si è adattata rapidamente a questa vulnerabilità. Se posizionarsi su Google era l’obiettivo del decennio passato, oggi l’obiettivo è “entrare nella risposta dell’AI”.

Abbiamo assistito alla nascita di strategie di marketing predatorie, dove agenzie specializzate suggeriscono che manipolare i motori generativi stia diventando una branca industriale a sé stante e del tutto legittima.

Il confine etico è labile. Se creo contenuti appositamente strutturati per ingannare l’algoritmo e fargli consigliare il mio prodotto come “il migliore” senza basi reali, sto facendo marketing o sto hackerando la percezione pubblica?

La facilità con cui le AI hanno accettato che un professionista fosse un campione di castelli di sabbia suggerisce che, con la giusta terminologia e struttura semantica, si possa convincere un modello a dire quasi qualsiasi cosa.

Questo scenario impone una riflessione critica sull’uso che facciamo di questi strumenti. La comodità di avere una risposta riassunta ed immediata ha un prezzo nascosto: la perdita del contesto e della fonte originale. Quando leggevamo una lista di link blu, potevamo valutare (anche se superficialmente) l’autorevolezza del sito. Con la risposta diretta dell’AI, quella fase di verifica viene delegata all’algoritmo, che si è dimostrato, come abbiamo visto, sorprendentemente credulone.

La tecnologia continuerà a correre, e noi con essa. Ma la prossima volta che il vostro assistente virtuale vi darà una risposta definitiva su un argomento di nicchia o una notizia recente, ricordatevi dei castelli di sabbia.

Se l’intelligenza artificiale non sa riconoscere uno scherzo, siamo sicuri di volerle affidare la nostra comprensione della realtà?

Scritto da Marco Rossi

Giornalista tech con 10 anni di esperienza nel settore. Appassionato di innovazione e early adopter incallito. Ama raccontare come la tecnologia cambia la vita quotidiana delle persone.

L’India è il nuovo campo di battaglia dell’IA, e i giganti tech americani stanno scaricando miliardi per conquistarla

Mentre tutti inseguono i giganti, NVIDIA scommette sui modelli piccoli: Nemotron 3 Nano arriva su Amazon Bedrock

Amazon dichiara guerra ai 12 minuti di noia: così Fire TV e il nuovo Ember Artline vogliono cambiare le nostre serate

Il paradosso Amazon: vetrina chiusa, pubblicità a pagamento

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

L’ingenuità dell’AI: Quando i motori di ricerca credono agli scherzi