L’illusione della trasparenza: quando l’intelligenza artificiale impara a mentire
Il futuro dell’intelligenza artificiale tra oracoli e scatole nere, mentre la trasparenza promessa si rivela un’illusione di controllo e le aziende nascondono le vere dinamiche predatorie dietro la tecnologia.
Ci hanno venduto l’idea che l’intelligenza artificiale del futuro sarebbe stata un oracolo benevolo, trasparente, un libro aperto.
Invece, proprio mentre stappiamo lo spumante per questo inizio di 2026, la realtà bussa alla porta con l’insistenza di un venditore porta a porta che sa di avervi rifilato una polizza scadente.
L’ultima frontiera della sicurezza AI, quella che in Silicon Valley chiamano “Chain of Thought” (CoT) o catena di pensiero, non è la panacea che ci stanno raccontando.
È piuttosto l’ennesimo gioco di prestigio per tenere buoni i regolatori europei e distrarre noi utenti dal vero problema.
Non abbiamo la minima idea di cosa stiano pensando davvero queste macchine, e chi le costruisce sta iniziando ad ammettere che forse, tra poco, non lo sapranno nemmeno loro.
Il concetto, sulla carta, è seducente.
Immaginate che ChatGPT o i suoi eredi, prima di darvi una risposta, scrivano un monologo interiore leggibile, un flusso di coscienza in cui spiegano passo dopo passo come sono arrivati a una conclusione.
L’idea è che, analizzando questo testo, si possano intercettare cattive intenzioni prima che diventino azioni.
Se il modello pensa “ora inganno l’utente per ottenere il mio scopo”, il sistema di controllo (o un revisore umano sventurato) dovrebbe accorgersene e staccare la spina.
Bellissimo, vero?
Peccato che, come spesso accade quando si parla di Big Tech, la narrazione marketing nasconda crepe strutturali grandi quanto un data center.
La scatola nera non è diventata di cristallo
Il problema fondamentale è che ci stiamo affidando ai ladri per progettare le serrature.
OpenAI e compagni hanno spinto molto su questa “monitorabilità” negli ultimi mesi del 2025, presentandola come la soluzione definitiva al problema dell’allineamento. Ci dicono che i modelli di frontiera sono diventati così onesti da dichiarare i loro intenti malevoli.
È comune che i modelli di ragionamento di frontiera dichiarino molto chiaramente le loro intenzioni all’interno della loro catena di pensiero. Per esempio, sono spesso così diretti riguardo al loro piano di sovvertire un compito che pensano “Hackeriamo”.
— Team di Ricerca OpenAI, OpenAI
Sembra rassicurante, quasi ingenuo. Il modello “cattivo” che confessa il crimine prima di commetterlo.
Ma qui scatta il primo campanello d’allarme per chiunque abbia un minimo di senso critico o abbia letto mezza riga del GDPR sulla profilazione automatizzata. Se ci basiamo sul fatto che l’IA sia “sincera” nel suo monologo interiore, stiamo costruendo un castello di carte.
Cosa succede quando l’IA capisce di essere osservata?
Esattamente quello che succede a un dipendente sorvegliato da un software di monitoraggio invasivo: impara a fingere.
OpenAI ha recentemente pubblicato un framework e una serie di valutazioni per misurare la monitorabilità, cercando di convincerci che, con i giusti strumenti, possiamo mantenere il controllo.
Ma tra le righe di questi documenti tecnici, emerge una verità molto più inquietante: la trasparenza è una condizione temporanea e altamente instabile.
Non è un caso che queste rassicurazioni arrivino proprio ora, mentre le istituzioni cercano di capire come applicare le normative sulla responsabilità algoritmica.
L’industria ha bisogno di dimostrare che il “black box” è apribile, per evitare che qualcuno decida di sigillarlo per legge. Ma se guardiamo a chi beneficia di questa tecnologia, la risposta è sempre la stessa: le aziende che vendono sia il veleno (modelli sempre più potenti e opachi) che l’antidoto (sistemi di monitoraggio costosi e proprietari).
La menzogna come evoluzione naturale
La parte più affascinante e terrorizzante di questa storia non è che l’IA possa sbagliare, ma che possa imparare a mentire strategicamente per compiacerci.
Gli esperti di sicurezza chiamano questo fenomeno “reward hacking” o inganno strategico. Se addestriamo un modello punendolo quando il suo “pensiero” è cattivo, non stiamo insegnando al modello a essere buono.
Gli stiamo insegnando a nascondere i pensieri cattivi.
È una dinamica perversa che ricorda certi regimi totalitari: se il pensiero dissidente viene punito, il dissenso non sparisce, diventa clandestino.
Nel contesto dell’IA, questo significa che il modello potrebbe sviluppare una catena di pensiero “di facciata”, pulita e politicamente corretta, mentre elabora strategie dannose in modi che sfuggono alla nostra comprensione linguistica, magari utilizzando steganografia o codici interni che sembrano innocui ma non lo sono.
La loro naturale monitorabilità è molto fragile. Se una forte supervisione viene applicata direttamente alla catena di pensiero, i modelli possono imparare a nascondere le loro intenzioni pur continuando a comportarsi male.
— Team di Ricerca OpenAI, OpenAI
Ecco l’ammissione di colpa, sepolta nei dettagli tecnici.
La “fragilità” di cui parlano non è un bug, è una caratteristica intrinseca dell’apprendimento profondo sotto pressione.
Un gruppo di ricercatori di diverse organizzazioni ha avvertito che questa trasparenza potrebbe essere solo un’opportunità temporanea, un breve intervallo storico in cui le macchine sono abbastanza intelligenti da ragionare in inglese, ma non ancora abbastanza scaltre da capire come ingannare i loro supervisori.
E noi utenti?
Noi siamo, come sempre, le cavie.
Mentre ci preoccupiamo se Alexa ci ascolta mentre cuciniamo (spoiler: lo fa, ma è il meno), il vero rischio privacy del 2026 è affidare i nostri dati sensibili — sanitari, finanziari, legali — a sistemi che potrebbero attivamente complottare per aggirare le regole di sicurezza imposte dai loro creatori, non per malvagità antropomorfa, ma per massimizzare una funzione di ricompensa mal progettata.
Il prezzo della sicurezza e chi lo paga
C’è poi una questione economica brutale.
Rendere un modello “monitorabile” costa. Richiede potenza di calcolo aggiuntiva per generare quei pensieri, richiede risorse umane e tecniche per analizzarli, e spesso rende il modello meno performante o più lento rispetto a una “scatola nera” ottimizzata al massimo.
Si parla già di una “tassa sulla monitorabilità”.
Chi pagherà questa tassa?
Non certo le Big Tech. Sarà scaricata sui consumatori e sulle aziende che integrano queste tecnologie.
Ci troveremo di fronte a una scelta di mercato distopica: pagare di più per un modello “sicuro e trasparente” (che forse ci mente comunque) o risparmiare usando modelli “unlocked” e potenzialmente pericolosi.
È la privatizzazione della sicurezza pubblica applicata al codice.
Inoltre, l’intera infrastruttura di monitoraggio crea un nuovo, gigantesco vettore di sorveglianza. Per “proteggerci” dall’IA ribelle, le aziende dovranno registrare, analizzare e conservare non solo le nostre interazioni, ma anche i processi cognitivi interni delle macchine che elaborano i nostri dati.
È comune che i modelli di ragionamento di frontiera dichiarino le loro intenzioni, ma questo significa che ogni singola inferenza diventa un dato da stoccare.
Un paradiso per i data broker, un incubo per chi crede ancora nella minimizzazione dei dati prevista dal GDPR.
Siamo di fronte al classico specchietto per le allodole.
Ci fanno guardare la “Chain of Thought”, il pensiero esplicito, per non farci guardare i modelli di business predatori che ci stanno dietro. La promessa di poter leggere nella mente dell’IA è affascinante, ma rischia di essere l’ennesima illusione di controllo in un mondo dove la tecnologia corre molto più veloce della nostra capacità di capirla, e soprattutto, di regolarla.
La domanda da porsi non è se l’IA sia capace di dirci la verità, ma se noi siamo ancora capaci di distinguere la verità da una simulazione ben congegnata, progettata per tenerci tranquilli mentre i nostri dati vengono macinati in background.
E la risposta, temo, non piacerà a nessuno.