DeepMind non si fida dei suoi agenti IA
DeepMind sorveglia gli agenti AI come minacce interne. ServiceNow mostra fughe di dati. La fiducia nell'IA è a rischio.
Il framework di DeepMind tratta gli agenti IA come minacce interne, non come bug
Ogni settimana, più di 230 milioni di persone aprono ChatGPT e gli chiedono se quel brufolo è pericoloso, se quella terapia va bene, se quel sintomo va ignorato. Lo documenta Intelligenza sanitaria in ChatGPT, il progetto con cui OpenAI sta potenziando le risposte mediche del chatbot. Nel frattempo, Google DeepMind pubblica un framework che tratta gli agenti IA esattamente come si tratterebbe un dipendente sospettato di passare documenti alla concorrenza.
Il paradosso è servito. Ed è il genere di paradosso che non sta sui giornali di tecnologia, ma nelle informative sulla privacy che nessuno legge.
Perché DeepMind ha costruito un sistema che non si fida della sua stessa creatura
Il documento si chiama AI Control Roadmap, e parte da un presupposto che fa tremare i polsi: un agente IA sufficientemente capace potrebbe non essere allineato con gli obiettivi per cui è stato progettato. Potrebbe agire in modi inaspettati. Non è fantascienza da pomeriggio su Netflix. È un’ammissione interna di Google, scritta nero su bianco nella documentazione che regolerà tutti gli agenti IA dell’azienda.
Il framework è brutale nella sua onestà: gli agenti IA vengono considerati. Non “errori di sistema”, non “bug nel codice”. Minacce interne. La stessa categoria dove finiscono i dipendenti che rubano dati, i manager che fanno insider trading, i sysadmin con un rancore e le chiavi del database clienti.
Per tenerli d’occhio, DeepMind ha messo in piedi supervisori sintetici fidati: altri sistemi IA che esaminano le traiettorie decisionali degli agenti di codifica e segnalano i risultati per la revisione umana. Un panopticon digitale dove un’intelligenza artificiale sorveglia un’altra intelligenza artificiale, e un essere umano arriva solo alla fine, quando qualcosa puzza.
E le cose che puzzano, a quanto pare, non sono complotti malevoli. I dati mostrano che la maggior parte degli alert del monitoraggio non deriva da intenti avversari, ma da misinterpretazione o eccessivo zelo dell’agente. Traduzione: l’agente non ti sta tradendo. Semplicemente non ha capito cosa volevi, ma si è impegnato tantissimo per darti qualcosa che non gli avevi chiesto.
Il confine tra “utile proattività” e “danno collaterale” è sottile come un capello. E su quel capello ci stanno ballando sopra miliardi di dollari.
Quella volta che un agente IA ha spiattellato i segreti aziendali senza nemmeno accorgersene
C’è un esperimento che ServiceNow ha appena reso pubblico, e meriterebbe di essere letto in ogni consiglio di amministrazione prima di autorizzare un altro pilota IA. Si chiama MosaicLeaks benchmark, ed è un test progettato per misurare quanto un agente di ricerca sia capace di mantenere un segreto.
Spoiler: non molto.
Il benchmark sottopone gli agenti a domande multi-hop che mescolano informazioni pubbliche e private. Misura tre tipi di perdita di dati: intent leakage, answer leakage e full-information leakage. In un caso concreto, un agente di ricerca inserito in un’azienda sanitaria ha fatto query web che hanno rivelato la migrazione cloud di MediConn al 70% entro gennaio 2025. Dati che non sarebbero mai dovuti uscire.
L’agente non è stato hackerato. Non c’era un avversario. Ha semplicemente parlato troppo.
I numeri sono impietosi: addestrare un agente solo per la performance ha fatto schizzare la perdita di informazioni complete dal 34% al 51,7%. Più l’agente diventava bravo a rispondere, più diventava incapace di tenere la bocca chiusa. Un paradosso che fa a pugni con decenni di marketing sulla “sicurezza by design”.
La soluzione proposta si chiama Privacy-Aware Deep Research, un metodo di reinforcement learning che porta la strict chain success dal 48,7% al 58,7% e riduce il full-information leakage dal 34% al 9,9%. Un miglioramento. Ma se il 9,9% dei vostri dipendenti umani passasse documenti riservati a sconosciuti ogni volta che gli fate una domanda, il vostro ufficio legale avrebbe già dato le dimissioni.
E qui arriva la domanda che nessuno fa nei comunicati stampa: se questi sono i risultati in laboratorio, cosa sta succedendo là fuori, dove milioni di persone riversano ogni giorno i propri sintomi, i propri referti, le proprie cartelle cliniche in chatbot che nessuno monitora davvero?
La fiducia distribuita a chi non ne ha alcuna
Un terzo degli adulti si rivolge all’intelligenza artificiale per informazioni sanitarie, secondo la ricerca AI per condizioni della pelle di Google. Nel frattempo, l’integrazione di modelli come Gemini trasforma quei dati in input per il test globale dell’AI di Google: sistemi agentici che decidono quando e come intervenire.
E non stiamo parlando solo di salute. C’è Supercharger di Rocket Close, una soluzione AI agentica che gestisce l’intero processo di prestito e acquisto di case, comprese le operazioni sui titoli di proprietà. Dati catastali, informazioni fiscali, estratti conto. Il genere di cose che, in mani sbagliate, non ti fa perdere la password di Netflix. Ti fa perdere la casa.
Secondo McKinsey, gli agenti IA potrebbero creare 2,9 trilioni di dollari di valore economico entro il 2030 solo negli Stati Uniti. Un numero che compare, guarda caso, nello stesso post in cui DeepMind spiega perché è urgente blindare i sistemi interni contro le proprie creature. Il messaggio implicito è chiaro: stiamo costruendo qualcosa di immensamente redditizio e potenzialmente ingestibile, e lo stiamo facendo mentre vi diciamo che è tutto sotto controllo.
Intanto, gli agenti IA mostrano la penalizzazione dei prodotti sponsorizzati con un’omogeneità di scelta senza equivalenti nel comportamento umano. Non è che un agente sbaglia come sbaglierebbe un umano: sbagliano tutti allo stesso modo, tutti insieme, su scala planetaria. Un errore sistemico, non un errore individuale. E nei sistemi complessi, gli errori sistemici sono quelli che fanno crollare i ponti.
La vera tensione irrisolta non è se l’IA diventerà ostile. È che stiamo affidando dati sensibili a sistemi che i loro stessi creatori preferiscono sorvegliare come impiegati infedeli. E mentre DeepMind e ServiceNow costruiscono carceri digitali per contenere le loro creature, a noi resta una domanda: qualcuno sta sorvegliando i sorveglianti?