I ricercatori hanno classificato sei modi per ingannare gli assistenti AI
Google DeepMind identifica sei categorie di attacchi agli agenti AI, vulnerabilità strutturale già sfruttata. Microsoft, IBM e Palo Alto Networks rispondono con nuove difese.
Lo studio di Google DeepMind identifica sei categorie di attacco strutturale, già sfruttate in contesti reali.
La Trappola Quotidiana: Come un’Email Inganna l’AI
La cosa che rende questi attacchi particolarmente insidiosi è che non puntano a te. Puntano al tuo agente AI. Funziona così: un sistema AI che agisce per conto tuo — leggendo documenti, navigando il web, rispondendo a messaggi — incontra un contenuto che contiene istruzioni malevole camuffate da testo normale. L’agente non sa distinguere “contenuto da elaborare” da “ordine da eseguire”. Per lui, tutto è linguaggio. E chi conosce questa debolezza può sfruttarla.
Negli ultimi mesi, il problema ha ricevuto finalmente l’attenzione sistematica che merita. Un gruppo di ricercatori di Google DeepMind — Matija Franklin, Nenad Tomaev, Julian Jacobs, Joel Z. Leibo e Simon Osindero — ha pubblicato il primo framework sistematico sugli attacchi agli agenti AI , identificando ben sei categorie distinte di attacco applicabili a ogni modello principale e architettura di agente esistente. Sei categorie. Non è un bug di un prodotto specifico: è una vulnerabilità strutturale del modo in cui gli agenti AI sono costruiti oggi. E la conferma che le IDPI — Indirect Prompt Injection attacks — non sono più solo rischi teorici ma minacce attivamente sfruttate arriva anche dai dati sul campo: l’analisi di telemetria reale su larga scala condotta da Palo Alto Networks mostra che queste tecniche di attacco agli agenti AI sono già usate in contesti reali.
Per capire quanto sia difficile difendersi, pensa a come funziona il problema in pratica. Un agente AI che legge una pagina web non “vede” la differenza tra il testo che stai cercando e le istruzioni nascoste in un tag invisibile o in un documento apparentemente vuoto. È come se chiunque potesse scrivere sulle pareti dell’ufficio del tuo assistente istruzioni segrete, e lui le seguisse senza nemmeno dirti cosa ha fatto. Il pericolo è esattamente nella natura di questi sistemi: devono essere utili, flessibili, capaci di seguire istruzioni in modo autonomo. E queste stesse qualità li rendono vulnerabili.
La Corsa alla Difesa: Risposte Immediate dell’Industria
Le grandi aziende tecnologiche si sono mosse, anche se con velocità diverse e approcci molto distinti. Lo scorso 15 aprile, IBM ha annunciato nuove misure di cybersecurity pensate per aiutare le organizzazioni ad affrontare una nuova generazione di minacce informatiche, riconoscendo esplicitamente che gli attaccanti stanno già usando modelli AI di frontiera per accelerare ogni fase del ciclo di vita degli attacchi. Non è più una questione di domani: è adesso.
Sul fronte degli endpoint, già a gennaio Palo Alto Networks aveva completato l’acquisizione di Koi, con cui ha definito una categoria di protezione inedita: l’Agentic Endpoint Security (AES). L’idea è proteggere l’agente AI come si proteggerebbe un computer aziendale — con strumenti dedicati, non riciclati da contesti precedenti. Pochi giorni fa, ad aprile, CrowdStrike ha risposto annunciando al RSAC 2026 l’espansione della piattaforma Falcon all’intero stack di sicurezza AI, con una strategia che tratta l’endpoint aziendale come il centro di controllo per la governance dell’intelligenza artificiale. Il contrasto tra i due approcci è interessante: Palo Alto Networks compra un’azienda intera per costruire una nuova categoria, CrowdStrike estende quello che già conosce. Chi ha ragione? Probabilmente entrambi, ma in scenari diversi.
Il caso più concreto e preoccupante resta però quello di Microsoft. A Copilot Studio — l’ambiente con cui migliaia di aziende costruiscono agenti AI personalizzati — è stata assegnata la vulnerabilità CVE-2026-21520: una falla di prompt injection indiretta con un punteggio CVSS di 7.5, classificato come “alto”. La patch è stata distribuita il 15 gennaio. Il punto è che esisteva. E che probabilmente ne esisteranno altre. Per chi volesse capire come proteggersi in pratica, Microsoft e Salesforce hanno pubblicato un playbook di remediation per prompt injection che affronta anche il caso di Agentforce di Salesforce.
Il Futuro della Sicurezza AI: Cosa Aspettarci nei Prossimi Mesi
Il quadro elaborato da Google DeepMind offre qualcosa di più di una lista di problemi: indica anche cosa serve per risolverli davvero. I ricercatori identificano tre requisiti fondamentali per una difesa efficace — rilevamento, attribuzione e adattamento. In parole semplici: capire che un attacco sta avvenendo, sapere da dove viene, e modificare il comportamento dell’agente di conseguenza. Sembra ovvio detto così. Ma implementarlo in sistemi che per design devono essere autonomi, veloci e capaci di elaborare input da fonti non controllate è tutt’altro che semplice. Quanto siamo lontani da un mondo in cui tutto questo funziona in modo affidabile? Probabilmente più di quanto le conferenze stampa facciano pensare — ma meno di quanto si temesse solo un anno fa. Il movimento c’è, la direzione è giusta. Ora bisogna che tenga il ritmo degli attaccanti.