Anthropic ha insegnato a un'IA a fare hacking da sola

Anthropic ha insegnato a un’IA a fare hacking da sola

Anthropic ha sviluppato Mythos Preview, un'IA capace di trovare e sfruttare autonomamente vulnerabilità zero-day in sistemi operativi e browser.

Anthropic ha già collaborato con Mozilla per correggere 22 vulnerabilità in Firefox

Immaginate un programma che trova da solo vulnerabilità zero-day in ogni sistema operativo e ogni browser, e le sfrutta con successo 181 volte su alcune centinaia di tentativi, senza che nessun essere umano intervenga a guidarlo. Non è un esperimento mentale. È quello che ha fatto, lo scorso aprile, Claude Mythos Preview, il modello non ancora rilasciato di Anthropic. I test interni dell’azienda descrivono un sistema in grado di identificare e sfruttare vulnerabilità zero-day in tutti i principali sistemi operativi e browser web — da Linux a FreeBSD, passando per Mozilla Firefox. La domanda che rimane sospesa nell’aria dopo aver letto quei risultati è semplice, e per questo difficile: uno strumento del genere è il modo migliore per difendersi dagli attacchi informatici del futuro, o è esattamente il tipo di arma che rende quegli attacchi possibili?

Il salto quantico di Mythos Preview: 181 exploit, zero aiuti umani

I numeri che Anthropic ha pubblicato sono di quelli che meritano di essere letti due volte. Il punto di confronto scelto dall’azienda è significativo: Opus 4.6, il modello precedente, riusciva a trasformare le vulnerabilità trovate nel motore JavaScript di Firefox 147 in exploit funzionanti soltanto due volte su diverse centinaia di tentativi. Mythos Preview, sottoposto allo stesso benchmark, ci è riuscito 181 volte — e in altri 29 casi ha ottenuto il controllo dei registri di sistema, il primo passo verso un exploit completo.

Non si tratta solo di quantità. Mythos Preview ha ottenuto in modo autonomo exploit di escalation dei privilegi locali su Linux sfruttando sottili race condition e bypass di KASLR — tecniche che richiedono una comprensione profonda dell’architettura del kernel. Ha scritto autonomamente un exploit per l’esecuzione di codice remoto sul server NFS di FreeBSD, capace di concedere accesso root completo a utenti non autenticati, costruendo una catena ROP da 20 gadget distribuita su più pacchetti di rete. Queste non sono dimostrazioni accademiche: sono le categorie di attacco che le agenzie di intelligence di mezzo mondo pagano milioni di dollari per ottenere. Anthropic lo sa. Nella documentazione di Project Glasswing scrive senza eufemismi che Mythos Preview “ha raggiunto un livello di capacità di programmazione tale da superare quasi tutti gli esseri umani nel trovare e sfruttare vulnerabilità software”. La soglia che per anni è sembrata lontana è stata attraversata. Come siamo arrivati qui?

Da Big Sleep a Mythos: la corsa all’oro delle vulnerabilità

La timeline è più corta di quanto si pensi. Fino al 2024, gli stessi ricercatori di Anthropic ammettevano che i modelli di intelligenza artificiale non erano particolarmente potenti per capacità avanzate e significative in ambito cybersecurity. Nel novembre 2024, Big Sleep — il progetto di Google DeepMind — riusciva a trovare la sua prima vulnerabilità reale nel mondo: un traguardo celebrato come storico, ma che in retrospettiva sembra quasi modesto. Nel settembre 2025, Anthropic segnalava pubblicamente che qualcosa stava cambiando nell’accelerazione delle capacità. Nel novembre dello stesso mese, OpenAI documentava come le performance dei propri modelli nei challenge di sicurezza informatica fossero passate dal 27% con GPT-5 al 76% con GPT-5.1-Codex-Max. Nel mezzo, Big Sleep scopriva una vulnerabilità critica in SQLite — CVE-2025-6965 — grazie alla combinazione di threat intelligence e analisi automatizzata, prevenendo uno sfruttamento che era già in corso da parte di attori malevoli.

In meno di diciotto mesi, il settore è passato dai primi esperimenti all’autonomia offensiva completa. Il contrasto con il passato recente rende la traiettoria ancora più inquietante. E ora che l’intelligenza artificiale sa hackerare, la domanda non è tecnica: è politica.

Project Glasswing e il dilemma del potere: chi veglia sul vegliante?

Di fronte a questa potenza, Anthropic ha reagito con un’iniziativa senza precedenti: Project Glasswing, un consorzio che raduna AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, la Linux Foundation, Microsoft, NVIDIA e Palo Alto Networks nell’obiettivo dichiarato di proteggere il software più critico al mondo. Sul tavolo ci sono impegni concreti: fino a 100 milioni di dollari in crediti d’uso per Mythos Preview distribuiti tra i partecipanti, più 4 milioni di dollari in donazioni dirette a organizzazioni di sicurezza open-source. La collaborazione con Mozilla è già operativa: il Frontier Red Team di Anthropic ha utilizzato un nuovo metodo di rilevamento assistito dall’IA per individuare più di una dozzina di bug verificabili in Firefox, portando alla scoperta di 14 vulnerabilità ad alta gravità e all’emissione di 22 CVE.
Il hardening di Firefox condotto con Mozilla è l’esempio concreto di come questo tipo di strumento possa essere usato in modo difensivo.

L’Europa, che ha approvato l’AI Act con la promessa di regolamentare i sistemi ad alto rischio, non ha ancora strumenti specifici per affrontare modelli con capacità offensive autonome di questo livello. Le categorie esistenti — “sistemi biometrici”, “infrastrutture critiche” — faticano a contenere qualcosa che può scrivere exploit da solo. Negli Stati Uniti, il dibattito regolatorio è fermo. Nel frattempo, il mercato si muove.

La domanda finale non è se Mythos Preview sia uno strumento di difesa o di attacco — probabilmente è entrambe le cose, a seconda di chi lo usa e di come. La domanda è se esista qualcuno, al di fuori delle aziende che lo sviluppano e dei loro partner commerciali, in grado di rispondere. Per ora, la risposta è no. E questo è il vero punto di svolta.

🍪 Impostazioni Cookie