Anthropic ha frenato il suo modello più potente

Anthropic ha frenato il suo modello più potente

Anthropic rilascia Claude Opus 4.7 con capacità cyber ridotte rispetto al modello Mythos, usandolo come test per le salvaguardie.

Anthropic ha ridotto le capacità offensive di Opus 4.7 rispetto a un modello ancora chiuso

C’è qualcosa di deliberatamente controintuitivo nel lancio di Claude Opus 4.7, annunciato da Anthropic lo scorso 16 aprile. Il modello segna progressi tecnici netti e misurabili su quasi ogni fronte: 98,5% sul benchmark di acuità visiva di XBOW contro il 54,5% del predecessore Opus 4.6, 87,6% su SWE-bench Verified, 64,3% su SWE-bench Pro. Numeri che parlano da soli. Eppure, in un dominio preciso e strategicamente sensibile come la cybersecurity, Anthropic ha scelto di non spingere al massimo. Le capacità cyber di Opus 4.7 sono deliberatamente inferiori a quelle di Mythos Preview — un modello non ancora rilasciato al pubblico. Perché costruire qualcosa di più potente e poi frenarlo?

Il paradosso di Opus 4.7

Per apprezzare il paradosso, bisogna prima capire cosa significa “capacità cyber” nel contesto dei modelli linguistici di frontiera. Non si parla di scansione di porte o brute force banale: Mythos Preview — il modello di riferimento che Anthropic tiene ancora chiuso — ha già trovato migliaia di vulnerabilità ad alta gravità, alcune presenti in ogni sistema operativo e browser web principale. Anthropic stessa descrive questa capacità con una certa sobrietà allarmante: i modelli AI hanno raggiunto un livello di competenza nel codice tale da superare, nell’individuazione e nello sfruttamento delle vulnerabilità software, chiunque tranne i professionisti più specializzati al mondo. È un salto qualitativo che cambia la natura del rischio.

In questo contesto, Opus 4.7 è il primo modello della lineup a essere rilasciato con capacità cyber intenzionalmente ridotte rispetto al suo fratello maggiore non pubblicato. Non è un limite tecnico — è una scelta di design. Il modello può elaborare immagini fino a 2.576 pixel sul lato lungo (circa 3,75 megapixel), gestisce task complessi, raggiunge prestazioni di codice generativo tra le più alte della categoria, ma in ambito offensivo viene tenuto corto. L’ironia è sottile ma reale: stai guardando un sistema che potrebbe fare di più, a cui è stato detto di non farlo.
È come un interprete madrelingua a cui viene chiesto di rispondere solo in un vocabolario semplificato — la competenza c’è, viene filtrata deliberatamente.

Il banco di prova per le salvaguardie

Opus 4.7 entra in gioco esattamente qui: non come prodotto finale, ma come testbed operativo. Anthropic lo usa per sperimentare e validare le salvaguardie cyber che intende poi applicare ai modelli della classe Mythos prima del loro rilascio pubblico. L’analogia più calzante è quella del crash test: costruisci un prototipo con caratteristiche controllate, lo esponi a condizioni reali con una base di utenti reale, misuri i comportamenti edge-case che non emergono nei laboratori, e aggiusti prima di portare in strada il modello definitivo. Opus 4.7 è il manichino che si schianta perché Mythos possa sopravvivere all’impatto con il mondo.

Cosa cambia per chi costruisce

Sul piano competitivo, Opus 4.7 si posiziona con forza. Su SWE-bench Pro — la variante multi-linguaggio considerata il test più esigente per agenti di coding — raggiunge il 64,3%, distanziando sia GPT-5.4 (57,7%) sia Gemini (54,2%). Su SWE-bench Verified supera Gemini 3.1 Pro di quasi sette punti percentuali. OpenAI ha risposto con GPT-5.5, rilasciato la scorsa settimana, ma il confronto diretto sui benchmark di ingegneria del software per ora premia Anthropic. Il pricing è $5 per milione di token in input e $25 per milione in output — una fascia premium che non è pensata per chi costruisce chatbot, ma per team che integrano il modello in pipeline di analisi del codice, revisione di architetture, o automazione di workflow complessi.

Il punto però è proprio questo: un developer che sta valutando Opus 4.7 per applicazioni di security engineering — penetration testing assistito, triage di CVE, analisi di patch — si trova davanti a un modello che è esplicitamente meno capace in quel dominio rispetto a ciò che Anthropic ha in laboratorio. Non è una limitazione nascosta nelle note a piè di pagina: Anthropic la dichiara apertamente. Per alcuni team questo è accettabile, persino preferibile — avere un modello generalista con un profilo di rischio controllato è spesso più utile di un sistema potentissimo ma opaco nelle sue capacità offensive. Per altri, in particolare chi costruisce strumenti di difensiva attiva, questa limitazione è una ragione sufficiente per aspettare. Il quesito rimane aperto: i builder sceglieranno Opus 4.7 per la sua affidabilità verificabile, o aspetteranno un modello senza questi compromessi?

Claude Opus 4.7 non è un aggiornamento incrementale: è un esperimento su larga scala di ingegneria della sicurezza che ridefinisce dove passa il confine tra capacità e controllo. La scelta di ridurre deliberatamente le capacità cyber non è debolezza tecnica — è un’architettura di fiducia. Per chi costruisce applicazioni su questi modelli, la domanda smette di essere “quanto è potente?” e diventa “a quale prezzo, e con quale garanzia?” È una lezione che riguarda il design dello stack tanto quanto la valutazione del modello. E il fatto che Anthropic la stia insegnando in pubblico, attraverso un prodotto commerciale, è probabilmente la notizia più rilevante di tutto il lancio.

🍪 Impostazioni Cookie