Anthropic ha inserito protezioni informatiche nel suo modello AI
Anthropic ha rilasciato Claude Opus 4.7 con protezioni informatiche integrate direttamente nel modello, un approccio innovativo per prevenire usi malevoli dell'AI avanzata.
Il modello integra protezioni che bloccano automaticamente richieste per usi informatici ad alto rischio, una novità architetturale.
Lo scorso 16 aprile, secondo l’annuncio ufficiale di Anthropic, Claude Opus 4.7 è diventato generalmente disponibile. Ma ridurlo a un semplice aggiornamento iterativo sarebbe un errore. Sotto la superficie ci sono scelte architetturali precise che puntano a risolvere un problema che l’industria finora ha trattato come secondario: come si impedisce a un modello di frontiera di diventare uno strumento per attacchi informatici? La risposta di Anthropic non è una policy, non è un filtro di post-processing, ma una funzionalità integrata nel modello stesso — e questo fa tutta la differenza.
Le salvaguardie informatiche: una novità assoluta
Mentre il dibattito pubblico sull’AI tende a concentrarsi sui benchmark di ragionamento o sulla lunghezza del contesto, Anthropic ha inserito in Opus 4.7 qualcosa che non si era mai visto prima in un modello di questa classe: salvaguardie che rilevano e bloccano automaticamente le richieste che indicano usi informatici proibiti o ad alto rischio. Non si tratta di un layer separato aggiunto a posteriori come un firewall davanti a un’API, ma di protezioni distribuite direttamente nel comportamento del modello durante l’inferenza.
I numeri di performance contestualizzano meglio la rilevanza di questa scelta. Su un benchmark interno di 93 task di codifica, Opus 4.7 migliora la risoluzione del 13% rispetto a Opus 4.6, risolvendo quattro problemi che né Opus 4.6 né Sonnet 4.6 erano riusciti ad affrontare. Aggiungete a questo il supporto per immagini ad alta risoluzione fino a 2.576 pixel sul lato lungo — più di tre volte rispetto ai modelli Claude precedenti, circa 3,75 megapixel — e si capisce che non si tratta di un modello con le manette: le salvaguardie coesistono con capacità ampliate. La domanda interessante è: come?
La risposta sta nella logica del dispiegamento progressivo. Anthropic è esplicita: le capacità informatiche di Opus 4.7 non sono paragonabili a quelle di Mythos Preview, il modello di frontiera in arrivo. Anzi, durante il training si è lavorato intenzionalmente per ridurre differenzialmente queste capacità. Opus 4.7 è il banco di prova — il primo modello su cui testare queste protezioni prima di procedere verso un rilascio più ampio dei modelli della classe Mythos. È un approccio metodologico: si validano le salvaguardie su un contesto più controllato, si raccolgono dati reali su come gli utenti tentano di aggirare i blocchi, e poi si scala. È la stessa logica con cui si fa staging in produzione prima di un deploy critico.
Sotto il cofano: meccanismi e performance
Per apprezzare l’impatto di questa architettura, bisogna scavare nel modo in cui le protezioni si integrano con le altre capacità del modello. Il miglioramento alla visione non è puramente estetico: accettare immagini fino a 2.576 pixel sul lato lungo significa che Opus 4.7 può processare screenshot di codice, diagrammi di rete, output di tool come Wireshark o ambienti di sviluppo complessi senza perdita di dettaglio. Questo ha un doppio risvolto — aumenta l’utilità legittima in contesti di security research e audit, ma amplia anche la superficie potenziale di abuso. Le salvaguardie integrate, in questo senso, non sono un optional: sono la precondizione che rende possibile espandere le capacità di visione senza sbloccare vettori d’attacco involontari.
Sul fronte del contesto, il confronto con Opus 4.6 — rilasciato a febbraio 2026 con una finestra di 1 milione di token in beta, una prima per la classe Opus — resta rilevante. Opus 4.7 mantiene la stessa struttura di pricing: 5 dollari per milione di token di input, 25 dollari per milione di token di output. Non ci sono variazioni di costo per le funzionalità di sicurezza aggiuntive, il che suggerisce che Anthropic considera le salvaguardie parte integrante del prodotto, non un add-on premium.
Implicazioni per il futuro dello sviluppo AI
Oltre i dettagli implementativi, Opus 4.7 si inserisce in un contesto competitivo e istituzionale che vale la pena leggere in filigrana. Project Glasswing — l’iniziativa che ha riunito Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, la Linux Foundation, Microsoft, NVIDIA e Palo Alto Networks attorno ad Anthropic — non è nato da un esercizio di marketing. Secondo la documentazione ufficiale, il progetto è stato formato direttamente a causa di capacità osservate in un nuovo modello di frontiera addestrato da Anthropic. Leggi: le capability di Mythos hanno fatto alzare le antenne a un pool di aziende che controlla infrastrutture critiche a livello globale, e la risposta collettiva è stato un consorzio di sicurezza. Opus 4.7 è la prima risposta concreta di Anthropic a quella preoccupazione.
Il contrasto con la strategia di OpenAI è istruttivo. Mentre Anthropic costruisce protezioni dentro il modello, OpenAI ha percorso una strada opposta: ha rilasciato GPT-5.4-Cyber, una variante di GPT-5.4 esplicitamente addestrata per essere cyber-permissiva, con un modello di accesso fidato pensato per la difesa informatica. Sono due filosofie che si confrontano: da un lato un modello che per default si limita e richiede fiducia esplicita per sbloccarsi, dall’altro un modello che parte da capacità aumentate e affida il controllo all’operatore. Nessuna delle due è ovviamente corretta — dipende da chi sono gli utenti finali e quanto è affidabile il perimetro di distribuzione. Ma per gli sviluppatori che costruiscono su API, la differenza pratica è sostanziale: con Opus 4.7, alcune richieste vengono bloccate lato modello indipendentemente da come è configurato il sistema prompt.
Questo crea un nuovo tipo di vincolo per chi costruisce applicazioni. Fino a ieri, un developer poteva assumere che il comportamento del modello fosse interamente mediato dalle istruzioni che passava. Con le salvaguardie informatiche integrate, esiste uno strato di logica che non è configurabile dall’operatore. Per certi use case — pensa a piattaforme di security awareness training, ambienti di CTF, strumenti di penetration testing legittimi — questo richiede una ridefinizione di come si progetta l’interazione. Con Mythos in arrivo, questa tensione si farà ancora più acuta: le capacità aumenteranno, le salvaguardie dovranno scalare di conseguenza, e gli sviluppatori dovranno ragionare con un nuovo livello di astrazione nello stack.
Opus 4.7 non è un semplice aggiornamento. È la dimostrazione che la sicurezza, se vuoi che funzioni davvero, deve essere intrinseca all’architettura del modello e non stratificata sopra dopo il fatto. Per chi costruisce su questi sistemi, adattarsi a questo approccio non è opzionale: è la direzione in cui si muove l’industria, almeno per chi ha preso sul serio le implicazioni di un modello di frontiera nelle mani di tutti.