Anthropic ha integrato le salvaguardie di sicurezza direttamente nel modello
Anthropic ha rilasciato Claude Opus 4.7, un modello con salvaguardie di sicurezza integrate, lo stesso giorno del lancio di GPT-5.2-Codex di OpenAI.
Il modello ora rifiuta automaticamente le richieste di cybersecurity ad alto rischio, integrando i controlli nel runtime.
Tre giorni fa, il 16 aprile 2026, Anthropic ha pubblicato l’annuncio ufficiale di Claude Opus 4.7, un aggiornamento che arriva con tempismo tutt’altro che casuale: nello stesso giorno in cui OpenAI presentava GPT-5.2-Codex. Più che un semplice bump di versione, Opus 4.7 porta con sé una scelta architetturale precisa — salvaguardie di sicurezza integrate nel runtime del modello — che distingue l’approccio di Anthropic da quello del suo principale concorrente. La posta in gioco non è solo chi scrive codice migliore, ma chi decide come un modello deve comportarsi quando incontra richieste ai limiti del consentito.
Il miglioramento sotto il cofano: cosa cambia in Opus 4.7
Partiamo dai numeri. Secondo Anthropic, Opus 4.7 rappresenta un miglioramento significativo rispetto al suo predecessore nell’ingegneria del software avanzato, con progressi particolarmente marcati sui compiti più difficili. La società descrive questo rilascio come il suo modello Opus più intelligente, progettato specificamente per avanzare nelle prestazioni di codifica, negli agenti a lungo termine — quelli che eseguono pipeline complesse su più step — e nel lavoro professionale ad alta intensità cognitiva. La disponibilità è immediata e trasversale: il modello è già accessibile su Vertex AI di Google Cloud e su Amazon Bedrock, i due principali cloud provider su cui Anthropic ha consolidato la sua distribuzione enterprise.
Sul piano economico, Anthropic non ha modificato il pricing: 5 dollari per milione di token in input e 25 dollari per milione di token in output, identici a Opus 4.6. Vale la pena ricordare che Opus 4.6 disponeva già di una finestra di contesto da 1 milione di token in versione beta — una capacità non banale per chi lavora con codebase grandi o documenti tecnici estesi. Opus 4.7 eredita questo contesto e ci costruisce sopra, migliorando la qualità del ragionamento senza aumentare il costo per token. Per chi gestisce inferenze su larga scala, questo è un segnale positivo: più intelligenza a parità di spesa.
Il duello tecnico: Anthropic vs. OpenAI nello stesso giorno
La coincidenza di calendario racconta qualcosa sul ritmo attuale del settore. Lo stesso 16 aprile, OpenAI ha rilasciato GPT-5.2-Codex, definito dall’azienda come il modello di codifica agenziale più avanzato mai costruito, ottimizzato per l’ingegneria del software complessa nel mondo reale. Due aziende, stesso giorno, stesso dominio di applicazione: il codice. Questa sovrapposizione non è accidentale — entrambe le società stanno inseguendo il mercato degli sviluppatori che delegano compiti complessi agli agenti AI, un segmento in rapida crescita dove il vantaggio competitivo si misura in benchmark su task reali, non su demo costruite ad hoc.
Ma il punto di divergenza tra i due rilasci non è solo nelle metriche di performance. Anthropic ha scelto di affiancare al miglioramento tecnico una componente esplicita di controllo comportamentale, che merita un’analisi separata.
Sicurezza come feature di sistema: le salvaguardie, Mythos e il percorso avanti
La mossa più interessante di questo rilascio non riguarda il codice che il modello sa scrivere, ma quello che il modello sa rifiutare. Anthropic ha integrato in Opus 4.7 salvaguardie automatiche che rilevano e bloccano le richieste classificabili come usi di cybersecurity proibiti o ad alto rischio. Non si tratta di un layer di filtraggio esterno — un guardrail applicativo che molti team costruiscono sopra le API — ma di meccanismi che operano direttamente nel pipeline di inferenza del modello. È una scelta di design che sposta la responsabilità dal livello applicativo al livello del modello stesso.
Questo approccio si inserisce in una traiettoria più ampia che Anthropic sta tracciando con Project Glasswing e il modello Mythos. Già il 7 aprile scorso, Anthropic aveva rilasciato un’anteprima di Mythos, il suo nuovo modello di frontiera, destinato inizialmente a 12 organizzazioni partner per lavoro di sicurezza difensiva e per proteggere software critici nell’ambito del progetto. La connessione con Opus 4.7 è esplicita: Anthropic afferma che ciò che impara dalla distribuzione nel mondo reale di queste salvaguardie alimenterà il percorso verso un rilascio allargato dei modelli della classe Mythos. Opus 4.7 diventa, in questa lettura, un banco di prova controllato — un campo dove raccogliere dati reali su come i modelli vengono utilizzati ai margini del consentito, per poi trasferire quel sapere nei modelli di prossima generazione.
Per chi costruisce con questi modelli, il cambio di prospettiva è concreto. Fino ad ora, la sicurezza era un problema che i team applicativi risolvevano in autonomia: prompt engineering difensivo, filtri a valle, logging delle richieste sospette. Con le salvaguardie integrate nel modello, parte di questa responsabilità viene assorbita a monte. Il vantaggio è una riduzione del carico per chi sviluppa; il rischio — che vale la pena monitorare — è quello di una black box nel comportamento del modello: come vengono classificate le richieste? Quali soglie determinano il blocco? Anthropic non ha ancora reso pubblici i dettagli tecnici di questi meccanismi, e la trasparenza su questo punto sarà un indicatore importante per valutare la solidità dell’approccio nel tempo.
Per chi costruisce con l’AI, Claude Opus 4.7 non segna solo un incremento di capacità nell’automazione del codice, ma un segnale preciso sulla direzione che Anthropic intende seguire: integrare responsabilità e protezione direttamente nel design del modello, non come strato opzionale ma come parte della specifica. Mentre OpenAI punta sulla potenza agenziale bruta, Anthropic scommette che il mercato enterprise — quello che gestisce software critico e deve rispondere di compliance — premierà chi offre un modello su cui si può ragionare anche in termini di rischio, non solo di performance. La prossima mossa sarà vedere se i dati raccolti con Opus 4.7 tramuteranno in qualcosa di misurabile quando Mythos arriverà alla disponibilità generale.