Il primato di Anthropic è durato otto settimane
Anthropic perde il vantaggio su OpenAI in otto settimane. Il primato di Claude Opus 4.6 dura poco.
La finestra da un milione di token resta di fatto riservata a chi può pagare 25 dollari per milione di
Il 5 febbraio 2026, Anthropic ha pubblicato l’annuncio ufficiale di Claude Opus 4.6, accompagnato da un dato progettato per fare rumore: il nuovo modello supera GPT-5.2 di OpenAI di circa 144 punti Elo sul benchmark GDPval-AA. Centoqu arantaquattro punti, nel gergo dei valutatori di modelli AI, è una distanza enorme — equivalente, grosso modo, alla differenza tra un giocatore di scacchi dilettante e un master. Anthropic ci ha costruito sopra la sua intera narrativa: il miglior profilo di sicurezza dell’industria, la finestra di contesto da un milione di token in beta, il modello che finalmente surclassa i professionisti umani in decine di settori. Una storia bella, coerente, ben confezionata. Poi è arrivato marzo 2026, e GPT-5.4 ha cancellato quel vantaggio. Quanto vale un primato che dura meno di otto settimane?
Un vantaggio di facciata
Per capire la portata della questione, vale la pena ripercorrere la timeline. Claude Opus 4 era stato presentato già il 22 maggio 2025 come il miglior modello di codifica al mondo — un titolo che, nel settore, dura quanto un ciclo di stampa. A novembre 2025 era arrivato Opus 4.5, poi il 5 febbraio 2026 è toccato a Opus 4.6, con quel margine di 144 punti Elo presentato come prova di una leadership consolidata. Il problema è che OpenAI non stava ad aspettare: GPT-5.2 era già uscito l’11 dicembre 2025 — meno di due mesi prima — e aveva già stabilito il suo record su GDPval, superando i professionisti del settore in 44 occupazioni di knowledge work. Il giorno stesso del lancio di Opus 4.6, OpenAI rilasciava anche GPT-5.3-Codex. E a marzo 2026, GPT-5.4 completava il sorpasso.
Questo schema — annuncio, record, sorpasso nel giro di settimane — non è un accidente. È la struttura ricorrente di una corsa in cui nessuno può permettersi di fermarsi, ma in cui ogni “primato” rischia di diventare una promessa con una data di scadenza incorporata. Anthropic ha dichiarato che Opus 4.6 “mostra un profilo di sicurezza complessivo pari o migliore rispetto a qualsiasi altro modello frontier dell’industria”: un’affermazione ambiziosa, e forse vera al momento della pubblicazione. Ma se il vantaggio prestazionale svanisce in otto settimane, perché il vantaggio sulla sicurezza dovrebbe reggere più a lungo? È la domanda che nessun comunicato stampa risponde.
Prezzo della leadership
Dal benchmark al portafoglio: il costo di Opus 4.6 è fissato a 5 dollari per milione di token in input e 25 dollari per milione di token in output. Sono cifre che escludono automaticamente la stragrande maggioranza degli sviluppatori indipendenti e delle piccole imprese, concentrando l’accesso nelle mani di grandi aziende con budget dedicati all’AI. Chi può davvero sostenere quei costi operativi? Non la startup che vuole integrare un modello nel suo flusso di lavoro, questo è certo.
Il dato più rivelatore, però, è quello del benchmark MRCR v2, che misura la capacità di recupero di informazioni in contesti lunghi — esattamente ciò che la finestra da un milione di token dovrebbe servire. Su quel test, Opus 4.6 ha ottenuto il 76%, contro il 18,5% di Sonnet 4.5. Un divario abissale tra i due modelli della stessa famiglia, il che pone una domanda precisa: se Sonnet — il modello più accessibile — è così lontano dalle capacità di Opus, a chi serve davvero la finestra da un milione di token? Formalmente, il contesto esteso è diventato disponibile a tutti il 13 marzo 2026, senza sovrapprezzo per i contesti lunghi, secondo il blog ufficiale sulla finestra di contesto. Ma “disponibile” e “utilizzabile” non sono sinonimi, quando il modello che lo sfrutta davvero costa cinque volte quello che molti utenti possono permettersi.
La prossima mossa
Il lancio di GPT-5.3-Codex nello stesso giorno di Opus 4.6 non sembra una coincidenza. Nel settore, i tempi di annuncio sono una forma di comunicazione strategica tanto quanto i benchmark stessi. OpenAI ha scelto di dividere l’attenzione mediatica il 5 febbraio 2026, erodendo lo spazio che Anthropic aveva pianificato di occupare. Poi, a marzo, GPT-5.4 ha chiuso il cerchio. In questo contesto, il vantaggio di 144 punti Elo somiglia meno a una prova di superiorità tecnica e più a una fotografia scattata in un momento preciso, già obsoleta quando è uscita dall’obiettivo.
C’è però una dimensione che i benchmark non misurano: quella normativa. Anthropic si è costruita un’identità pubblica attorno alla sicurezza dei modelli — ed è su quel terreno che le sue affermazioni di febbraio 2026 potrebbero avere le conseguenze più durature, nel bene e nel male. I regolatori europei, che stanno applicando l’AI Act e monitorano il rispetto del GDPR nei sistemi ad alto rischio, non guardano ai punti Elo: guardano alle dichiarazioni pubbliche delle aziende e alla loro corrispondenza con i comportamenti effettivi dei modelli. Se Anthropic afferma di avere il profilo di sicurezza migliore dell’industria, quella frase potrebbe diventare uno standard giuridico a cui essere misurata, non solo un’etichetta di marketing. E se GPT-5.4 dovesse dimostrare prestazioni di sicurezza superiori — come suggerisce la traiettoria competitiva — la distanza tra la promessa e la realtà potrebbe interessare non solo gli analisti del settore, ma anche qualche ufficio antitrust.
La vera domanda, alla fine, non è chi ha il modello migliore oggi. È chi sarà in grado di far sì che “migliore” significhi qualcosa di stabile, misurabile e verificabile indipendentemente. In una corsa in cui i primati si misurano in settimane, le promesse di sicurezza rischiano di diventare la nuova frontiera del greenwashing tecnologico — annunci fatti per durare nei comunicati stampa molto più a lungo di quanto durino nella realtà dei benchmark.