Quali sono i tre modelli di punta citati e quando sono stati rilasciati?

I tre modelli sono: GPT-5.5 di OpenAI rilasciato il giorno prima dell'articolo, Claude Opus 4.7 di Anthropic presentato il 16 aprile, e Gemini 3.1 Pro di Google lanciato a febbraio.

Quali sono i dati commerciali di Codex dopo il rilascio di GPT-5.5?

Secondo i dati di Fortune, Codex ha superato 1,6 milioni di utenti attivi settimanali, più che triplicati con il rilascio del nuovo modello. L'utilizzo in token elaborati a settimana è cresciuto di un fattore cinque.

Quante iterazioni principali di GPT ci sono state in cinque mesi?

Ci sono state quattro iterazioni principali in cinque mesi: GPT-5.2 (dicembre 2025), GPT-5.3-Codex (febbraio 2026), GPT-5.4 e GPT-5.5.

Quali problemi solleva il ritmo di rilascio dei modelli per utenti enterprise e regolatori?

Per gli utenti enterprise, integrare modelli in pipeline produttive, testare API e formare team interni diventa una sfida operativa concreta. Per i regolatori europei che applicano l'AI Act, è difficile regolare qualcosa che cambia radicalmente ogni sei settimane.

Qual è il nodo irrisolto evidenziato dall'articolo?

Il nodo irrisolto è se il progresso misurato nei benchmark corrisponda a un'IA affidabile e duratura in contesti reali, dove un errore ha conseguenze legali, finanziarie o mediche. L'affidabilità non si misura su Terminal-Bench 2.0 ma nei mesi successivi al deployment.

News 2 hours ago

OpenAI e Anthropic si sfidano a colpi di aggiornamenti

Q: Stiamo assistendo a un'accelerazione genuina dell'intelligenza artificiale o a una gara di comunicati stampa?

Secondo l'articolo, non è chiaro se si tratti di un'accelerazione genuina o di una competizione basata su comunicati stampa. I modelli migliorano, ma la logica temporale delle release sembra progettata per cancellare il modello precedente dal dibattito pubblico, indipendentemente dalla reale entità del salto prestazionale.

Q: Quale punteggio ha ottenuto GPT-5.5 su Terminal-Bench 2.0?

GPT-5.5 ha ottenuto l'82,7% su Terminal-Bench 2.0, un test che misura la capacità del modello di gestire flussi di lavoro complessi a riga di comando.

OpenAI e Anthropic rilasciano nuovi modelli AI a ritmo serrato, sollevando dubbi su progresso reale o marketing.

OpenAI e Anthropic rilasciano nuovi modelli a distanza di pochi giorni l’uno dall’altro

Ieri OpenAI ha rilasciato GPT-5.5, il suo ultimo modello linguistico. Una settimana prima, il 16 aprile, Anthropic aveva presentato Claude Opus 4.7. E a febbraio Google aveva già lanciato Gemini 3.1 Pro. Tre modelli di punta in meno di due mesi. A questo punto è lecito chiedersi: stiamo assistendo a un’accelerazione genuina dell’intelligenza artificiale, oppure i laboratori tecnologici si sono trascinati in una gara di comunicati stampa che assomiglia sempre più a un reality show?

Il paradosso dell’ultimo modello

GPT-5.5 ottiene l’82,7% su Terminal-Bench 2.0, un test che misura la capacità del modello di gestire flussi di lavoro complessi a riga di comando — pianificazione, iterazione, coordinamento di strumenti. Sono numeri impressionanti, presentati come record assoluto. Eppure Claude Opus 4.7 era stato annunciato appena sette giorni prima con numeri altrettanto entusiastici sul fronte dell’ingegneria del software avanzata — «un miglioramento notevole rispetto a Opus 4.6, con progressi particolari sui compiti più difficili», scrive Anthropic. E Gemini 3.1 Pro, uscito a febbraio, era stato già messo a confronto diretto con GPT-5.5 su Terminal-Bench 2.0, GDPval, BrowseComp e FrontierMath.

Il problema non è che i modelli migliorino. Il problema è la logica temporale che governa questi annunci: ogni release sembra progettata per cancellare quella precedente dal dibattito pubblico, indipendentemente da quanto il salto di prestazioni sia reale o misurabile nella pratica quotidiana. I benchmark esistono per comparare, ma comparare cosa, esattamente? Workflow da riga di comando che usano milioni di persone, o scenari costruiti appositamente per far brillare i propri modelli e offuscare i rivali? La risposta, al momento, non è univoca — e questo dovrebbe già dirci qualcosa.

Chi guadagna dalla corsa?

Partiamo dai numeri che contano davvero, quelli commerciali. Secondo i dati sulla crescita di Codex riportati da Fortune, la piattaforma ha superato 1,6 milioni di utenti attivi settimanali, una cifra più che triplicata con il rilascio del nuovo modello. L’utilizzo misurato in token elaborati a settimana è cresciuto di un fattore cinque. Questi non sono numeri di un prodotto sperimentale: sono segnali di adozione enterprise su scala. E GPT-5.5 viene subito distribuito proprio qui — agli utenti Plus, Pro, Business ed Enterprise, sia in ChatGPT che in Codex. Il messaggio implicito è chiarissimo: questo è un modello per chi paga, non per chi esplora.

Poi c’è NVIDIA. GPT-5.5 è stato co-progettato, addestrato e servito su sistemi GB200 e GB300 NVL72 di NVIDIA. Non è una nota tecnica secondaria: è la conferma che ogni nuovo modello di frontiera richiede un aggiornamento del substrato hardware, con tutto ciò che questo comporta in termini di spesa infrastrutturale, approvvigionamento di chip e dipendenza da un singolo fornitore. La corsa all’AI è anche — e forse soprattutto — una corsa all’hardware. NVIDIA non vende solo GPU; vende la conditio sine qua non dell’intera competizione. È difficile non chiedersi quanto di questa frenesia di release sia genuinamente motivata da innovazione e quanto sia invece il risultato di cicli di aggiornamento hardware che i laboratori devono ammortizzare il prima possibile.

Vale la pena ripercorrere la traiettoria recente di OpenAI per capire la velocità del cambiamento. Già nel dicembre 2025, il primo modello della serie GPT-5.2 era stato presentato come il punto di partenza per il lavoro professionale e gli agenti a lungo termine. A febbraio 2026 era arrivato GPT-5.3-Codex come modello ponte tra GPT-5.2 e GPT-5.4, introducendo l’agente nativo Codex capace di combinare codifica e ragionamento generale. Poi GPT-5.4. Ora GPT-5.5. Quattro iterazioni principali in cinque mesi. Per gli utenti enterprise, che devono integrare questi modelli in pipeline produttive, testare le API e formare i team interni, questo ritmo è una sfida operativa concreta. Per i regolatori europei impegnati ad applicare l’AI Act, che prevede valutazioni di conformità per i modelli ad alto rischio, è un problema ancora più serio: come si regola qualcosa che cambia radicalmente ogni sei settimane?

Il nodo irrisolto: progresso o consumo?

Rimane una domanda che nessun comunicato stampa risponde: a cosa serve tutto questo, e per chi? I benchmark migliorano, gli utenti crescono, i chip si vendono. Ma l’affidabilità degli agenti AI in contesti reali — quelli in cui un errore ha conseguenze legali, finanziarie o mediche — non si misura su Terminal-Bench 2.0. Si misura nei mesi successivi al deployment, nell’accumulo silenzioso di fallimenti che raramente finisce sui comunicati stampa. Claude Opus 4.7 è «notevolmente migliorato» rispetto al predecessore, ma quanto? GPT-5.5 è all’avanguardia oggi, ma per quanto? Una settimana? Un mese?

Il progresso misurabile nei benchmark non è ancora la prova di un’IA affidabile e duratura. La velocità con cui i laboratori bruciano i propri modelli — rendendoli obsoleti prima che il mercato li abbia davvero assorbiti — solleva una tensione che nessuno, per ora, ha interesse a risolvere pubblicamente. Chi rallenta perde quote di mercato e titoli di giornale. Chi accelera vende contratti enterprise e chip. Il conto, come spesso accade nella tecnologia, lo paga qualcun altro. La domanda è solo quando arriverà.

Scritto da Giulia Bianchi

Giornalista investigativa specializzata in privacy, sicurezza digitale e regolamentazione tech. Scettica per natura, crede nel giornalismo che fa domande scomode.

Startup

Editorials Pick's

Amazon

Apple

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

OpenAI e Anthropic si sfidano a colpi di aggiornamenti