OpenAI ha rilasciato un nuovo modello ogni sei settimane
OpenAI rilascia GPT-5.5 con 82,7% su Terminal-Bench 2.0, accelerando i cicli a sei settimane. Anthropic risponde con Claude Opus 4.7.
L’82,7% su Terminal-Bench 2.0 segna un salto nella gestione autonoma di flussi di lavoro complessi
Immagina di sederti al terminale con un compito tutt’altro che banale: spacchettare un server, configurare tre database, lanciare una pipeline di dati e debuggarne gli errori, tutto da riga di comando, in sequenza, senza sbagliare un passaggio. Roba da sistemista esperto con anni di cicatrici. Ecco, secondo l’annuncio ufficiale di GPT-5.5, il nuovo modello di OpenAI su questo tipo di compiti — misurati da Terminal-Bench 2.0, un benchmark che testa flussi di lavoro complessi da riga di comando che richiedono pianificazione, iterazione e coordinamento di strumenti — raggiunge una precisione dell’82,7%. Non è un numero buttato lì per far scena: è lo stato dell’arte attuale, e cambia concretamente cosa si può delegare a un modello linguistico.
Il test della riga di comando
Terminal-Bench 2.0 non è il solito quiz a risposta multipla. Mette i modelli di fronte a scenari composti, dove ogni errore si propaga e ogni decisione dipende dalla precedente — esattamente come succede nel lavoro reale. Sfiorare l’83% in questo contesto significa che GPT-5.5 non si limita a rispondere bene a domande isolate: sa tenere il filo di un compito lungo, correggere il tiro, usare gli strumenti giusti al momento giusto. Per chi sviluppa software, gestisce infrastrutture o automatizza processi, questo è il tipo di miglioramento che si sente subito. GPT-5.5 è disponibile da questa settimana per gli utenti Plus, Pro, Business ed Enterprise, sia in ChatGPT che in Codex — il playground di OpenAI pensato proprio per chi scrive codice. E sotto il cofano gira su sistemi NVIDIA GB200 e GB300 NVL72, con cui è stato co-progettato fin dall’addestramento. La domanda, però, è: come ha fatto OpenAI ad arrivare qui così in fretta?
Sei settimane dopo
La risposta è quasi scomoda nella sua semplicità: la velocità è diventata la vera arma nella corsa ai modelli. Stando a quanto riportato da Fortune, il ritmo di rilascio di OpenAI si è fatto serrato al punto che GPT-5.5 è arrivato appena sei settimane dopo GPT-5.4, rilasciato il 5 marzo scorso. Sei settimane. Meno di due mesi tra un modello e l’altro, ognuno con miglioramenti misurabili.
Dall’altra parte c’è Anthropic, che non sta certo a guardare. La scorsa settimana, il 16 aprile, il rilascio di Claude Opus 4.7 aveva riportato Anthropic in testa nella classifica dei modelli più potenti disponibili al pubblico. E già il 7 aprile la stessa azienda aveva presentato Claude Mythos Preview, un modello con capacità avanzate in ambito cybersecurity. Due uscite in meno di tre settimane. Il ritmo, insomma, non è una caratteristica di OpenAI: è la nuova norma del settore. Per chi costruisce applicazioni su questi modelli, questo pone una domanda concreta: vale la pena ottimizzare per un modello che tra sei settimane potrebbe già essere superato?
E adesso?
Questa è forse la provocazione più interessante che emerge dalla settimana appena trascorsa. OpenAI si definisce costruttrice del modello “più intelligente e intuitivo” fino ad oggi — ma “fino ad oggi” è una formula che scade in fretta, come confermano i numeri. Stando a Fortune, il ciclo di rilascio si è compresso in modo significativo rispetto anche solo a un anno fa, e non ci sono segnali che questo trend si inverta. Anzi.
La conseguenza pratica, per chi usa questi strumenti ogni giorno, è ambivalente. Da un lato, ogni aggiornamento porta con sé capacità reali — e quella dell’82,7% su Terminal-Bench 2.0 non è una promessa astratta, ma un dato che si traduce in meno errori, meno supervisione manuale, più cose che funzionano al primo colpo. Dall’altro, la velocità stessa crea una pressione costante: su chi integra questi modelli nei propri prodotti, su chi forma le persone ad usarli, e — bisogna dirlo — su chi dovrebbe vigilare su sicurezza e uso responsabile. Aggiornamenti rapidi significano anche finestre più strette per valutare rischi, effetti collaterali, comportamenti inattesi.
Detto questo, il vero vincitore di questa corsa potrebbe essere, paradossalmente, chi usa i modelli più che chi li costruisce. Ogni sei settimane, senza cambiare abbonamento, senza pagare di più, gli utenti si ritrovano tra le mani uno strumento più capace. È un po’ come se il tuo meccanico ogni mese ti riportasse la macchina con un motore migliore, senza che tu abbia fatto nulla. Tra poche settimane — secondo quanto riportato da CNBC — il ciclo ricomincerebbe. GPT-5.6? Un nuovo Claude? Qualcos’altro ancora? Siamo in un momento in cui aspettare significa quasi sempre ritrovarsi un’alternativa migliore sul piatto. La domanda non è più “quale modello scelgo”, ma “quanto velocemente riesco ad adattarmi a quello nuovo”.