OpenAI ha accelerato il suo modello per scrivere codice
OpenAI ha lanciato GPT-5.3-Codex-Spark, un modello AI ottimizzato per la codifica in tempo reale che supera i 1.000 token al secondo grazie a connessioni WebSocket persistenti.
Il modello ottimizzato per la velocità promette suggerimenti di codice in tempo reale, riducendo le attese
Immagina di scrivere codice e di avere qualcuno accanto che capisce cosa stai cercando di fare prima ancora che tu finisca la frase. Non un assistente lento che ci mette tre secondi a rispondere, non un sistema che ti fa aspettare mentre “elabora” — qualcuno di istantaneo, quasi come un riflesso. È questa la promessa che OpenAI ha messo su carta lo scorso 11 marzo con il lancio in anteprima di ricerca di GPT-5.3-Codex-Spark, il primo modello dell’azienda pensato esplicitamente per la codifica in tempo reale. Non è un aggiornamento incrementale. È una scelta di design molto precisa: sacrificare parte della complessità per guadagnare velocità assoluta.
Il codice che prende vita
GPT-5.3-Codex-Spark è una versione più compatta di GPT-5.3-Codex, ottimizzata per girare su hardware a latenza ultra-bassa. Il risultato pratico? Più di 1.000 token al secondo. Per dare un riferimento: un essere umano legge mediamente 4-5 parole al secondo. Mille token al secondo significa che il modello produce testo più veloce di quanto tu riesca a leggerlo. In un ambiente di codifica live, questo si traduce in suggerimenti che appaiono mentre stai ancora pensando alla riga successiva. È come passare da un autocompletamento che “si vede” a uno che sembra già lì, pronto, invisibile nel suo funzionamento. Alimentato dal Cerebras Wafer-Scale Engine — un chip progettato appositamente per inferenza ad alta velocità — Codex-Spark porta la risposta del modello a una soglia dove l’attesa smette di essere percepita come tale. È un dettaglio che sembra tecnico ma cambia completamente l’esperienza di chi scrive codice tutto il giorno.
Ma la velocità del modello da sola non basta. C’è un altro pezzo del puzzle che rende tutto questo possibile — e sta nel modo in cui il modello comunica con il mondo esterno.
La magia dietro le quinte
Per capire il salto in avanti bisogna guardare a qualcosa che si chiama modalità WebSocket. In parole semplici: normalmente, ogni volta che un’applicazione vuole chiedere qualcosa a un modello AI, deve aprire una nuova connessione, mandare la richiesta, aspettare la risposta, e chiudere tutto. È come telefonare ogni volta che vuoi dire una cosa a qualcuno, invece di tenerlo in linea. La modalità WebSocket mantiene il canale aperto — una connessione persistente, bidirezionale, che elimina tutta quella burocrazia di rete ogni volta che il modello deve rispondere.
Il risultato numerico è preciso: per workflow con 20 o più chiamate a strumenti concatenate, OpenAI ha misurato fino a circa il 40% di miglioramento nella velocità di esecuzione end-to-end. Quaranta per cento. Non è poco, soprattutto in scenari dove un agente di codifica deve chiamare strumenti in sequenza — eseguire un test, leggere l’output, modificare il codice, eseguire di nuovo — decine di volte in pochi secondi. Ogni millisecondo risparmiato si moltiplica. Il percorso verso questo risultato non è stato improvvisato: già intorno a novembre 2025, OpenAI aveva avviato uno sprint di prestazioni sulla Responses API — lanciata originariamente a marzo 2025 — con l’obiettivo dichiarato di portare la velocità di inferenza a un ordine di grandezza superiore. Poi è arrivato lo sprint di due mesi sulla modalità WebSocket, culminato in un lancio in alpha con alcune startup specializzate in agenti di codifica. La modalità WebSocket è oggi descritta come una delle aggiunte più significative alla Responses API dalla sua nascita. E guardando i numeri, è difficile dargli torto.
Quello che cambia per uno sviluppatore è tangibile: meno attese tra un passo e l’altro, cicli di debug più rapidi, agenti che sembrano “pensare” senza pause imbarazzanti. È la differenza tra lavorare con uno strumento e lavorare con qualcosa che sembra quasi collaborare.
La sfida per il futuro
Mentre OpenAI costruisce questa infrastruttura di velocità, Google non è rimasta ferma. La Gemini Live API consente già oggi interazioni in tempo reale e bidirezionali con i modelli Gemini, con supporto per input audio, video e testo — una proposta più ampia, che va oltre il solo codice. È una corsa alle API in tempo reale che si combatte su fronti diversi: OpenAI punta tutto sulla profondità tecnica per gli sviluppatori di agenti, Google su una piattaforma multimodale più orizzontale. Chi vince dipende da quale problema stai cercando di risolvere.
Mentre OpenAI e Google si sfidano a colpi di latenza e connessioni persistenti, chi ne beneficia concretamente sono gli sviluppatori: un futuro dove il codice diventa sempre più interattivo e immediato non è più una proiezione, è già qui. La domanda che resta aperta — e che vale la pena tenere a mente — è quanto di questa velocità si tradurrà in strumenti accessibili a tutti, e quanto resterà appannaggio di chi può permettersi l’hardware giusto o le API a consumo. La tecnologia corre. Assicurarsi che corra nella direzione giusta è, come sempre, il lavoro più difficile.