Qual è la novità principale di GPT-Realtime-2?

La novità principale è il quadruplicamento della finestra di contesto, passata da 32K a 128K token, che consente conversazioni vocali continue più lunghe e gestione di flussi di lavoro complessi senza perdere il filo del discorso.

Cosa rende GPT-Realtime-2 diverso dai modelli vocali precedenti?

GPT-Realtime-2 è descritto come il primo modello vocale con ragionamento di classe GPT-5, capace di gestire richieste complesse e portare avanti la conversazione in modo naturale, con un miglioramento del 15,2% su Big Bench Audio rispetto a GPT-Realtime-1.5.

A cosa serve GPT-Realtime-Translate?

GPT-Realtime-Translate è ottimizzato per la traduzione simultanea con oltre 70 lingue di input e 13 lingue di output, utile per supporto clienti globale, piattaforme educational e media internazionali.

Qual è la differenza tra GPT-Realtime-2 e la Gemini Live API di Google?

GPT-Realtime-2 punta su contesto lungo e ragionamento avanzato, mentre la Gemini Live API di Google offre 70 lingue e la funzione di interruzione naturale (barge-in), ma non un livello di ragionamento comparabile.

Quali sono i casi d'uso pratici menzionati per GPT-Realtime-2?

Zillow sta costruendo un assistente vocale per cercare case compatibili con il budget, evitare strade trafficate e prenotare tour. Deutsche Telekom utilizza GPT-Realtime-Translate per il supporto clienti multilingue in tempo reale.

Quali sono i trade-off da considerare nell'uso di questi modelli?

I trade-off riguardano latenza, costo e complessità architetturale. Una finestra da 128K riduce la necessità di spezzettare le sessioni, ma un'ora di conversazione può ancora saturare il contesto e il costo per token rimane un fattore nei budget di infrastruttura.

Cosa significa il salto a 128K token per gli sviluppatori?

Con 128K token, parte della complessità di gestione dello stato e del contesto si sposta dal middleware al modello, semplificando lo sviluppo di agenti vocali per sessioni multi-step e tool call in conversazione.

Intelligenza Artificiale 3 months ago

OpenAI ha quadruplicato la memoria dei suoi modelli vocali

Q: Quali sono i tre nuovi modelli audio introdotti da OpenAI?

I tre nuovi modelli sono GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper, presentati come una nuova categoria di applicazioni vocali per sviluppatori.

OpenAI introduce GPT-Realtime-2 con 128K token di contesto, quadruplicando la finestra del predecessore e portando il ragionamento di classe GPT-5 nei modelli vocali.

La finestra di contesto da 128.000 token permette conversazioni più lunghe e complesse senza perdere il filo

128.000 token di contesto per il parlato in tempo reale. Non è un refuso: GPT-Realtime-2 quadruplica la finestra del suo predecessore e, per la prima volta, un modello vocale ragiona con la stessa classe di GPT-5. Nei giorni scorsi, stando all’annuncio di OpenAI, l’azienda ha introdotto tre nuovi modelli audio nell’API — GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper — presentati come una nuova categoria di applicazioni vocali per sviluppatori. Il salto non è solo quantitativo: è architetturale.

Il numero che cambia tutto

Il dato più rilevante è la finestra di contesto: da 32K a 128K token. In una sessione vocale continua, ogni secondo di audio occupa una quantità significativa di token. Quadruplicare il limite significa poter sostenere conversazioni molto più lunghe senza perdere il filo, gestire flussi di lavoro complessi in un’unica sessione e supportare task multi-step che prima richiedevano architetture esterne di memory management. GPT-Realtime-2 (high) segna inoltre un +15,2% su Big Bench Audio per l’intelligenza audio rispetto a GPT-Realtime-1.5: un benchmark settoriale che misura comprensione, ragionamento e accuratezza su input vocali. Ma come si traduce questo salto in architettura e latenza?

Tre modelli, un ecosistema pensato per il trade-off

Per capire davvero l’impatto, serve guardare sotto il cofano di ogni modello. GPT-Realtime-2 è descritto come il primo modello vocale con ragionamento di classe GPT-5, capace di gestire richieste complesse e di portare avanti la conversazione in modo naturale. È il modello di punta, quello che paghi in latenza per avere in cambio comprensione profonda e coerenza a lungo termine.

GPT-Realtime-Translate è invece ottimizzato per uno scopo preciso: traduzione simultanea con più di 70 lingue di input e 13 lingue di output, utile per supporto clienti globale, piattaforme educational e media internazionali. GPT-Realtime-Whisper, dal canto suo, affonda le radici nel progetto Whisper originale — il sistema ASR addestrato già nel settembre 2022 su 680.000 ore di dati supervisionati multilingue raccolti dal web — ma ripensato per il contesto real-time dell’API. Il confronto con la concorrenza è istruttivo: la Gemini Live API supporta 70 lingue e consente agli utenti di interrompere il modello in qualsiasi momento (il cosiddetto barge-in), ma non offre un livello di ragionamento comparabile a quello dichiarato per GPT-Realtime-2. I trade-off sono chiari: OpenAI punta su contesto e ragionamento, Google su reattività e interruzione naturale. Resta una domanda concreta: cosa significa tutto questo per chi deve integrare questi modelli oggi?

Cosa cambia nello stack

Le demo di Zillow e Deutsche Telekom mostrano la direzione, ma il vero lavoro è nel middleware. Zillow sta costruendo un assistente vocale basato su GPT-Realtime-2 in grado di ascoltare, ragionare e agire su richieste del tipo: “trovami case compatibili con il mio BuyAbility, evita le strade trafficate e prenota un tour per sabato.” È un caso d’uso che, con 32K token, avrebbe richiesto spezzettamento della sessione, stato esterno e logica di reidratazione del contesto — tutto overhead di sviluppo. Con 128K token, una parte di quella complessità scompare a livello applicativo e si sposta nel modello. Deutsche Telekom, invece, usa GPT-Realtime-Translate per il supporto clienti multilingue in tempo reale: un caso dove la latenza è critica quanto la precisione linguistica, e dove il trade-off tra modello pesante e modello specializzato è evidente.

Per chi costruisce agenti vocali, le implicazioni sono concrete. Prima, con la Realtime API lanciata in beta pubblica nell’ottobre 2024, una sessione lunga imponeva scelte scomode: troncare il contesto, serializzare su database esterno, o accettare deriva conversazionale. Ora la finestra da 128K riduce la frequenza di queste decisioni, ma non le elimina. Un’ora di conversazione vocale continua può ancora saturare il contesto, e il costo per token rimane un fattore reale nei budget di infrastruttura. La scelta tra i tre modelli diventa quindi un esercizio di ingegneria dei requisiti: quanto ragionamento serve? Quante lingue? Quanto latenza è accettabile? GPT-4o, quando fu presentato nel maggio 2024, stabilì un primo riferimento con risposte audio in 232 millisecondi in media. Da lì in poi, il punto di riferimento si è spostato verso la qualità del ragionamento, non solo la velocità di risposta.

GPT-Realtime-2 non è solo un aggiornamento di versione: è un segnale su dove si sta spostando il confine tra ciò che un modello vocale può fare autonomamente e ciò che richiede architettura esterna. Il contesto lungo e il ragionamento integrato aprono possibilità prima irraggiungibili — sessioni multi-step, agent loop vocali, orchestrazione di tool call in conversazione — ma richiedono una nuova consapevolezza dei trade-off tra latenza, costo e complessità architetturale. Per chi costruisce, la sfida non è più se usare la voce in tempo reale, ma come orchestrare questi modelli in modo che il guadagno in intelligenza non si trasformi in debito tecnico nascosto.

Scritto da Luca Verdi

Developer e tech writer. Spiega la tecnologia dal punto di vista tecnico senza perdere di vista l'accessibilità. Ex software engineer, ora si dedica al giornalismo tech. | Autore AI KronosWire

Startup

Editorials Pick's

Amazon

Apple

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

OpenAI ha quadruplicato la memoria dei suoi modelli vocali

La finestra di contesto da 128.000 token permette conversazioni più lunghe e complesse senza perdere il filo

Il numero che cambia tutto

Tre modelli, un ecosistema pensato per il trade-off

Cosa cambia nello stack

La finestra di contesto da 128.000 token permette conversazioni più lunghe e complesse senza perdere il filo

Il numero che cambia tutto

Tre modelli, un ecosistema pensato per il trade-off

Cosa cambia nello stack

Articoli correlati

Il mercato immobiliare nel 2026: dall’hype dell’ai alla predizione dei dati

L’AI di Google e Meta: performance record e dominio rafforzato negli annunci.

L’ecommerce B2B nel 2026: la digitalizzazione sfonda e l’IA riscrive le regole