OpenAI ha svelato tre nuovi modelli vocali

OpenAI ha svelato tre nuovi modelli vocali

OpenAI ha presentato tre nuovi modelli audio per la Realtime API, tra cui GPT-Realtime-Translate per traduzioni in oltre 70 lingue.

I tre modelli specializzati puntano a rendere più fluide le conversazioni multilingua in tempo reale

Immagina di chiamare il servizio clienti della tua banca e di parlare liberamente in italiano, mentre l’operatore — che sia a Berlino, a Seoul o da nessuna parte fisica — ti risponde in tedesco, capendoti al volo, senza ritardi imbarazzanti né frasi spezzate. Non è uno scenario lontano: è esattamente quello che Deutsche Telekom sta già costruendo, stando a i nuovi modelli audio OpenAI. Il colosso delle telecomunicazioni tedesco sta sviluppando esperienze di supporto vocale in cui i clienti possono parlare nella lingua con cui si sentono più a loro agio, mentre il modello traduce la conversazione in tempo reale. Fantascienza? No: il frutto di tre modelli nuovi di zecca che OpenAI ha annunciato in questi giorni.

Tre modelli, una API: cosa cambia davvero

I nuovi annunci di OpenAI portano con sé tre novità distinte, ognuna con un obiettivo preciso. Pensateli come tre strumenti diversi in una cassetta degli attrezzi vocale: un martello per i lavori pesanti, un bisturi per la precisione, un metro per misurare ogni parola.

Il primo — e più ambizioso — si chiama GPT-Realtime-2: è il primo modello vocale con ragionamento di classe GPT-5, capace di gestire richieste complesse e portare avanti conversazioni in modo naturale. Non è solo “parla e rispondi”: è un modello che capisce contesti articolati, che non si perde quando la domanda è difficile. Il prezzo è di 32 dollari per milione di token audio in input e 64 dollari per milione di token in output — cifre che danno l’idea di un servizio pensato per le aziende, non per l’utente che vuole giocarci nel weekend. Il secondo strumento è GPT-Realtime-Translate, che supporta oltre 70 lingue di input e 13 lingue di output: è il modello che sta dietro al progetto di Deutsche Telekom, e che potrebbe trasformare il supporto clienti internazionale nel modo in cui i sottotitoli automatici hanno cambiato Netflix. Il terzo è GPT-Realtime-Whisper, un modello di trascrizione in streaming a bassa latenza — in pratica, il trascrittore più veloce possibile, costruito per chi ha bisogno di convertire voce in testo senza aspettare.

Tutto questo arriva attraverso la Realtime API, l’infrastruttura che OpenAI aveva lanciato in beta pubblica già nell’ottobre 2024. Allora era una scommessa; adesso, con questi tre modelli, diventa una piattaforma matura. Il salto di qualità è reale: prima avevi un modello vocale generico, ora hai strumenti specializzati per casi d’uso specifici. È come passare da un coltellino svizzero a una cucina professionale attrezzata.

La corsa all’audio: chi vincerà?

OpenAI non è sola in questa arena. Google e una miriade di soluzioni alternative stanno già spingendo forte, e il confronto è tutt’altro che scontato.

A marzo 2026, Google ha lanciato Gemini 3.1 Flash Live, il suo modello per conversazioni multimodali in tempo reale. I numeri fanno impressione: supporta oltre 90 lingue, contro le 70 di input di GPT-Realtime-Translate. Sulla carta, Google copre più terreno linguistico. Ma la quantità di lingue supportate è solo uno dei fattori — la qualità della traduzione, la latenza percepita e l’integrazione con i sistemi esistenti contano altrettanto, se non di più.

E poi c’è il mondo open-source e modulare, che sta diventando sempre più competitivo. Stando a un’analisi di FutureAGI, uno stack composto da Deepgram Nova-3 e Flux per la trascrizione, Cartesia Sonic Turbo per la sintesi vocale, GPT-5 mini o Gemini 3.1 Flash come cervello linguistico, e Retell AI per orchestrare il tutto, riesce a raggiungere una latenza end-to-end inferiore a 700 millisecondi. Settecento millisecondi: è la soglia sotto la quale una conversazione comincia a sembrare davvero naturale, quasi umana. Questo approccio modulare — assemblare i migliori pezzi disponibili invece di comprare tutto da un unico fornitore — è la scommessa di chi non vuole dipendere da un solo grande player.

La tensione tra questi due approcci è il vero punto interessante. Da un lato, la comodità e la potenza di una soluzione integrata come quella di OpenAI, che promette meno complessità tecnica e modelli sempre più capaci. Dall’altro, la flessibilità di combinare strumenti diversi, scegliendo il miglior componente per ogni funzione e potendo sostituirlo quando il mercato cambia — e in questo settore, cambia in fretta.

Il futuro delle interazioni tra persone e macchine è vocale e in tempo reale. Con questi tre modelli, OpenAI alza il livello della conversazione — nel senso letterale del termine. Ma la partita è ancora aperta. Chi saprà trovare la combinazione giusta tra latenza bassa, costo sostenibile e qualità percepita dall’utente finale sarà chi detterà le regole. E mentre le grandi aziende come Deutsche Telekom iniziano a costruire su queste fondamenta, la vera domanda è: tra un anno, quando chiamerai il tuo servizio clienti, riuscirai ancora a capire se stai parlando con un umano?

🍪 Impostazioni Cookie