OpenAI ha dimezzato le allucinazioni di ChatGPT
OpenAI ha ridotto del 52,5% le allucinazioni di ChatGPT in ambiti critici con il nuovo modello GPT-5.5 Instant, ora disponibile per tutti.
Il dimezzamento delle risposte inventate riguarda soprattutto medicina, diritto e finanza
Immagina di avere un sintomo strano, una cosa che ti preoccupa, e di chiedere a ChatGPT cosa potrebbe essere. Il modello ti risponde con sicurezza, ti cita condizioni mediche, magari ti spaventa. Peccato che quella risposta sia in parte — o del tutto — inventata. Non per malafede, ovviamente: è quello che nel gergo tecnico si chiama “allucinazione”, e fino a poco tempo fa era uno dei problemi più seri dell’AI conversazionale. Ora, secondo l’annuncio ufficiale di OpenAI su GPT-5.5 Instant, quel rischio si è ridotto del 52,5% rispetto alla versione precedente. Non è un numero piccolo. È come dimezzare le probabilità che il tuo assistente virtuale ti racconti una storia di fantasia spacciandola per verità.
Il giorno in cui l’AI ha smesso di inventarsi cose pericolose
Le allucinazioni dei modelli linguistici non sono un bug esotico che capita raramente. Capitano quando qualcuno chiede informazioni legali, fiscali, mediche — esattamente nei contesti in cui un errore può avere conseguenze concrete. GPT-5.5 Instant è stato progettato proprio con questo in mente: essere il modello “da tutti i giorni” per centinaia di milioni di utenti, non un esperimento da laboratorio. OpenAI lo descrive esplicitamente come il “daily driver” di ChatGPT, pensato per migliorare l’esperienza quotidiana, non per stupire i ricercatori con benchmark di frontiera. E i miglioramenti, stavolta, riguardano proprio le cose che contano di più: quanto spesso il modello si inventa qualcosa che non esiste.
Il salto rispetto a GPT-5.3 Instant è netto. In domini considerati ad alto rischio — medicina, diritto, finanza — le affermazioni allucinate sono scese del 52,5%. Ma non è solo una questione di casi estremi: anche nelle conversazioni difficili che gli utenti stessi avevano segnalato per errori fattuali, le risposte imprecise sono calate del 37,3%. Due numeri che, messi insieme, disegnano un modello sensibilmente più cauto nel dire cose che non sa.
Numeri che parlano
Come si ottiene questo risultato? OpenAI non entra nei dettagli tecnici dell’architettura, ma il messaggio è chiaro: il modello è stato addestrato a essere più preciso, non solo più fluente. E si vede anche in un altro dato apparentemente meno drammatico ma altrettanto significativo: GPT-5.5 Instant usa il 30,2% in meno di parole e il 29,2% in meno di righe rispetto al predecessore. Sembra una questione estetica, ma non lo è. Risposte più brevi e mirate significano meno spazio per riempitivi, meno giri di parole, meno occasioni in cui il modello “inventa” per sembrare completo.
Pensatela così: un medico che non sa rispondere a una domanda può dire “non lo so, mi serve consultare la letteratura”. Un modello linguistico, fino a poco fa, tendeva invece a inventare una risposta plausibile. GPT-5.5 Instant sembra più incline a fare la prima cosa — o almeno a tenersi sul sicuro quando il territorio è incerto. Questo, per chi usa ChatGPT per ricerche, per bozze di documenti, per orientarsi su argomenti complessi, cambia l’esperienza in modo tangibile.
Il modello è già disponibile per tutti gli utenti di ChatGPT come scelta predefinita, e nell’API come chat-latest. Gli utenti paganti che volessero continuare a usare GPT-5.3 Instant hanno tre mesi di tempo prima che venga ritirato definitivamente. Una finestra di transizione ragionevole, soprattutto per chi ha flussi di lavoro costruiti intorno alle caratteristiche della versione precedente.
Detto questo, vale la pena fare un passo indietro. Un calo del 52,5% nelle allucinazioni in ambito medico o legale è una notizia ottima. Ma significa anche che una quota di errori resta. In quei domini, l’affidabilità al 100% non esiste ancora — e probabilmente non esiste per nessun modello attuale. Chi usa ChatGPT per decisioni serie deve ancora verificare, ancora confrontare con fonti primarie. Il modello è diventato molto più affidabile, non infallibile.
E adesso?
Se i numeri reggono all’uso reale — e questa è sempre la vera prova — GPT-5.5 Instant diventa un punto di riferimento concreto per chi sviluppa applicazioni in ambiti sensibili. La riduzione delle allucinazioni non è solo un vantaggio per l’utente finale: è una leva per gli sviluppatori che finora evitavano di usare modelli conversazionali in contesti critici proprio per quel rischio.
Ma la competizione non si ferma. Già nel giugno 2024, Claude 3.5 Sonnet di Anthropic aveva alzato l’asticella dichiarando di superare i modelli concorrenti su una vasta gamma di valutazioni. E già nel luglio 2024, OpenAI stessa aveva puntato sulla fascia di prezzo con il modello GPT-4o mini, proposto a 15 centesimi per milione di token in input e 60 in output, più economico del 60% rispetto a GPT-3.5 Turbo. Il mercato si è frammentato tra chi punta sulla precisione e chi punta sul costo.
Con GPT-5.5 Instant, OpenAI ha fatto un passo avanti importante verso un’AI più affidabile per l’uso di tutti i giorni. La battaglia contro le allucinazioni è ancora aperta, ma per la prima volta sembra che il fronte si stia spostando nella direzione giusta. La domanda che resta è: quanto velocemente gli altri si adegueranno?