OpenAI ha annunciato un modello che sbaglia meno
OpenAI annuncia GPT-5.5 Instant con meno allucinazioni, ma il rapido ciclo di aggiornamento solleva dubbi su fiducia e stabilità.
OpenAI ha corretto i dati di addestramento e ridotto la verbosità per aumentare l’affidabilità
Il 5 maggio 2026, OpenAI ha annunciato che il suo nuovo modello predefinito riduce del 52,5% le affermazioni allucinatorie rispetto al predecessore. È un numero che suona bene, anzi benissimo. Stando all’annuncio ufficiale di GPT-5.5 Instant, il miglioramento riguarda i domini «ad alta posta in gioco» — medicina, legge, finanza — quei campi dove un’informazione sbagliata non è un inconveniente, ma un danno. Eppure, mentre OpenAI celebra questo traguardo, vale la pena fermarsi un secondo. Cosa è stato sacrificato per arrivarci così in fretta? E soprattutto: perché qualcuno dovrebbe fidarsi di un modello che, tra due mesi, potrebbe già non esistere più?
La verità dietro i numeri
I dati che OpenAI ha pubblicato sono specifici e, va detto, non banali. GPT-5.5 Instant non si limita al -52,5% sulle allucinazioni in ambiti critici: riduce anche del 37,3% le affermazioni inaccurate in quelle che l’azienda definisce «conversazioni particolarmente difficili», ovvero quelle che gli stessi utenti avevano già segnalato per errori fattuali. È un dettaglio metodologico interessante — significa che OpenAI ha usato i feedback reali degli utenti come benchmark — ma solleva anche una domanda imbarazzante: se sapevate già che certi tipi di conversazione producevano errori gravi, perché GPT-5.3 Instant è rimasto il modello predefinito fino a oggi?
Poi c’è la questione della verbosità. GPT-5.5 Instant usa il 30,2% in meno di parole e il 29,2% in meno di righe rispetto al modello precedente. OpenAI lo presenta come un vantaggio: risposte più concise, meno rumore. Ma la concisione non è sempre una virtù. In ambito medico o legale, un modello che taglia parole può anche tagliare sfumature, avvertenze, eccezioni. Chi verifica che la sintesi non stia erodendo proprio quella precisione che si promette di migliorare? OpenAI non lo dice, e i parametri del test non sono pubblici nella loro interezza.
Chi paga il prezzo della velocità?
Per capire il problema, bisogna guardare il calendario. GPT-5.3 Instant era uscito il 3 marzo 2026. GPT-5.5 Instant lo ha sostituito come modello predefinito esattamente due mesi dopo. Due mesi. Nel frattempo, già a febbraio 2026 GPT-4o era stato deprecato, come riportato nell’articolo di TechCrunch pubblicato lo stesso giorno dell’annuncio. Quel ritiro non era passato inosservato: nell’annuncio del ritiro di GPT-4o, OpenAI aveva scritto in modo esplicito — «sappiamo che perdere l’accesso a GPT-4o sarà frustrante per alcuni utenti, e non abbiamo preso questa decisione alla leggera» — una frase che, letta oggi, suona quasi come un promemoria a se stessi. Una concessione retorica che non ha cambiato nulla nella sostanza.
Il pattern è chiaro: modelli che durano pochi mesi, deprecazioni che lasciano utenti e sviluppatori a riscrivere flussi di lavoro, e ogni volta la promessa che la prossima versione sarà quella giusta. Per chi costruisce applicazioni sull’API di OpenAI, questo ciclo ha un costo concreto: aggiornamenti forzati, test di regressione, documentazione da riscrivere. GPT-5.5 Instant è ora disponibile come chat-latest nell’API, il che significa che chi usa quel tag si ritroverà automaticamente sul nuovo modello, volente o nolente. Una comodità per alcuni, un problema per chi aveva ottimizzato il proprio sistema sul comportamento specifico di GPT-5.3.
Vale la pena guardare cosa fa la concorrenza. Anthropic ha rilasciato Claude Sonnet 4.6 — ora modello predefinito per gli utenti Free e Pro su claude.ai e Claude Cowork — appena dodici giorni dopo il lancio del flagship Opus 4.6, come ha riportato il report di CNBC. Anche Anthropic corre, dunque. Ma c’è una differenza: il ritmo di aggiornamento di OpenAI è talmente serrato da rendere difficile anche solo costruire un giudizio stabile su un singolo modello prima che venga sostituito. Non è una questione di preferenza estetica — è un problema di fiducia istituzionale, soprattutto se si parla di utilizzi in ambito sanitario o legale dove la stabilità del sistema è un requisito, non un’opzione.
C’è anche un tema che la stampa generalista tende a ignorare: le implicazioni normative. GPT-5.5 Instant introduce una personalizzazione avanzata basata su chat passate, file e account Gmail connessi, in distribuzione per gli utenti Plus e Pro. Questo tipo di integrazione solleva domande dirette sul GDPR e sulla gestione dei dati personali in Europa. Chi controlla cosa viene memorizzato? Con quale base giuridica? OpenAI non ha fornito dettagli su questo punto nell’annuncio, e i regolatori europei — già alle prese con i procedimenti aperti sulle pratiche di addestramento dei modelli AI — avranno probabilmente qualcosa da dire.
Alla fine, la domanda che resta aperta non è tecnica. È strategica, e forse psicologica. OpenAI sta costruendo un servizio su cui medici, avvocati, giornalisti e milioni di utenti comuni fanno affidamento ogni giorno. Un servizio che promette di sbagliare sempre di meno. Ma la fiducia non si misura solo in percentuali di allucinazioni: si misura anche nella continuità, nella coerenza, nella possibilità di imparare a conoscere uno strumento prima che venga portato via. Se ogni miglioramento arriva insieme a una cancellazione, ci si può davvero fidare della prossima promessa?