La fine dell'illusione: OpenAI ammette che i suoi modelli non sono mai stati 'intelligenti', solo macchine da lavoro

La fine dell’illusione: OpenAI ammette che i suoi modelli non sono mai stati ‘intelligenti’, solo macchine da lavoro

OpenAI lancia GPT-5.3-Codex, ottimizzato per benchmark professionali come GDPval. Il modello punta all'automazione lavorativa, segnando un allontanamento dall'intelligenza artificiale generale.

Il nuovo modello è ottimizzato per compiti professionali specifici e per interagire con le interfacce dei computer.

Il ritiro di GPT-4o, ormai scelto solo dallo 0.1% degli utenti, non è una semplice transizione di versione. È la pietra tombale su un’era di narrazione. Con il lancio di GPT-5.3-Codex, OpenAI non sta affinando un’intelligenza generale. Sta dichiarando, nei fatti, di aver costruito un motore di produttività specializzato. La personalità e la creatività cedono il passo a metriche di efficienza sul lavoro.

GDPval: il benchmark che ha spostato l’obiettivo

Per capire la svolta, bisogna guardare al nuovo sistema di misura. GPT-5.3-Codex mostra “forti prestazioni sul lavoro di conoscenza professionale come misurato da GDPval”. Questo non è un test di ragionamento astratto o di comprensione del mondo. GDPval è una valutazione rilasciata nel 2025 che misura le prestazioni su compiti ben specifici in 44 professioni. È un protocollo di benchmark costruito per misurare l’utilità in ufficio, non l’intelligenza. L’architettura del modello è ottimizzata per superare quel test specifico, con “custom skills simili a quelli utilizzati per i nostri precedenti risultati GDPval”. L’allenamento non punta a emulare la cognizione umana, ma a massimizzare un punteggio in una suite di task professionali.

L’agenzia è per il computer, non per l’utente

La feature di punta del nuovo modello, le capacità “agenziali”, chiarisce ulteriormente la direzione. Queste capacità vanno “oltre il software, aiutandoti a costruire qualsiasi cosa tu voglia costruire—che si tratti di presentazioni o analisi di dati in fogli di calcolo”. Il vero salto, però, è sotto il cofano: GPT-5.3-Codex dimostra “capacità di utilizzo del computer molto più forti rispetto ai modelli GPT precedenti” su benchmark come OSWorld. L’intelligenza qui è la capacità di interagire con le API di un sistema operativo, di manipolare interfacce utente, di eseguire workflow. È un’abilità strumentale, perfetta per automatizzare compiti ripetitivi in ambienti di lavoro digitali.

Ma allora, dove finisce l’illusione dell’AGI?

Potrebbe essere che questa specializzazione sia solo una tappa intermedia. Per costruire uno strumento veramente generale, forse bisogna prima padroneggiare i domini specifici. L’ottimizzazione su GDPval e OSWorld potrebbe essere un esercizio necessario per affinare capacità di pianificazione e esecuzione che, in un secondo momento, verranno generalizzate. La “personalità” dei modelli precedenti non è scomparsa, ma è stata messa in secondo piano perché il mercato, dove la stragrande maggioranza dell’utilizzo è già passata a GPT-5.2, ha premiato l’utilità immediata.

Implicazioni per chi sviluppa: preparatevi a integrare, non a conversare

Per gli sviluppatori e i CTO, il cambio di paradigma è operativo. L’integrazione con GPT-5.3-Codex e i suoi successori non sarà progettata per sostenere conversazioni filosofiche. Sarà progettata per eseguire job. Dovrete pensare a clean API, a contesti di esecuzione stabili, a prompt che definiscono task misurabili e ripetibili. Lo stack si sposta verso pattern di automazione: il modello come executor di una catena di comandi, non come interlocutore.

La trasparenza su cosa un modello è effettivamente in grado di fare è un passo avanti. Ma segna anche la fine di un certo sogno. OpenAI non sta costruendo una mente. Sta costruendo il miglior collega automatizzato che il denaro possa comprare. La domanda che resta è: una volta ottimizzato per il lavoro, un modello potrà mai essere qualcosa di più?

Facebook X Network Pinterest Instagram
🍪 Impostazioni Cookie