GPT-5.3-Codex rivoluziona il coding: OpenAI lancia l'agente AI che si auto-migliora

GPT-5.3-Codex rivoluziona il coding: OpenAI lancia l’agente AI che si auto-migliora

Dietro la narrazione di un balzo verso l’ingegneria “AI-native” si celano questioni aperte sull’auto-miglioramento del modello, sulla sua operatività autonoma sui computer degli sviluppatori e sui risvolti economici e di sicurezza.

Da oggi, 10 febbraio 2026, gli sviluppatori che usano Cursor, Visual Studio Code e GitHub Copilot si trovano davanti a un nuovo strumento promosso come rivoluzionario: GPT-5.3-Codex. OpenAI lo presenta come il modello di coding “agente” più potente mai rilasciato, capace non solo di scrivere codice ma di gestire flussi di lavoro complessi, usare strumenti, operare un computer e portare a termine progetti interi con supervisione umana minima.

La narrazione è quella di un balzo in avanti verso l’ingegneria “AI-native”, dove l’intelligenza artificiale non assiste più, ma costruisce.

Ma cosa si nasconde dietro l’ennesimo aggiornamento incrementale di un modello?

E, soprattutto, chi ci guadagna davvero quando un’IA inizia a scrivere, testare e distribuire il proprio codice?

La risposta, forse, è nella storia stessa di GPT-5.3-Codex. Per la prima volta, OpenAI dichiara apertamente che versioni precoci del modello sono state usate per debuggare il proprio addestramento, gestire il proprio deployment e diagnosticare i risultati delle valutazioni. In un post sul forum per sviluppatori, l’azienda afferma che “il nostro team è stato sbalordito da quanto Codex sia stato in grado di accelerare il proprio sviluppo”.

È il sogno (o l’incubo) dell’auto-miglioramento che diventa realtà di prodotto.

Ma siamo sicuri che delegare la creazione e la manutenzione di uno strumento così critico a se stesso sia un segno di progresso, e non un pericoloso cortocircuito di responsabilità?

Il System Card ufficiale del modello è chiaro nel dire che il modello “non raggiunge un’Alta capacità nell’auto-miglioramento dell’IA”, ma ammette anche che è stato “strumentale nella creazione di se stesso”.

Una distinzione sottile che suona più come un esercizio di semantica che come una garanzia.

Un agente sul tuo computer: produttività o sorveglianza?

La vera novità di GPT-5.3-Codex non è nel codice che scrive, ma in ciò che fa. Il modello è ottimizzato per “operare terminali e GUI” ed è valutato su benchmark come OSWorld, che testa la capacità di un’IA di usare un computer come un umano.

Qui i numeri sono impressionanti: un balzo al 64.7% su OSWorld-Verified, rispetto al 38.2% del predecessore. In pratica, il modello può navigare interfacce grafiche, gestire finestre e interagire con applicazioni. Per uno sviluppatore, significa poter chiedere all’agente di configurare un ambiente, lanciare build, monitorare log e correggere errori in un flusso continuo.

Ma aprire questa porta solleva questioni di sicurezza e privacy senza precedenti.

Se l’agente può operare il mio computer, quali garanzie ho che non possa accedere, per errore o per progetto, a dati sensibili al di fuori del contesto del progetto? OpenAI classifica GPT-5.3-Codex come ad “Alta capacità” per compiti di cybersecurity nel suo quadro di preparazione, il che suona rassicurante.

Tuttavia, lo stesso documento avverte di “rischi residui”, tra cui una “precisione di monitoraggio limitata” e il potenziale di uso improprio.

In un’epoca in cui il GDPR vieta esplicitamente di condividere informazioni sanitarie senza consenso esplicito, avere un agente AI che agisce autonomamente sui nostri dispositivi è un esperimento su larga scala i cui confini giuridici sono ancora opachi.

Microsoft e GitHub, che distribuiscono il modello, conservano i prompt per 55 giorni per il monitoraggio e offrono metriche d’uso, ma i dettagli sui log di audit per le azioni “agente” sono scarni.

Il nostro team è stato sbalordito da quanto Codex sia stato in grado di accelerare il proprio sviluppo

— OpenAI, annuncio per sviluppatori

Il vero business: lock-in, abbonamenti e dati

Mentre gli sviluppatori discutono dei benchmark, le aziende fanno i conti. L’accesso a GPT-5.3-Codex non è libero: è un privilegio a pagamento, stratificato. Per l’utente individuale, serve un piano ChatGPT Plus a 20 dollari al mese, che include una “quota d’uso specifica”. Per le aziende, i piani Business (30 dollari per utente/mese) o Enterprise richiedono che l’amministratore abiliti manualmente la policy per GPT-5.3-Codex nelle impostazioni di Copilot. È un meccanismo di controllo che crea due classi di sviluppatori: quelli che hanno accesso all’ultimo motore e quelli che rimangono indietro.

Il prezzo per l’accesso via API, quando sarà disponibile, è fissato a 1,75 dollari per milione di token in input e 14 dollari per milione in output. Un modello che promette di completare task con “meno della metà dei token” del predecessore sembra efficiente, ma è un’arma a doppio taglio: incentiva un uso più intensivo e prolungato, bloccando le aziende in un ciclo di costi ricorrenti per una risorsa che diventa rapidamente indispensabile.

Nel frattempo, competitor come Google offrono strumenti come Gemini Code Assist con migliaia di completamenti giornalieri gratuiti, ma la morsa di OpenAI sul mercato degli IDE, attraverso l’integrazione nativa in VS Code e Cursor, è forte.

Non a caso, l’aggiornamento del modello è graduale e la stabilità è prioritaria rispetto alla novità, per non disturbare un flusso di cima ormai consolidato.

E i dati? GitHub assicura un “accordo di zero conservazione dei dati” con OpenAI, ma per le aziende con esigenze di sovranità digitale, la questione è spinosa. GitHub Enterprise Cloud con residenza dei dati permette di scegliere dove conservare codice e informazioni, ma questa opzione non è universale.

Per gli utenti di Cursor, poi, la situazione è variegata: in passato l’azienda ha avuto risorse di inferenza basate sulla localizzazione per USA, UE e Asia, ma recentemente solo quelle statunitensi erano disponibili. Questo significa che le prestazioni e la disponibilità stessa del modello possono variare geograficamente, creando ulteriori disuguaglianze nell’accesso alla tecnologia.

Cybersecurity: la doppia lama dell’ia agente

Forse l’aspetto più paradossale di GPT-5.3-Codex è la sua promessa nel campo della sicurezza informatica. È il primo modello di OpenAI classificato come ad “Alta capacità” per task di cybersecurity e addestrato specificamente per identificare vulnerabilità software.

Eppure, questa stessa capacità lo rende uno strumento potenzialmente pericolosissimo. Il System Card non esclude che il modello possa “automatizzare operazioni informatiche sofisticate o scoprire e sfruttare vulnerabilità su larga scala”. Per mitigare questo rischio, OpenAI ha implementato un “programma pilota di Accesso Fiduciario per la Cyber” e controlli di accesso aggiuntivi.

Ma è sufficiente?

Un test di red teaming ha trovato 6 jailbreak universali completi e 14 parziali su 21 tentativi. L’Istituto per la Sicurezza AI del Regno Unito ha sviluppato un jailbreak universale con un tasso di successo del 77,8% su contenuti cyber violatori delle policy. In altre parole, le protezioni possono essere aggirate.

In un mondo dove le aziende devono adottare un approccio multi-modello per bilanciare costi e rischi, affidare la sicurezza del proprio codice a un modello che è anche una potenziale minaccia richiede un atto di fede che va ben oltre la tecnologia.

Alla fine, GPT-5.3-Codex non è solo un aggiornamento di prodotto. È il sintomo di una corsa verso un futuro in cui il confine tra sviluppatore umano e agente artificiale si fa sempre più labile. Promette un’impennata di produttività del 25% e la capacità di “lasciarlo lavorare e tornare più tardi”.

Ma in cambio, chiede di consegnare le chiavi del nostro ambiente di lavoro digitale a un’entità opaca, addestrata su milioni di repository di cui ignoriamo la provenienza, capace di operare in autonomia e di migliorare se stessa.

La domanda che resta, mentre il modello inizia a diffondersi negli IDE di mezzo mondo, non è se funzioni.

È se, nel nome dell’efficienza, stiamo costruendo un sistema in cui il codice che scrive il codice diventa anche l’unico giudice della sua qualità, della sua sicurezza e, in definitiva, del suo valore.

E in quel sistema, chi è responsabile quando qualcosa va storto?

Facebook X Network Pinterest Instagram
🍪 Impostazioni Cookie