Un modello AI ha superato il livello di sicurezza più alto
OpenAI ha rilasciato GPT-5.3-Codex, il primo modello classificato High capability per compiti di cybersecurity. Il sistema identifica vulnerabilità e ragiona sugli exploit, rivoluzionando lo sviluppo software sicuro.
Il modello è stato valutato capace di compiti offensivi sofisticati, come trovare vulnerabilità e ragionare su exploit.
A febbraio 2026, mentre la cybersecurity diventava il nuovo campo di prova per i modelli linguistici, OpenAI ha rilasciato qualcosa di diverso dai soliti aggiornamenti incrementali. Stando a l’annuncio ufficiale di OpenAI, GPT-5.3-Codex è descritto come “the most capable agentic coding model to date” — ma il dettaglio che conta davvero è un altro: è il primo modello dell’azienda classificato come High capability per compiti di cybersecurity secondo il proprio Preparedness Framework, e il primo addestrato direttamente a identificare vulnerabilità nel software. Non è solo un assistant che completa funzioni: è un sistema che ragiona sulla superficie di attacco del codice che scrive.
GPT-5.3-Codex: la svolta cybersecurity negli assistenti AI
Per capire il peso della classificazione High capability, bisogna guardare al Preparedness Framework di OpenAI: è il sistema interno con cui l’azienda valuta i rischi dei propri modelli su assi come CBRN (chimico, biologico, radiologico, nucleare), persuasione di massa e, appunto, cybersecurity. Fino a GPT-5.3-Codex, nessun modello aveva raggiunto questo livello nella categoria cyber. Il salto non è solo di marketing: significa che il modello è stato valutato come capace di svolgere compiti offensivi sofisticati — trovare vulnerabilità, ragionare su exploit — con implicazioni dirette su come deve essere distribuito e a chi.
È qui che entra il programma Trusted Access for Cyber, un pilot lanciato in parallelo per accelerare la ricerca sulla difesa informatica, riservato a ricercatori e organizzazioni selezionate. OpenAI ha inoltre impegnato 10 milioni di dollari in crediti API destinati alla cyber defense, con focus particolare su software open source e infrastrutture critiche — una continuazione del Cybersecurity Grant Program da 1 milione di dollari avviato già nel 2023. La logica è quella dell’asimmetria difensiva: se il modello può trovare vulnerabilità, chi lo usa per difendere ha un vantaggio strutturale rispetto a chi lo usa per attaccare, a patto che l’accesso sia controllato. In termini di architettura di sicurezza, è un approccio più sofisticato del semplice rate limiting.
Va detto che GPT-5.3-Codex arriva dopo una progressione rapida: GPT-5.1-Codex-Max era stato rilasciato a novembre 2025, GPT-5.2-Codex a dicembre 2025. La versione .3 non è quindi un salto generazionale isolato, ma l’ultimo passo di una catena di iterazioni accelerate che OpenAI ha mantenuto a cadenza quasi mensile negli ultimi mesi.
Produttività sotto la lente: l’impatto sugli sviluppatori
I numeri sull’adozione raccontano qualcosa di interessante. Secondo Fortune, Codex conta oggi più di 1,6 milioni di utenti attivi settimanali, una cifra più che triplicata con il rilascio del nuovo modello — e oltre un milione di persone hanno scaricato l’app desktop da quando è disponibile. Sono metriche che segnalano un’adozione che va oltre gli early adopter e inizia a toccare i team di sviluppo ordinari. Il confronto con i dati precedenti al lancio rende l’accelerazione evidente: non è crescita lineare, è un salto a gradino.
Sul fronte della ricerca, la misurazione della produttività degli sviluppatori è diventata un campo attivo sia in accademia che nell’industria. Il punto critico che emerge dagli studi è che le metriche tradizionali — righe di codice, velocity, story point — mal si adattano a un contesto in cui un agente genera, refactorizza e testa autonomamente. Capire se uno sviluppatore con GPT-5.3-Codex è davvero più produttivo richiede nuovi framework di misura, non solo i vecchi KPI riciclati.
Claude Code e Cursor Composer 2: il confronto che conta
Aprile 2026 vede il campo dei coding assistant più affollato che mai. Sul fronte Anthropic, Claude Code si posiziona come sistema agentico capace di leggere l’intera codebase, modificare file in modo coordinato, eseguire test e consegnare codice già committato — un workflow end-to-end che compete direttamente con le ambizioni agentiche di Codex. Dall’altro lato, secondo un’analisi comparativa degli assistenti AI di aprile 2026, Cursor Composer 2 ha stabilito nuovi benchmark per l’AI nativa nell’IDE: 61.3 su CursorBench (un miglioramento del 37% rispetto a Composer 1.5) e 73.7 su SWE-bench Multilingual — il benchmark che misura la capacità di risolvere issue reali su repository open source in più linguaggi. Il tutto a 0,50 dollari per milione di token in input, un prezzo che cambia il calcolo economico per chi valuta il costo per task completato.
La giustapposizione è interessante: OpenAI punta sulla certificazione istituzionale (il Preparedness Framework, i programmi trusted) e sull’integrazione con l’infrastruttura enterprise; Cursor compete sul rapporto performance/costo nell’IDE, dove la maggior parte degli sviluppatori trascorre il proprio tempo. Sono strategie di go-to-market diverse che riflettono visioni diverse di dove si vince la battaglia: nel procurement delle grandi aziende o nella scelta quotidiana del singolo developer.
Quel che resta chiaro è che lo stack di sviluppo sta subendo una trasformazione strutturale. Con modelli agentici che ragionano su vulnerabilità, gestiscono refactoring multi-file e si integrano nel ciclo CI/CD, la domanda non è più “questo strumento mi aiuta a scrivere codice più veloce?” ma “come cambio il modo in cui penso alla sicurezza e alla qualità fin dalla prima riga?” Chi costruisce prodotti software nel 2026 deve rispondere a questa domanda — e la risposta determinerà quali strumenti sopravviveranno alla prossima iterazione.