Gli agenti AI scrivono il 90% del codice di Warp
Itbench-aa mostra che i modelli falliscono nel diagnosticare incidenti Kubernetes. Warp rivela che gli agenti co-creano il 90% delle pull request.
I modelli falliscono nel diagnosticare incidenti Kubernetes, dove un solo errore azzera il punteggio
Quando un modello deve identificare le cause radice di un incidente Kubernetes e sbaglia anche un solo nodo, il punteggio è zero. Il sistema di punteggio severo di ITBench-AA non premia mezze verità: se manca una dipendenza nel grafo dei servizi, la risposta è nulla. Questo non è un banale test di chatbot, ma il primo benchmark per attività IT enterprise che misura la capacità di un agente di navigare un sistema vivo. I risultati? Nessun modello supera il 50%. La lezione è chiara: il codice lo scrivono bene, ma diagnosticare un cluster reale è un altro mestiere.Il codice non si scrive più, si orchestra
Warp ha introdotto un modello che chiama Open Agentic Development: gli esseri umani definiscono obiettivi e supervisionano risultati, mentre gli agenti pianificano il lavoro, scrivono codice, testano e aprono pull request. Il risultato è che, nell’organizzazione engineering di Warp, gli agenti ora co-creano circa il 90% delle pull request dell’azienda. La piattaforma conta quasi 1 milione di sviluppatori ed è utilizzata da più del 56% delle aziende Fortune 500, ma il vero motore è GPT-5.5 di OpenAI, che aiuta gli agenti a ragionare su spazi problematici più ampi e a preparare il lavoro per la revisione umana. Non si tratta più di scrivere funzioni: si orchestrano agenti che le scrivono.
“Nel nostro engineering, gli agenti co-creano circa il 90% delle pull request”, spiega Warp. “Il programmatore diventa supervisore.”
Diagnosticare, non generare
La generazione di codice è solo metà del problema. Il vero collo di bottiglia emerge quando il software gira in produzione. ITBench-AA misura proprio questo: i modelli devono diagnosticare incidenti Kubernetes leggendo log, tracciando dipendenze e identificando le entità responsabili. La metrica è spietata: se il modello identifica tutte le cause radice, la metrica di precisione premia solo quando ogni falso positivo è azzerato. I punteggi bassi non sorprendono: un agente che genera codice con sicurezza non ha necessariamente la capacità di fare debugging in un sistema distribuito.
Implicazione per chi costruisce
Se il 90% delle pull request nasce da agenti, il valore di uno sviluppatore si sposta dallo scrivere codice alla capacità di progettare flussi di orchestrazione e validare output. Anche l’hardware segue: NVIDIA Vera CPU ha compilato un kernel Linux standard in 20 secondi su un singolo socket, offrendo prestazioni 2x più veloci per core rispetto a un processore a 128 core. Quando il codice lo scrivono gli agenti, la velocità di compilazione e la capacità di eseguire cicli di feedback rapidi diventano il vero vantaggio competitivo.
Il programmatore non è più un produttore di righe: è un architetto di agenti e un diagnostico di sistemi. Lo stack cambia, e chi costruisce deve cambiare con lui.