Quali sono i risultati dei modelli su ITBench-AA?

Nessun modello supera il 50% nel benchmark ITBench-AA.

Quale percentuale di pull request è co-creata da agenti in Warp?

Nell'organizzazione engineering di Warp, gli agenti co-creano circa il 90% delle pull request dell'azienda.

Qual è il vero collo di bottiglia secondo il testo?

Il vero collo di bottiglia emerge quando il software gira in produzione, non nella generazione di codice.

Editorials Pick's 2 months ago

Gli agenti AI scrivono il 90% del codice di Warp

Q: Cosa misura ITBench-AA?

ITBench-AA misura la capacità di un agente di diagnosticare incidenti Kubernetes leggendo log, tracciando dipendenze e identificando le entità responsabili, con un sistema di punteggio severo che non premia mezze verità.

Q: Cosa introduce Warp con Open Agentic Development?

Warp introduce Open Agentic Development, dove gli esseri umani definiscono obiettivi e supervisionano risultati, mentre gli agenti pianificano il lavoro, scrivono codice, testano e aprono pull request.

Q: Quale modello AI utilizza Warp come motore?

Il vero motore è GPT-5.5 di OpenAI, che aiuta gli agenti a ragionare su spazi problematici più ampi e a preparare il lavoro per la revisione umana.

Q: Come cambia il ruolo dello sviluppatore con gli agenti?

Il valore di uno sviluppatore si sposta dallo scrivere codice alla capacità di progettare flussi di orchestrazione e validare output, diventando un architetto di agenti e un diagnostico di sistemi.

Itbench-aa mostra che i modelli falliscono nel diagnosticare incidenti Kubernetes. Warp rivela che gli agenti co-creano il 90% delle pull request.

I modelli falliscono nel diagnosticare incidenti Kubernetes, dove un solo errore azzera il punteggio

Quando un modello deve identificare le cause radice di un incidente Kubernetes e sbaglia anche un solo nodo, il punteggio è zero. Il sistema di punteggio severo di ITBench-AA non premia mezze verità: se manca una dipendenza nel grafo dei servizi, la risposta è nulla. Questo non è un banale test di chatbot, ma il primo benchmark per attività IT enterprise che misura la capacità di un agente di navigare un sistema vivo. I risultati? Nessun modello supera il 50%. La lezione è chiara: il codice lo scrivono bene, ma diagnosticare un cluster reale è un altro mestiere.

Il codice non si scrive più, si orchestra

Warp ha introdotto un modello che chiama Open Agentic Development: gli esseri umani definiscono obiettivi e supervisionano risultati, mentre gli agenti pianificano il lavoro, scrivono codice, testano e aprono pull request. Il risultato è che, nell’organizzazione engineering di Warp, gli agenti ora co-creano circa il 90% delle pull request dell’azienda. La piattaforma conta quasi 1 milione di sviluppatori ed è utilizzata da più del 56% delle aziende Fortune 500, ma il vero motore è GPT-5.5 di OpenAI, che aiuta gli agenti a ragionare su spazi problematici più ampi e a preparare il lavoro per la revisione umana. Non si tratta più di scrivere funzioni: si orchestrano agenti che le scrivono.

“Nel nostro engineering, gli agenti co-creano circa il 90% delle pull request”, spiega Warp. “Il programmatore diventa supervisore.”

Diagnosticare, non generare

La generazione di codice è solo metà del problema. Il vero collo di bottiglia emerge quando il software gira in produzione. ITBench-AA misura proprio questo: i modelli devono diagnosticare incidenti Kubernetes leggendo log, tracciando dipendenze e identificando le entità responsabili. La metrica è spietata: se il modello identifica tutte le cause radice, la metrica di precisione premia solo quando ogni falso positivo è azzerato. I punteggi bassi non sorprendono: un agente che genera codice con sicurezza non ha necessariamente la capacità di fare debugging in un sistema distribuito.

Implicazione per chi costruisce

Se il 90% delle pull request nasce da agenti, il valore di uno sviluppatore si sposta dallo scrivere codice alla capacità di progettare flussi di orchestrazione e validare output. Anche l’hardware segue: NVIDIA Vera CPU ha compilato un kernel Linux standard in 20 secondi su un singolo socket, offrendo prestazioni 2x più veloci per core rispetto a un processore a 128 core. Quando il codice lo scrivono gli agenti, la velocità di compilazione e la capacità di eseguire cicli di feedback rapidi diventano il vero vantaggio competitivo.

Il programmatore non è più un produttore di righe: è un architetto di agenti e un diagnostico di sistemi. Lo stack cambia, e chi costruisce deve cambiare con lui.

Scritto da Luca Verdi

Developer e tech writer. Spiega la tecnologia dal punto di vista tecnico senza perdere di vista l'accessibilità. Ex software engineer, ora si dedica al giornalismo tech. | Autore AI KronosWire

Startup

Editorials Pick's

Amazon

Apple

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

Gli agenti AI scrivono il 90% del codice di Warp

I modelli falliscono nel diagnosticare incidenti Kubernetes, dove un solo errore azzera il punteggio

Il codice non si scrive più, si orchestra

Diagnosticare, non generare

Implicazione per chi costruisce

I modelli falliscono nel diagnosticare incidenti Kubernetes, dove un solo errore azzera il punteggio

Il codice non si scrive più, si orchestra

Diagnosticare, non generare

Implicazione per chi costruisce

Articoli correlati

Dalla Fantasia al Fatturato: L’IA per Mondi Virtuali Diventa il Nuovo Motore del Marketing

Un modello di AI si specializza con una sola GPU

Google inserisce un watermark in ogni traccia audio generata