Nvidia, Allen AI e AWS misurano gli agenti AI in modo diverso

Nvidia, Allen AI e AWS misurano gli agenti AI in modo diverso

NVIDIA, Allen AI e AWS lanciano benchmark per agenti AI, ma metodologie diverse rendono i confronti difficili e rischiano di confondere.

Tre benchmark diversi misurano aspetti differenti delle prestazioni degli agenti AI

Immaginate di essere uno sviluppatore, di aver passato ore a configurare un agente AI per automatizzare le revisioni del codice e di voler confrontare le sue prestazioni con quelle di un collega che usa un altro tool. Aprite un benchmark, poi un altro, e scoprite che i risultati non coincidono. Su uno il vostro agente è il più veloce, su un altro è il più lento. Cosa è successo? Niente di strano: state guardando due test diversi, progettati per misurare cose diverse. Questo è lo stato dell’arte della valutazione degli agenti AI a metà 2026: una Babele di benchmark, dove ogni colosso tecnologico corre con il suo metro.

Il punto è che un agente AI non è un semplice chatbot che risponde a una domanda. I sistemi agentici incatenano più chiamate a un modello linguistico e chiamate a tool esterni, generando il benchmark AgentPerf, come spiega NVIDIA nel suo lancio. I benchmark tradizionali, invece, misurano una singola risposta: sono progettati per un mondo diverso. Serviva qualcosa di nuovo, e ognuno ha provato a costruirlo da sé.

Perché tutti vogliono misurare gli agenti (e nessuno è d’accordo su come farlo)

Partiamo da NVIDIA. A fine maggio, insieme ad Artificial Analysis, ha presentato AgentPerf, che si autodefinisce il primo benchmark per l’infrastruttura agentica. Il test usa il benchmark AgentPerf con DeepSeek V4 Pro, un modello mixture-of-experts, e simula traiettorie reali di coding agent tratte da repository pubblici in oltre 12 linguaggi di programmazione. L’obiettivo? Misurare quante richieste al secondo un sistema (hardware + software) riesce a gestire in un flusso agentico. È un test da infrastruttura, non da qualità della risposta.

Pochi giorni dopo, il 12 giugno, è arrivato Allen AI con olmo-eval workbench, un ambiente di valutazione pensato per il ciclo di sviluppo dei modelli. L’approccio è diverso: non si concentra solo sulla velocità, ma integra la valutazione agentica e multi-turn in olmo-eval di Allen AI come caso d’uso di prima classe. In pratica, permette ai ricercatori di testare come un modello si comporta in conversazioni multiple e interazioni con tool, e di confrontare i risultati in modo riproducibile. Un workbench da laboratorio, più che da datacenter.

Allen AI e AWS: due filosofie per lo stesso problema

Se Allen AI punta sulla ricerca, AWS ha scelto la via pratica. Con Agent-EvalKit, un toolkit open source con licenza Apache 2.0, Amazon si rivolge direttamente agli sviluppatori di coding assistant. Il tool si integra con Claude Code, Kiro CLI e Kilo Code, e permette di valutare sistematicamente gli agenti su task reali. La differenza? Mentre Allen AI vuole capire come un modello ragiona in contesti agentici, AWS vuole sapere se il tuo agente funziona bene nel flusso di lavoro che hai configurato. Due domande legittime, ma che producono numeri difficili da mettere sullo stesso piano. Come ha scritto Amazon nel suo blog, l’idea è dare ai team uno strumento per iterare più velocemente, non per fare classifiche globali.

Il rischio? Confronti che sembrano mele con arance

Fin qui, tutto interessante. Il problema arriva quando un’azienda dice “il nostro agente batte la concorrenza” senza specificare su quale benchmark. Con tre metodologie diverse — una che guarda l’infrastruttura, una che guarda il modello, una che guarda il tool integrato — è quasi impossibile capire chi sta facendo meglio e perché. Il pericolo è che i confronti diventino artefatti di marketing, più che misure oggettive di efficacia. E per lo sviluppatore medio, che deve scegliere un agente per automatizzare parti del proprio lavoro, questa opacità è frustrante.

La buona notizia è che la comunità ha capito il problema. NVIDIA ha reso disponibile il benchmark AgentPerf su Artificial Analysis; Allen AI ha pubblicato olmo-eval workbench su Hugging Face; AWS ha aperto i codici di Agent-EvalKit toolkit. Sono tutti aperti, modificabili, trasparenti. Il passo successivo è che qualcuno — forse un ente terzo, forse una coalizione di aziende — provi a mettere ordine. Magari partendo da ciò che questi benchmark hanno in comune: la convinzione che gli agenti vadano valutati in modo diverso dai chatbot. Se ci riusciranno, potremo finalmente confrontare mele con mele.

Fino ad allora, meglio leggere le clausole in piccolo prima di esultare per un punteggio. E tenere d’occhio chi, tra i big, sarà il primo a proporre un punto d’incontro.

🍪 Impostazioni Cookie