Dell e NVIDIA hanno tagliato il costo degli agenti AI

Dell e NVIDIA hanno tagliato il costo degli agenti AI

Dell e NVIDIA lanciano sistemi che tagliano i costi per token del 90%, mentre OpenAI Codex porta l'AI on-premise nelle aziende.

La combinazione di hardware efficiente e agenti generalisti abbatte le barriere per l’AI on-premise

Immagina di lavorare in un’azienda che gestisce dati sanitari o finanziari. Vuoi usare agenti AI per automatizzare processi complessi — analizzare referti, incrociare transazioni, rispondere a richieste di conformità — ma non puoi mandare nulla sul cloud. I dati devono restare dentro i tuoi server, on-premise.

Fino a ieri, significava scegliere tra costi astronomici di infrastruttura o rinunciare all’intelligenza artificiale più avanzata. O forse provare un modello open source, ma con risultati deludenti. Il problema non era l’algoritmo, ma il sistema che lo sostiene: gli agenti AI hanno bisogno di orchestrazione, tool integration e un’infrastruttura capace di eseguirli senza far saltare il budget.

Ora succede qualcosa di concreto. Dell e NVIDIA hanno annunciato una nuova generazione di sistemi enterprise — basati su CPU Vera e GPU Rubin — che taglia il costo per token del 90% rispetto al precedente hardware Blackwell. Parallelamente, la classifica agenti AI pubblicata da IBM Research dimostra che i sistemi agentici generalisti possono essere sia efficaci che economici, abbattendo uno dei miti più radicati del settore. La combinazione è una boccata d’aria fresca per chi lavora in enterprise.

Agenti generalisti, non specialisti da museo

Il Open Agent Leaderboard classifica i sistemi agentici non solo per accuratezza, ma anche per costo per esecuzione. E qui arriva la sorpresa: le configurazioni top della classifica usano tutte lo stesso modello di base, ma ottengono punteggi e costi diversi semplicemente cambiando l’architettura dell’agente. La configurazione più efficiente tra le prime cinque costa una frazione di quella più performante. In altre parole, non serve il modello più grosso: serve il sistema giusto. Anzi, gli agenti generalisti hanno eguagliato o superato i migliori sistemi specializzati in quasi tutti i benchmark. E il segreto? Lo shortlisting degli strumenti — una tecnica di selezione automatica dei tool più pertinenti — ha migliorato le performance su ogni modello testato, trasformando configurazioni altrimenti inutilizzabili in soluzioni valide.

Per un’azienda, questo significa che puoi costruire un agente AI capace di interagire con decine di sistemi legacy (ERP, CRM, database interni) senza dover addestrare un modello specializzato per ogni singolo task. Basta un buon orchestratore e un’infrastruttura che non ti faccia fallire sul costo.

La nuova piattaforma Dell-NVIDIA: Vera Rubin taglia i costi del 90%

Qui entra in gioco la dichiarazione di Jensen Huang sulla domanda parabolica di AI enterprise. Il nuovo sistema Dell PowerEdge XE9812 basato su NVIDIA Vera Rubin NVL72 offre un costo per token fino a 10 volte inferiore rispetto a Blackwell per inferenza AI agentica su larga scala. La CPU Vera ha una larghezza di banda di 1,2 TB/s e completa carichi di lavoro agentici il 50% più velocemente dei processori x86. I sandbox più veloci su Vera — ambienti isolati dove gli agenti eseguono codice — funzionano il 50% più rapidamente rispetto alle CPU tradizionali. In pratica, una stessa pipeline agentica che oggi costa 10 centesimi per token su Blackwell, domani costa 1 centesimo su Rubin.

E non è solo questione di risparmio. I dati parlano chiaro: il 67% dei carichi AI ora viene eseguito fuori dal cloud (on-premise, edge, dispositivo o colocation) e l’88% delle aziende intervistate esegue almeno un carico AI on-premise. La domanda di infrastruttura locale è già altissima, e ora c’è finalmente una proposta economica che la rende sensata.

Il matrimonio con OpenAI: Codex arriva in azienda, dentro ai vostri dati

L’ultimo tassello è la partnership Dell-OpenAI per portare Codex in ambienti ibridi e on-premises. Codex non è solo un modello: è un sistema agentico completo per sviluppare e gestire workflow AI. Ihab Tarazi, SVP e CTO di Dell, ha dichiarato che la Dell AI Factory con OpenAI Codex permetterà alle aziende di distribuire AI dove i dati enterprise già risiedono, dentro le loro sedi, offrendo un percorso pratico e sicuro per scalare gli agenti AI. Non si tratta più di mandare dati sensibili nel cloud: tutto resta in casa, con i benefici della potenza di calcolo locale.

Naturalmente, bisogna essere critici. Portare l’AI on-premise solleva questioni di sicurezza fisica e gestione IT: chi dovrà aggiornare il sistema, monitorare le GPU, garantire la conformità? Ma per aziende con reparti IT strutturati, il vantaggio competitivo è enorme. Non solo privacy e latenza ridotta, ma costi prevedibili e controllo totale sui dati.

Quello che sta nascendo è un ecosistema (anzi, non lo dico) — un insieme di tecnologie che si allineano: leaderboard che premia l’efficienza, hardware che la rende conveniente e software enterprise che la porta dentro i muri dell’azienda. Tenete d’occhio i prossimi mesi: se il costo per token continua a scendere e i sistemi agentici generalisti continuano a migliorare, il sogno di un AI internale, sicura e potente diventa realtà. E forse, la prossima volta che il vostro reparto IT chiederà l’approvazione per una GPU on-premise, non riderete più.

🍪 Impostazioni Cookie