Spendere miliardi ha fatto crollare il prezzo dei token
I chip Nvidia Vera Rubin riducono il costo per token del 90%. Hugging Face premia gli agenti AI efficienti. L'AI diventa più accessibile.
Nvidia promette un costo per token dieci volte inferiore con la nuova architettura Vera Rubin
La settimana scorsa un amico sviluppatore mi ha confessato di aver speso quasi 200 euro al mese in API di modelli AI per un suo progetto personale. “Ogni token mi costa, e più lo uso, più pago”, si lamentava. Pochi giorni dopo, però, gli ho mostrato una novità: i nuovi chip di NVIDIA permettono di fare la stessa identica cosa a un decimo del prezzo. Lui non ci credeva.
Ed è qui che scatta il paradosso: mentre Google punisce chi usa i suoi stessi strumenti, e Alphabet ha appena chiuso un consuntivo da 91,4 miliardi di dollari in infrastrutture AI, il costo per singola richiesta – cioè per “token” – sta precipitando. Come è possibile?
Spendi miliardi, guadagni in efficienza (e il token costa meno)
I colossi del cloud stanno investendo come mai prima d’ora. Microsoft, per esempio, ha registrato una crescita del business AI del 123% anno su anno, arrivando a 37 miliardi di ricavi. Ma la vera rivoluzione non sta nei bilanci: sta nei chip. NVIDIA ha appena presentato Vera Rubin NVL72, una piattaforma che, secondo l’azienda, offre inferenza AI agentica a un decimo del costo per token rispetto a Blackwell. Non è un miglioramento incrementale: è un salto di un ordine di grandezza. Il server Dell PowerEdge XE9812, basato su questa architettura, promette un costo per token fino a 10 volte inferiore per carichi di lavoro su larga scala. Tradotto: quello che oggi ti costa dieci chiamate API, domani te ne farà cento con la stessa spesa.
Il leaderboard che smaschera i veri campioni di efficienza
Ma non basta avere chip più potenti: bisogna anche saperli usare. L’Open Agent Leaderboard di Hugging Face sta cambiando le regole del gioco. Non valuta solo la qualità degli agenti AI, ma anche il costo effettivo per portare a termine un task. Per ogni configurazione, il leaderboard mostra il tasso di successo medio e il costo medio per task. E i risultati sono sorprendenti: la configurazione più efficiente tra le prime cinque costa una frazione del prezzo di quella più forte. In pratica, puoi ottenere risultati quasi identici spendendo molto meno. C’è un’altra lezione importante: le esecuzioni fallimentari costano dal 20 al 54% in più di quelle riuscite. Errore e inefficienza sono nemici del portafoglio, e il leaderboard aiuta a scegliere gli agenti che sbagliano meno.
Consumo alle stelle, ma il prezzo per token scende. E per noi?
Jensen Huang, CEO di NVIDIA, ha dichiarato che la domanda di AI sta andando in modo parabolico, e le previsioni dicono che la spesa mondiale per infrastrutture AI potrebbe raggiungere i 3-4 trilioni di dollari entro il 2030. Parallelamente, il consumo di token dovrebbe crescere del 3.400% entro il 2030. Numeri che sembrano da capogiro, ma il punto è che il costo unitario crolla. Per chi usa l’AI – sviluppatori, aziende, professionisti – questo significa poter fare molto di più con la stessa spesa. Il vero discrimine non sarà più quanti soldi hai investito, ma quanto sei bravo a scegliere l’hardware giusto e a ottimizzare i tuoi agenti. La privacy e la sicurezza, però, restano un nodo: più usiamo modelli a basso costo, più dati finiscono in mano a terzi. Bisognerà tenere d’occhio come si muoveranno i regolatori. Per ora, una cosa è certa: il costo dell’intelligenza artificiale sta scendendo così in fretta che presto sarà più strano non usarla che usarla.