Perché il costo per token delle API AI sta diminuendo nonostante gli enormi investimenti?

I colossi del cloud investono miliardi in infrastrutture AI, ma i nuovi chip di NVIDIA (come Vera Rubin NVL72) e server come Dell PowerEdge XE9812 permettono un costo per token fino a 10 volte inferiore, rendendo ogni richiesta più economica.

Come aiuta l'Open Agent Leaderboard di Hugging Face a risparmiare?

Il leaderboard valuta non solo la qualità degli agenti AI, ma anche il costo effettivo per task. Mostra che configurazioni efficienti possono ottenere risultati quasi identici a quelle più costose, e che le esecuzioni fallimentari costano dal 20 al 54% in più.

Quali sono le previsioni per la spesa in infrastrutture AI e il consumo di token?

La spesa mondiale per infrastrutture AI potrebbe raggiungere i 3-4 trilioni di dollari entro il 2030, mentre il consumo di token dovrebbe crescere del 3.400% nello stesso periodo, con un costo unitario in forte calo.

Quali rischi permangono con l'uso di modelli AI a basso costo?

La privacy e la sicurezza restano un nodo: più si usano modelli a basso costo, più dati finiscono in mano a terzi, e sarà importante osservare l'evoluzione delle regolamentazioni.

Editorials Pick's 2 months ago

Spendere miliardi ha fatto crollare il prezzo dei token

Q: Cosa rende il nuovo chip NVIDIA Vera Rubin NVL72 più efficiente?

Secondo NVIDIA, la piattaforma Vera Rubin NVL72 offre inferenza AI agentica a un decimo del costo per token rispetto a Blackwell, rappresentando un salto di un ordine di grandezza nell'efficienza.

I chip Nvidia Vera Rubin riducono il costo per token del 90%. Hugging Face premia gli agenti AI efficienti. L'AI diventa più accessibile.

Nvidia promette un costo per token dieci volte inferiore con la nuova architettura Vera Rubin

La settimana scorsa un amico sviluppatore mi ha confessato di aver speso quasi 200 euro al mese in API di modelli AI per un suo progetto personale. “Ogni token mi costa, e più lo uso, più pago”, si lamentava. Pochi giorni dopo, però, gli ho mostrato una novità: i nuovi chip di NVIDIA permettono di fare la stessa identica cosa a un decimo del prezzo. Lui non ci credeva.

Ed è qui che scatta il paradosso: mentre Google punisce chi usa i suoi stessi strumenti, e Alphabet ha appena chiuso un consuntivo da 91,4 miliardi di dollari in infrastrutture AI, il costo per singola richiesta – cioè per “token” – sta precipitando. Come è possibile?

Spendi miliardi, guadagni in efficienza (e il token costa meno)

I colossi del cloud stanno investendo come mai prima d’ora. Microsoft, per esempio, ha registrato una crescita del business AI del 123% anno su anno, arrivando a 37 miliardi di ricavi. Ma la vera rivoluzione non sta nei bilanci: sta nei chip. NVIDIA ha appena presentato Vera Rubin NVL72, una piattaforma che, secondo l’azienda, offre inferenza AI agentica a un decimo del costo per token rispetto a Blackwell. Non è un miglioramento incrementale: è un salto di un ordine di grandezza. Il server Dell PowerEdge XE9812, basato su questa architettura, promette un costo per token fino a 10 volte inferiore per carichi di lavoro su larga scala. Tradotto: quello che oggi ti costa dieci chiamate API, domani te ne farà cento con la stessa spesa.

Il leaderboard che smaschera i veri campioni di efficienza

Ma non basta avere chip più potenti: bisogna anche saperli usare. L’Open Agent Leaderboard di Hugging Face sta cambiando le regole del gioco. Non valuta solo la qualità degli agenti AI, ma anche il costo effettivo per portare a termine un task. Per ogni configurazione, il leaderboard mostra il tasso di successo medio e il costo medio per task. E i risultati sono sorprendenti: la configurazione più efficiente tra le prime cinque costa una frazione del prezzo di quella più forte. In pratica, puoi ottenere risultati quasi identici spendendo molto meno. C’è un’altra lezione importante: le esecuzioni fallimentari costano dal 20 al 54% in più di quelle riuscite. Errore e inefficienza sono nemici del portafoglio, e il leaderboard aiuta a scegliere gli agenti che sbagliano meno.

Consumo alle stelle, ma il prezzo per token scende. E per noi?

Jensen Huang, CEO di NVIDIA, ha dichiarato che la domanda di AI sta andando in modo parabolico, e le previsioni dicono che la spesa mondiale per infrastrutture AI potrebbe raggiungere i 3-4 trilioni di dollari entro il 2030. Parallelamente, il consumo di token dovrebbe crescere del 3.400% entro il 2030. Numeri che sembrano da capogiro, ma il punto è che il costo unitario crolla. Per chi usa l’AI – sviluppatori, aziende, professionisti – questo significa poter fare molto di più con la stessa spesa. Il vero discrimine non sarà più quanti soldi hai investito, ma quanto sei bravo a scegliere l’hardware giusto e a ottimizzare i tuoi agenti. La privacy e la sicurezza, però, restano un nodo: più usiamo modelli a basso costo, più dati finiscono in mano a terzi. Bisognerà tenere d’occhio come si muoveranno i regolatori. Per ora, una cosa è certa: il costo dell’intelligenza artificiale sta scendendo così in fretta che presto sarà più strano non usarla che usarla.

Scritto da Marco Rossi

Giornalista tech con 10 anni di esperienza nel settore. Appassionato di innovazione e early adopter incallito. Ama raccontare come la tecnologia cambia la vita quotidiana delle persone. | Autore AI KronosWire

Startup

Editorials Pick's

Amazon

Apple

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

Spendere miliardi ha fatto crollare il prezzo dei token

Nvidia promette un costo per token dieci volte inferiore con la nuova architettura Vera Rubin

Spendi miliardi, guadagni in efficienza (e il token costa meno)

Il leaderboard che smaschera i veri campioni di efficienza

Consumo alle stelle, ma il prezzo per token scende. E per noi?

Nvidia promette un costo per token dieci volte inferiore con la nuova architettura Vera Rubin

Spendi miliardi, guadagni in efficienza (e il token costa meno)

Il leaderboard che smaschera i veri campioni di efficienza

Consumo alle stelle, ma il prezzo per token scende. E per noi?

Articoli correlati

L’AI è già in sala operatoria e in tribunale

Google ricicla smartphone per fare girare l’AI

OpenAI ha scartato un terzo del suo stesso test