Come influisce il budget di token sulle prestazioni di un agente AI?

Secondo le valutazioni del UK AISI, aumentare il budget da 10M a 100M token ha migliorato le prestazioni di un agente in un cyber range fino al 59%. Il comportamento dell'agente non è saturato a budget ridotto, e ogni valutazione è una fotografia dipendente dal contesto che costa token.

Quali sono le sfide infrastrutturali per l'AI agentica su scala?

Verizon Connect ha scalato AI agentica a 100.000 utenti al giorno, richiedendo infrastruttura massiccia. I partner NVIDIA AI Cloud espandono la capacità per reggere la domanda, scegliendo NVIDIA per l'ottimizzazione del costo per token e throughput per watt. Le AI factories sono diventate fondamenta per l'era agentica.

Qual è il vero trade-off nello sviluppo di agenti AI?

Il vero trade-off non è tra velocità e qualità, ma tra prototipazione rapida e rigore della validazione. Costruire un agente significa anche progettare il suo banco di prova, e ogni iterazione di validazione consuma budget di token che, senza un harness ottimizzato, rischia di vanificare il vantaggio iniziale di velocità.

Editorials Pick's 2 months ago

Costruire un agente AI è diventato più facile che validarlo

Q: Qual è il paradosso della velocità di sviluppo con Codex?

Il paradosso è strutturale: più velocemente si costruisce con Codex, più costoso diventa verificare che il sistema non collassi sotto il peso delle sue stesse scelte. La validazione su scala, con milioni di interazioni, richiede budget di token che crescono in modo esponenziale.

Codex accelera la prototipazione ma la validazione su larga scala richiede budget token esponenziali, spostando il collo di bottiglia a valle.

I test su scala reale richiedono budget di token che crescono esponenzialmente

Il prezzo della velocità

Un ingegnere di Braintrust lancia una richiesta del cliente in un prompt, e in pochi minuti Codex genera un ramo di anteprima funzionante. La promessa è concreta: Ankur Goyal racconta che Braintrust trasforma richieste in codice con Codex e che il più grande guadagno è la velocità. Ma mentre la prototipazione corre, la validazione di ciò che quell’agente AI farà realmente – su scala, con milioni di interazioni – richiede qualcosa che non si ottiene con un colpo di tastiera: budget di token che crescono in modo esponenziale. Il paradosso è strutturale: più velocemente costruisci, più costoso diventa verificare che il sistema non collassi sotto il peso delle sue stesse scelte.

Validazione a gettone

I numeri parlano chiaro. Nelle valutazioni condotte da un playbook condiviso per valutazioni affidabili, il UK AISI ha osservato che l’aumento del budget da 10M a 100M token ha migliorato le prestazioni di un agente in un cyber range fino al 59%. Non è un effetto marginale: è la dimostrazione che il comportamento di un agente non è saturato a budget ridotto. Lo stesso playbook sottolinea che, quando le prestazioni continuano a migliorare con budget extra, il punteggio va descritto come prestazione sotto quell’harness e quel budget, non come tetto assoluto di capacità. In pratica, ogni valutazione è una fotografia dipendente dal contesto – e il contesto costa token.

Anche il raffreddamento della memoria a lungo termine conta: GPT-5.5 ha mostrato prestazioni migliori sui cyber range quando l’harness usava compattazione per preservare il contesto rilevante man mano che l’interazione si allungava. Non è un dettaglio da laboratorio: è la prova che la fedeltà della valutazione dipende da come gestisci lo spazio di attenzione.

Il bilancio di chi costruisce

Se da un lato la velocità di iterazione è sbloccata – Ankur Goyal spiega che provare richieste in tempo reale con Codex è ormai routine e che iterare su richieste in tempo reale permette di ideare assieme al cliente – dall’altro la messa in produzione su scala reale esige risorse che molti sottovalutano. Verizon Connect ha scalato AI agentica a 100.000 utenti al giorno, un traguardo che richiede infrastruttura massiccia. E l’infrastruttura non è banale: i partner NVIDIA AI Cloud stanno espandendo la capacità proprio per reggere la domanda, e scelgono NVIDIA per l’ottimizzazione del costo per token e throughput per watt. Michael Intrator, CEO di CoreWeave, sintetizza il punto:

le AI factories sono diventate fondamenta per l’era agentica.

La lezione è chiara per chi costruisce: se la velocità di sviluppo è il prodotto finito di strumenti come Codex, il collo di bottiglia si sposta a valle, dove ogni iterazione di validazione consuma budget di token che, senza un harness ottimizzato e una gestione intelligente del contesto, rischia di vanificare il vantaggio iniziale. Costruire un agente significa anche progettare il suo banco di prova – e lì il vero trade-off non è tra velocità e qualità, ma tra prototipazione rapida e rigore della validazione.

Scritto da Luca Verdi

Developer e tech writer. Spiega la tecnologia dal punto di vista tecnico senza perdere di vista l'accessibilità. Ex software engineer, ora si dedica al giornalismo tech. | Autore AI KronosWire

Startup

Editorials Pick's

Amazon

Apple

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

Costruire un agente AI è diventato più facile che validarlo