Costruire un agente AI è diventato più facile che validarlo
Codex accelera la prototipazione ma la validazione su larga scala richiede budget token esponenziali, spostando il collo di bottiglia a valle.
I test su scala reale richiedono budget di token che crescono esponenzialmente
Il prezzo della velocità
Un ingegnere di Braintrust lancia una richiesta del cliente in un prompt, e in pochi minuti Codex genera un ramo di anteprima funzionante. La promessa è concreta: Ankur Goyal racconta che Braintrust trasforma richieste in codice con Codex e che il più grande guadagno è la velocità. Ma mentre la prototipazione corre, la validazione di ciò che quell’agente AI farà realmente – su scala, con milioni di interazioni – richiede qualcosa che non si ottiene con un colpo di tastiera: budget di token che crescono in modo esponenziale. Il paradosso è strutturale: più velocemente costruisci, più costoso diventa verificare che il sistema non collassi sotto il peso delle sue stesse scelte.
Validazione a gettone
I numeri parlano chiaro. Nelle valutazioni condotte da un playbook condiviso per valutazioni affidabili, il UK AISI ha osservato che l’aumento del budget da 10M a 100M token ha migliorato le prestazioni di un agente in un cyber range fino al 59%. Non è un effetto marginale: è la dimostrazione che il comportamento di un agente non è saturato a budget ridotto. Lo stesso playbook sottolinea che, quando le prestazioni continuano a migliorare con budget extra, il punteggio va descritto come prestazione sotto quell’harness e quel budget, non come tetto assoluto di capacità. In pratica, ogni valutazione è una fotografia dipendente dal contesto – e il contesto costa token.
Anche il raffreddamento della memoria a lungo termine conta: GPT-5.5 ha mostrato prestazioni migliori sui cyber range quando l’harness usava compattazione per preservare il contesto rilevante man mano che l’interazione si allungava. Non è un dettaglio da laboratorio: è la prova che la fedeltà della valutazione dipende da come gestisci lo spazio di attenzione.
Il bilancio di chi costruisce
Se da un lato la velocità di iterazione è sbloccata – Ankur Goyal spiega che provare richieste in tempo reale con Codex è ormai routine e che iterare su richieste in tempo reale permette di ideare assieme al cliente – dall’altro la messa in produzione su scala reale esige risorse che molti sottovalutano. Verizon Connect ha scalato AI agentica a 100.000 utenti al giorno, un traguardo che richiede infrastruttura massiccia. E l’infrastruttura non è banale: i partner NVIDIA AI Cloud stanno espandendo la capacità proprio per reggere la domanda, e scelgono NVIDIA per l’ottimizzazione del costo per token e throughput per watt. Michael Intrator, CEO di CoreWeave, sintetizza il punto:
le AI factories sono diventate fondamenta per l’era agentica.
La lezione è chiara per chi costruisce: se la velocità di sviluppo è il prodotto finito di strumenti come Codex, il collo di bottiglia si sposta a valle, dove ogni iterazione di validazione consuma budget di token che, senza un harness ottimizzato e una gestione intelligente del contesto, rischia di vanificare il vantaggio iniziale. Costruire un agente significa anche progettare il suo banco di prova – e lì il vero trade-off non è tra velocità e qualità, ma tra prototipazione rapida e rigore della validazione.