I costi per testare un agente AI sono fuori controllo

I costi per testare un agente AI sono fuori controllo

Google e NVIDIA introducono webhook e agenti persistenti per eliminare il polling e ridurre i costi di inferenza AI.

Il costo di valutazione di un singolo agente AI può superare i 2.800 dollari

Immagina di aver chiesto a un assistente AI di creare un video di 10 minuti sulla storia del jazz. Invece di starti a guardare la rotellina che gira per ore, lui ti dice “ok, ti avviso quando è pronto” e tu continui a fare altro. Sembra scontato? Eppure fino a poche settimane fa la norma era il polling: il tuo codice chiedeva ogni 30 secondi “hai finito? e adesso? e mo?”. Una perdita di tempo, soldi e sanità mentale. La buona notizia è che le cose stanno cambiando, e non solo per i video.

La vera partita per gli agenti AI non si gioca sui modelli – quelli diventano tutti bravi – ma su come li fai funzionare nel mondo reale. Ovvero l’infrastruttura di eventi. Mentre tutti guardano il prossimo LLM, Google e NVIDIA stanno ridisegnando il retrobanco. E i numeri dicono che chi risolve questo problema vincerà la prossima fase. Ma andiamo con ordine.

Il collo di bottiglia che nessuno vedeva

Il primo problema è che far valutare un agente AI costa una follia. Prendiamo il benchmark GAIA: un agente con un modello HAL Generalist e o3 Medium ha speso 2.828 dollari per il 28,5% di accuratezza. Poco dopo un altro agente ha raggiunto il 57,6% spendendo 1.686 dollari. Il punto non è chi vince, ma che i costi di valutazione stanno diventando il vero collo di bottiglia computazionale, come spiega l’analisi su Hugging Face. Se una singola verifica ti costa più di un mutuo, come fai a scalare? La risposta è: non con architetture a chiamata singola, ma con agenti che restano accesi e ascoltano eventi.

Agenti che non dormono mai

NVIDIA lo ha capito bene. All’inizio del 2026 ha presentato OpenClaw, una piattaforma per agenti persistenti. Un “claw” è un agente autonomo a lunga esecuzione – pensalo come un assistente che sta in background con un battito regolare, pronto a reagire. La piattaforma ha già 2 milioni di visitatori in una settimana e a marzo 2026 ha superato 250.000 stelle su GitHub. Roba da record.

La differenza più grossa? Con OpenClaw puoi eseguire un modello AI localmente sul tuo hardware, senza dipendere da API cloud costose e inaffidabili. Ogni agente persistente gira in background con un heartbeat, e l’impatto è pazzesco: secondo NVIDIA, l’inferenza per questi agenti autonomi moltiplica la domanda di GPU di 1.000 volte rispetto al semplice reasoning. Sì, mille. Non è un refuso.

Google: finalmente il webhook per tutti

Anche Google ha mosso una pedina decisiva. Il 4 maggio 2026 ha introdotto webhook event-driven per l’API Gemini. In pratica, invece di chiedere “hai finito?” ogni due secondi, il server ti avvisa quando il compito è completato. I webhook eliminano il polling per operazioni lunghe come Deep Research o video generativi. Funzionano così: quando un task è pronto, inviano un payload HTTP POST in tempo reale al tuo server. E l’implementazione segue lo standard Webhooks con firma e intestazioni: ogni richiesta è accompagnata da webhook-signature, webhook-id e webhook-timestamp per sicurezza. La consegna è garantita “at-least-once”, con tentativi automatici per 24 ore. In più puoi configurare i webhook a livello globale o per singola richiesta, scegliendo tra HMAC e JWKS. E la funzionalità è disponibile per tutti gli sviluppatori Gemini.

Fine dell’attesa.

La morale? I modelli sono il motore, ma l’infrastruttura di eventi è la strada. Chi costruirà agenti che non bloccano il telefono, che reagiscono in tempo reale e che non ti fanno impazzire con polling e costi, vincerà la prossima ondata. E con Google e NVIDIA che spingono nella stessa direzione – seppur con filosofie diverse – il futuro è già iniziato. Ora non resta che vedere quali startup si butteranno dentro. Occhio ai prossimi mesi.

🍪 Impostazioni Cookie