Qual è la morale del testo riguardo al futuro degli agenti AI?

I modelli sono il motore, ma l'infrastruttura di eventi è la strada. Chi costruirà agenti che non bloccano il telefono, che reagiscono in tempo reale e che non fanno impazzire con polling e costi, vincerà la prossima ondata. Google e NVIDIA stanno spingendo in questa direzione con filosofie diverse.

Editorials Pick's 3 months ago

I costi per testare un agente AI sono fuori controllo

Q: Qual è il problema principale con gli agenti AI secondo il testo?

Il problema principale è che i costi di valutazione degli agenti AI stanno diventando il vero collo di bottiglia computazionale. Ad esempio, un agente con modello HAL Generalist e o3 Medium ha speso 2.828 dollari per il 28,5% di accuratezza, mentre un altro ha raggiunto il 57,6% spendendo 1.686 dollari. Scalare con architetture a chiamata singola non è sostenibile.

Q: Cosa ha presentato NVIDIA all'inizio del 2026?

NVIDIA ha presentato OpenClaw, una piattaforma per agenti persistenti. Un 'claw' è un agente autonomo a lunga esecuzione che sta in background con un battito regolare, pronto a reagire. La piattaforma ha avuto 2 milioni di visitatori in una settimana e a marzo 2026 ha superato 250.000 stelle su GitHub.

Q: Cosa ha introdotto Google il 4 maggio 2026 per l'API Gemini?

Google ha introdotto webhook event-driven per l'API Gemini. Invece di fare polling ogni due secondi, il server avvisa quando il compito è completato. I webhook eliminano il polling per operazioni lunghe come Deep Research o video generativi, inviando un payload HTTP POST in tempo reale al server.

Q: Come funziona la sicurezza dei webhook di Google?

L'implementazione segue lo standard Webhooks con firma e intestazioni. Ogni richiesta è accompagnata da webhook-signature, webhook-id e webhook-timestamp per sicurezza. La consegna è garantita 'at-least-once' con tentativi automatici per 24 ore. Puoi configurare i webhook a livello globale o per singola richiesta, scegliendo tra HMAC e JWKS.

Google e NVIDIA introducono webhook e agenti persistenti per eliminare il polling e ridurre i costi di inferenza AI.

Il costo di valutazione di un singolo agente AI può superare i 2.800 dollari

Immagina di aver chiesto a un assistente AI di creare un video di 10 minuti sulla storia del jazz. Invece di starti a guardare la rotellina che gira per ore, lui ti dice “ok, ti avviso quando è pronto” e tu continui a fare altro. Sembra scontato? Eppure fino a poche settimane fa la norma era il polling: il tuo codice chiedeva ogni 30 secondi “hai finito? e adesso? e mo?”. Una perdita di tempo, soldi e sanità mentale. La buona notizia è che le cose stanno cambiando, e non solo per i video.

La vera partita per gli agenti AI non si gioca sui modelli – quelli diventano tutti bravi – ma su come li fai funzionare nel mondo reale. Ovvero l’infrastruttura di eventi. Mentre tutti guardano il prossimo LLM, Google e NVIDIA stanno ridisegnando il retrobanco. E i numeri dicono che chi risolve questo problema vincerà la prossima fase. Ma andiamo con ordine.

Il collo di bottiglia che nessuno vedeva

Il primo problema è che far valutare un agente AI costa una follia. Prendiamo il benchmark GAIA: un agente con un modello HAL Generalist e o3 Medium ha speso 2.828 dollari per il 28,5% di accuratezza. Poco dopo un altro agente ha raggiunto il 57,6% spendendo 1.686 dollari. Il punto non è chi vince, ma che i costi di valutazione stanno diventando il vero collo di bottiglia computazionale, come spiega l’analisi su Hugging Face. Se una singola verifica ti costa più di un mutuo, come fai a scalare? La risposta è: non con architetture a chiamata singola, ma con agenti che restano accesi e ascoltano eventi.

Agenti che non dormono mai

NVIDIA lo ha capito bene. All’inizio del 2026 ha presentato OpenClaw, una piattaforma per agenti persistenti. Un “claw” è un agente autonomo a lunga esecuzione – pensalo come un assistente che sta in background con un battito regolare, pronto a reagire. La piattaforma ha già 2 milioni di visitatori in una settimana e a marzo 2026 ha superato 250.000 stelle su GitHub. Roba da record.

La differenza più grossa? Con OpenClaw puoi eseguire un modello AI localmente sul tuo hardware, senza dipendere da API cloud costose e inaffidabili. Ogni agente persistente gira in background con un heartbeat, e l’impatto è pazzesco: secondo NVIDIA, l’inferenza per questi agenti autonomi moltiplica la domanda di GPU di 1.000 volte rispetto al semplice reasoning. Sì, mille. Non è un refuso.

Google: finalmente il webhook per tutti

Anche Google ha mosso una pedina decisiva. Il 4 maggio 2026 ha introdotto webhook event-driven per l’API Gemini. In pratica, invece di chiedere “hai finito?” ogni due secondi, il server ti avvisa quando il compito è completato. I webhook eliminano il polling per operazioni lunghe come Deep Research o video generativi. Funzionano così: quando un task è pronto, inviano un payload HTTP POST in tempo reale al tuo server. E l’implementazione segue lo standard Webhooks con firma e intestazioni: ogni richiesta è accompagnata da webhook-signature, webhook-id e webhook-timestamp per sicurezza. La consegna è garantita “at-least-once”, con tentativi automatici per 24 ore. In più puoi configurare i webhook a livello globale o per singola richiesta, scegliendo tra HMAC e JWKS. E la funzionalità è disponibile per tutti gli sviluppatori Gemini.

Fine dell’attesa.

La morale? I modelli sono il motore, ma l’infrastruttura di eventi è la strada. Chi costruirà agenti che non bloccano il telefono, che reagiscono in tempo reale e che non ti fanno impazzire con polling e costi, vincerà la prossima ondata. E con Google e NVIDIA che spingono nella stessa direzione – seppur con filosofie diverse – il futuro è già iniziato. Ora non resta che vedere quali startup si butteranno dentro. Occhio ai prossimi mesi.

Scritto da Marco Rossi

Giornalista tech con 10 anni di esperienza nel settore. Appassionato di innovazione e early adopter incallito. Ama raccontare come la tecnologia cambia la vita quotidiana delle persone. | Autore AI KronosWire

Startup

Editorials Pick's

Amazon

Apple

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

I costi per testare un agente AI sono fuori controllo