Gli agenti AI sbagliano ancora i conti

Gli agenti AI sbagliano ancora i conti

ServiceNow e Nvidia annunciano Project Arc per agenti AI sul desktop, ma la precisione dei calcoli resta una sfida aperta.

Project Arc usa NVIDIA OpenShell per eseguire agenti in sandbox con policy di sicurezza

Immagina di chiedere al tuo computer di organizzare automaticamente la posta, compilare un foglio di calcolo con i dati finanziari degli ultimi trimestri e mandare una mail di riepilogo ai colleghi. Lo fai con un comando vocale o un prompt, e l’agente AI sul tuo desktop esegue ogni passaggio. Sembra magia. Ma se durante il calcolo del totale delle fatture sbaglia un arrotondamento, o inventa una cifra? È esattamente il problema con cui si stanno scontrando le aziende che provano a portare gli agenti autonomi nei flussi di lavoro reali.

ServiceNow e NVIDIA hanno appena annunciato Project Arc, un sistema che promette di portare agenti AI autonomi direttamente sul desktop delle imprese. Secondo la nuova partnership NVIDIA-ServiceNow, Project Arc può accedere a file system locali, terminali e applicazioni installate su una macchina. E per mantenerli al sicuro, usa NVIDIA OpenShell, un runtime open source che esegue gli agenti in sandbox con policy governate. Jon Sigler di ServiceNow ha definito Project Arc il passo successivo per portare l’esecuzione autonoma sul desktop. Il supporto hardware c’è: la piattaforma NVIDIA Blackwell offre oltre 50x più token per watt rispetto a Hopper, e costa quasi 35x in meno per milione di token. Cifre da capogiro.

Ma un agente che accede al tuo filesystem e sbaglia i conti è un rischio concreto.

E la comunità open source ci sta mettendo il naso: il caso di vLLM, il popolare motore di inferenza per modelli linguistici, è illuminante. I ricercatori hanno scoperto che passando dalla versione V0 alla V1 i risultati non coincidevano. Per raggiungere la parità, vLLM ha corretto quattro componenti: i logprobs di rollout, le impostazioni predefinite del runtime V1, la gestione degli aggiornamenti dei pesi in volo e la testa di proiezione LM in fp32. Il riferimento usava vLLM 0.8.5, mentre la V1 usava la 0.18.1. Piccoli dettagli tecnici, ma quando devi addestrare un agente con reinforcement learning, anche una virgola spostata cambia tutto.

Quando l’agente sbaglia i conti

Il problema non è solo del software. Il cuore del calcolo è il modo in cui il modello produce le probabilità dei prossimi token. Nella versione V1 di vLLM, vengono restituiti i logprobs grezzi, prima di applicare temperature, penalità e filtri top‑k/top‑p. Ma il sistema di apprendimento per rinforzo (PipelineRL) si aspettava logprobs processati. Per ottenere la parità, i ricercatori hanno dovuto specificare una modalità esplicita con logprobs processati, disattivare il caching dei prefissi e lo scheduling asincrono. Un lavoro certosino, ma rivela quanto sia fragile la catena di inferenza.

E non è un caso isolato. Il report tecnico di MiniMax‑M1 (arXiv:2506.13585) ha tracciato un mismatch nelle probabilità tra training e inferenza, risolto calcolando la testa LM in fp32. Anche il framework ScaleRL include il calcolo fp32 dei logits come parte della ricetta. Il tallone d’Achille è sempre lo stesso: la precisione numerica.

La catena di inferenza è il vero tallone

Nel frattempo, OpenAI ha rilasciato GPT‑5.5 Instant, un modello che ha prodotto il 52,5% in meno di allucinazioni rispetto alla versione precedente in valutazioni interne su prompt ad alto rischio in medicina, diritto e finanza. E ha ridotto del 37,3% gli errori fattuali nelle conversazioni più difficili segnalate dagli utenti. Open AI punta su modelli più “chiari e personalizzati”. Ma anche qui, il miglioramento dei modelli da solo non basta: perché se l’infrastruttura di inferenza – come vLLM – introduce imprecisioni, l’agente finale sarà comunque inaffidabile.

Ecco il punto: gli agenti autonomi non sono solo modelli più intelligenti. Sono l’intera catena: runtime, sandbox, calcolo dei logprobs, precisione in virgola mobile, gestione della cache. Se anche un solo anello è “sporco”, il risultato finale perde di credibilità. Per un uso enterprise – dove un agente deve compilare dichiarazioni fiscali o aggiornare cartelle cliniche – l’errore non è ammesso.

Cosa significa per noi utenti

La promessa di Project Arc è enorme: agenti che lavorano al posto nostro, direttamente sul nostro computer. Ma la strada per renderli affidabili è ancora lunga. La buona notizia è che la comunità open source ha già iniziato a sistemare i buchi: ogni bug di vLLM corretto è un passo avanti per tutti. E i progressi nei modelli base (come GPT‑5.5) riducono le allucinazioni, ma non cancellano i problemi di calcolo a valle.

Per chi usa strumenti AI sul lavoro, il consiglio è di tenere d’occhio non solo le demo patinate, ma i dettagli tecnici: la precisione con cui vengono calcolate le probabilità, la trasparenza degli errori, la documentazione dei bug trovati e risolti. Perché un agente che sbaglia i conti non è un agente autonomo: è un assistente disastroso.

Nei prossimi mesi vedremo sempre più aziende lanciare “agenti AI da desktop”. Ma il vero banco di prova non sarà quanti token generano, ma quanto sono precisi quando contano. E lì, come dimostrano i fix di vLLM e i report di MiniMax‑M1, il lavoro è appena iniziato.

🍪 Impostazioni Cookie