Gli agenti AI hanno un problema di affidabilità

Gli agenti AI hanno un problema di affidabilità

Un bug in Claude Code degrada l'agente. Anthropic risolve, ma la fiducia è minata. Nuovi benchmark e red teaming cercano soluzioni.

Il bug di Claude Code e i test su reti di agenti rivelano fragilità sistemiche

Un bug nella gestione del contesto di ragionamento faceva sì che la pulizia della memoria procedurale avvenisse a ogni turno di conversazione, degradando progressivamente l’agente fino a renderlo inutilizzabile dopo poche iterazioni. Non è un incidente isolato: è la cartina di tornasole di un’industria che spinge l’autonomia degli agenti AI più veloce della propria capacità di testarne la robustezza. Il postmortem di Claude Code pubblicato da Anthropic documenta tre difetti critici — risolti nella versione v2.1.116 — ma il danno alla fiducia è già fatto.

Come compensazione, Anthropic ha resettato i limiti di utilizzo agli abbonati, un gesto che non cancella la lezione: l’affidabilità resta il vero collo di bottiglia.

Intanto la corsa all’autonomia procede a ritmo vertiginoso. A gennaio 2026 OpenClaw ha superato le 100.000 stelle su GitHub, con oltre due milioni di visitatori in una settimana. Un segnale chiaro: la comunità open source scommette sugli agenti persistenti. Sull’altro fronte, NVIDIA e ServiceNow hanno annunciato una partnership per Project Arc, un agente desktop autonomo e auto-evolvente per knowledge worker, capace di connettersi nativamente alla piattaforma AI tramite ServiceNow Action Fabric. L’architettura promette longevità operativa, ma proprio questa natura persistente moltiplica la superficie d’attacco e la probabilità di derive comportamentali.

Il benchmark che misura quanto (non) ci possiamo fidare

Proprio mentre il settore accelera, nascono strumenti per mettere alla prova gli agenti a livello enterprise. NOWAI-Bench è un benchmark aperto integrato con NVIDIA NeMo Gym, progettato per valutare agenti AI enterprise su scenari reali. Al suo interno si trova EnterpriseOps-Gym, uno dei benchmark più impegnativi per agenti enterprise, che simula flussi di lavoro complessi con decine di passaggi interdipendenti. Non è un caso che ServiceNow e NVIDIA abbiano scelto di renderlo open: serve un metro condiviso per capire dove — e quanto — gli agenti falliscono prima di rilasciarli in produzione.

Quando gli agenti si parlano: il red teaming di rete

Il problema non si ferma a un singolo agente. Microsoft ha iniziato a studiare cosa succede quando una rete di agenti interagisce su larga scala. Il red teaming di rete — pubblicato il 30 aprile 2026 — rivela che gli errori non sono additivi, ma moltiplicativi: un agente che si blocca può innescare un effetto domino, e un bug apparentemente innocuo in un componente può corrompere l’intero sistema. È un livello di complessità che i benchmark attuali non coprono ancora, e che richiede nuove strategie di test, orchestrazione e rollback.

Cosa cambia nello stack di chi costruisce agenti

Per chi progetta agenti autonomi, il messaggio è operativo: non basta un buon LLM e un layer di tool calling. Serve una gestione esplicita e verificabile del contesto — come dimostra il bug di Claude Code — e protocolli di resilienza che impediscano a un singolo errore di propagarsi. Progetti come Project Arc e OpenClaw spingono i confini, ma l’autonomia degli agenti AI cresce; la loro affidabilità, invece, si costruisce con git, integrazione continua e — sempre più spesso — con reti di agenti che si testano a vicenda. Nel 2026, la vera innovazione non sarà l’agente che fa tutto, ma quello che non si rompe mentre lo fa.

🍪 Impostazioni Cookie