Quale bug ha afflitto Claude Code di Anthropic?

Un bug nella gestione del contesto di ragionamento causava la pulizia della memoria procedurale a ogni turno di conversazione, degradando l'agente fino a renderlo inutilizzabile dopo poche iterazioni. Il problema è stato risolto nella versione v2.1.116.

Quali sono i tre difetti critici risolti in Claude Code v2.1.116?

Il postmortem di Anthropic documenta tre difetti critici risolti nella versione v2.1.116, ma i dettagli specifici non sono elencati nel testo fornito.

Cosa ha fatto Anthropic come compensazione per il bug di Claude Code?

Anthropic ha resettato i limiti di utilizzo agli abbonati come gesto di compensazione.

NOWAI-Bench è un benchmark aperto integrato con NVIDIA NeMo Gym, progettato per valutare agenti AI enterprise su scenari reali. Include EnterpriseOps-Gym, uno dei benchmark più impegnativi per agenti enterprise.

Quali sono le lezioni per chi progetta agenti autonomi secondo il testo?

Non basta un buon LLM e un layer di tool calling. Serve una gestione esplicita e verificabile del contesto e protocolli di resilienza per impedire la propagazione di singoli errori.

Editorials Pick's 3 months ago

Gli agenti AI hanno un problema di affidabilità

Q: Cos'è Project Arc di NVIDIA e ServiceNow?

Project Arc è un agente desktop autonomo e auto-evolvente per knowledge worker, capace di connettersi nativamente alla piattaforma AI tramite ServiceNow Action Fabric.

Q: Cosa rivela il red teaming di rete pubblicato da Microsoft il 30 aprile 2026?

Il red teaming di rete rivela che gli errori in una rete di agenti non sono additivi ma moltiplicativi: un agente che si blocca può innescare un effetto domino, e un bug in un componente può corrompere l'intero sistema.

Un bug in Claude Code degrada l'agente. Anthropic risolve, ma la fiducia è minata. Nuovi benchmark e red teaming cercano soluzioni.

Il bug di Claude Code e i test su reti di agenti rivelano fragilità sistemiche

Un bug nella gestione del contesto di ragionamento faceva sì che la pulizia della memoria procedurale avvenisse a ogni turno di conversazione, degradando progressivamente l’agente fino a renderlo inutilizzabile dopo poche iterazioni. Non è un incidente isolato: è la cartina di tornasole di un’industria che spinge l’autonomia degli agenti AI più veloce della propria capacità di testarne la robustezza. Il postmortem di Claude Code pubblicato da Anthropic documenta tre difetti critici — risolti nella versione v2.1.116 — ma il danno alla fiducia è già fatto.

Come compensazione, Anthropic ha resettato i limiti di utilizzo agli abbonati, un gesto che non cancella la lezione: l’affidabilità resta il vero collo di bottiglia.

Intanto la corsa all’autonomia procede a ritmo vertiginoso. A gennaio 2026 OpenClaw ha superato le 100.000 stelle su GitHub, con oltre due milioni di visitatori in una settimana. Un segnale chiaro: la comunità open source scommette sugli agenti persistenti. Sull’altro fronte, NVIDIA e ServiceNow hanno annunciato una partnership per Project Arc, un agente desktop autonomo e auto-evolvente per knowledge worker, capace di connettersi nativamente alla piattaforma AI tramite ServiceNow Action Fabric. L’architettura promette longevità operativa, ma proprio questa natura persistente moltiplica la superficie d’attacco e la probabilità di derive comportamentali.

Il benchmark che misura quanto (non) ci possiamo fidare

Proprio mentre il settore accelera, nascono strumenti per mettere alla prova gli agenti a livello enterprise. NOWAI-Bench è un benchmark aperto integrato con NVIDIA NeMo Gym, progettato per valutare agenti AI enterprise su scenari reali. Al suo interno si trova EnterpriseOps-Gym, uno dei benchmark più impegnativi per agenti enterprise, che simula flussi di lavoro complessi con decine di passaggi interdipendenti. Non è un caso che ServiceNow e NVIDIA abbiano scelto di renderlo open: serve un metro condiviso per capire dove — e quanto — gli agenti falliscono prima di rilasciarli in produzione.

Quando gli agenti si parlano: il red teaming di rete

Il problema non si ferma a un singolo agente. Microsoft ha iniziato a studiare cosa succede quando una rete di agenti interagisce su larga scala. Il red teaming di rete — pubblicato il 30 aprile 2026 — rivela che gli errori non sono additivi, ma moltiplicativi: un agente che si blocca può innescare un effetto domino, e un bug apparentemente innocuo in un componente può corrompere l’intero sistema. È un livello di complessità che i benchmark attuali non coprono ancora, e che richiede nuove strategie di test, orchestrazione e rollback.

Cosa cambia nello stack di chi costruisce agenti

Per chi progetta agenti autonomi, il messaggio è operativo: non basta un buon LLM e un layer di tool calling. Serve una gestione esplicita e verificabile del contesto — come dimostra il bug di Claude Code — e protocolli di resilienza che impediscano a un singolo errore di propagarsi. Progetti come Project Arc e OpenClaw spingono i confini, ma l’autonomia degli agenti AI cresce; la loro affidabilità, invece, si costruisce con git, integrazione continua e — sempre più spesso — con reti di agenti che si testano a vicenda. Nel 2026, la vera innovazione non sarà l’agente che fa tutto, ma quello che non si rompe mentre lo fa.

Scritto da Luca Verdi

Developer e tech writer. Spiega la tecnologia dal punto di vista tecnico senza perdere di vista l'accessibilità. Ex software engineer, ora si dedica al giornalismo tech. | Autore AI KronosWire

Startup

Editorials Pick's

Amazon

Apple

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

Gli agenti AI hanno un problema di affidabilità

Il bug di Claude Code e i test su reti di agenti rivelano fragilità sistemiche

Il benchmark che misura quanto (non) ci possiamo fidare

Quando gli agenti si parlano: il red teaming di rete

Cosa cambia nello stack di chi costruisce agenti

Il bug di Claude Code e i test su reti di agenti rivelano fragilità sistemiche

Il benchmark che misura quanto (non) ci possiamo fidare

Quando gli agenti si parlano: il red teaming di rete

Cosa cambia nello stack di chi costruisce agenti

Articoli correlati

L’autonomia degli agenti AI cresce, ma la loro affidabilità resta un miraggio

Un modello di AI si specializza con una sola GPU

Google ha bloccato 8,3 miliardi di annunci con la sua IA