L’autonomia degli agenti AI cresce, ma la loro affidabilità resta un miraggio
Il bug nella gestione del contesto di Claude Code ha mostrato la fragilità degli agenti autonomi a lunga esecuzione
Se l’architettura di un agente AI prevede un heartbeat che ne scandisce l’esecuzione in background, allora non stiamo più parlando di un chatbot a cui fare domande, ma di un demone software che vive sul desktop dell’utente. È esattamente quello che accade con OpenClaw: un agente persistente self-hosted che si installa localmente o su server privati. Un claw, nel gergo del progetto, è un agente autonomo a lunga esecuzione che resta attivo con un heartbeat costante. Il successo è stato immediato: a gennaio 2026 il progetto ha superato le 100.000 stelle su GitHub, con oltre 2 milioni di visitatori in una settimana. Numeri che raccontano una fame di autonomia, ma nascondono il problema strutturale: l’affidabilità non tiene il passo.
Perché se da un lato gli agenti si moltiplicano, dall’altro i postmortem — quello di Anthropic su Claude Code è il caso più istruttivo — mostrano quanto sia fragile il castello. Un bug nella gestione del contesto di ragionamento faceva sì che la pulizia del contesto avvenisse a ogni turno di conversazione, degradando progressivamente l’agente fino a renderlo inutilizzabile. Anthropic ha risolto i tre problemi nella v2.1.116 e come compensazione ha resettato i limiti di utilizzo agli abbonati. Ma la lezione tecnica resta: un agente autonomo è un sistema distribuito su scala temporale, e la gestione dello stato è il suo punto di rottura.
Il cuore del problema sta nel contesto, non nell’inferenza
Chi costruisce agenti lo sa: una risposta sbagliata si corregge con un prompt migliore. Un agente che perde il contesto dopo due ore di esecuzione è un crash silenzioso. Il bug di Claude Code non era un’allucinazione banale: era un errore architetturale nella pulizia del ragionamento che si autoalimentava a ogni ciclo. Mentre Anthropic metteva le pezze, NVIDIA annunciava una partnership con ServiceNow su Project Arc, un agente desktop autonomo e auto-evolvente per i knowledge worker. Project Arc si connette alla piattaforma AI aziendale tramite ServiceNow Action Fabric e può accedere a file system locali, terminali e applicazioni installate.
Potere enorme, superficie d’attacco enorme.
Un agente autonomo è un sistema distribuito su scala temporale, e la gestione dello stato è il suo punto di rottura.
OpenClaw e Project Arc corrono, ma le vulnerabilità restano sul tavolo
OpenClaw ha scelto la via trasparente: NVIDIA collabora con Steinberger e la comunità per affrontare potenziali vulnerabilità. È la strada giusta, ma il problema è sistemico. Quando un agente ha accesso al file system, al terminale e a un’intera suite di applicazioni, ogni falla nella gestione della memoria di contesto diventa un vettore di attacco persistente. Non un bug che genera una risposta sbagliata, ma un bug che compromette la macchina host per ore.
Chi costruisce deve rivedere lo stack di stato
Il dato tecnico che emerge è chiaro: gli agenti autonomi funzionano finché il contesto di ragionamento è integro. Ma appena si introduce un ciclo di pulizia difettoso — come nel caso Claude Code — l’intera architettura collassa. Per chi progetta sistemi, la lezione è che la persistenza dello stato non è un dettaglio implementativo, è il fondamento. OpenClaw e Project Arc spingono sull’autonomia, ma il vero collo di bottiglia non è il numero di stelle GitHub o i visitatori settimanali: è la capacità di garantire che un agente che opera per ore in background non si degradi, non dimentichi, non si autoavveleni. Finché quel problema non sarà risolto a livello di framework — non di patch — il miraggio dell’affidabilità resterà tale.