Anthropic ha sbagliato tre aggiornamenti in due mesi

Anthropic ha sbagliato tre aggiornamenti in due mesi

Anthropic ha degradato Claude con tre bug in due mesi, sollevando dubbi su trasparenza e fiducia degli utenti.

Tre bug in sei settimane hanno degradato Claude senza preavviso per gli utenti

Se Anthropic giura di non ridurre mai intenzionalmente la qualità di Claude per gestire il carico, perché i suoi utenti hanno subito tre degradi distinti in pochi mesi? La domanda non è retorica. È il centro di un problema che l’azienda ha cercato di spiegare con il post-mortem ufficiale, un documento tecnico che descrive con precisione cosa è andato storto — e che, a leggerlo bene, solleva più interrogativi di quanti ne risolva.

La cronaca di un degrado annunciato

I fatti, almeno quelli, sono chiari. Il 4 marzo scorso Anthropic ha modificato l’impegno di ragionamento predefinito di Claude Code, abbassandolo da alto a medio. La motivazione dichiarata era ridurre la latenza, considerata eccessivamente lunga. Fin qui, una scelta tecnica discutibile ma comprensibile. Poi, però, le cose si sono complicate.

Il 26 marzo è stato introdotto un secondo cambiamento: l’obiettivo era cancellare il ragionamento accumulato nelle sessioni rimaste inattive per più di un’ora, sempre per alleggerire i tempi di risposta. Un bug, però, ha fatto sì che quella cancellazione avvenisse a ogni turno della conversazione, non solo una volta alla ripresa. In pratica, Claude ricominciava a pensare da zero ogni volta che l’utente inviava un messaggio. Il 16 aprile, infine, è stata aggiunta un’istruzione di sistema per ridurre la verbosità delle risposte. In combinazione con altre modifiche al prompt già attive, questa istruzione ha danneggiato la qualità del codice prodotto dal modello. Tutti e tre i problemi sono stati risolti entro il 20 aprile, con il rilascio della versione 2.1.116. Tre bug in meno di due mesi. Tre volte in cui gli utenti hanno ricevuto un prodotto peggiore di quello per cui stavano pagando. Sono davvero casuali?

Il contesto che non convince

La risposta ufficiale di Anthropic è netta: «Non riduciamo mai la qualità del modello a causa della domanda, dell’ora del giorno o del carico del server». Una dichiarazione che suona rassicurante — e che è tecnicamente vera, stando alla loro stessa ricostruzione. Nessuno ha premuto un interruttore per erogare un Claude di serie B nelle ore di punta. Quello che è successo è più sottile, e per certi versi più preoccupante: tre modifiche separate, introdotte in rapida successione, si sono sovrapposte in modi che nessuno aveva previsto, producendo un degrado «ampio e incoerente» che ha colpito segmenti diversi di utenti in momenti diversi. Il risultato, per chi usava il prodotto, era identico a quello di una riduzione intenzionale della qualità. La distinzione tra “bug involontario” e “scelta deliberata” può sembrare importante dal punto di vista etico, ma per l’utente che ottiene risposte scadenti è una differenza senza conseguenze pratiche.

Il vero nodo: fiducia e trasparenza

C’è poi la questione del rimedio scelto. Il 23 aprile Anthropic ha resettato i limiti di utilizzo per tutti gli abbonati. Un gesto di compensazione comprensibile, persino apprezzabile nella forma. Ma è, a tutti gli effetti, una toppa. Non risponde alla domanda strutturale: come è possibile che tre cambiamenti distinti, introdotti nell’arco di sei settimane, abbiano tutti prodotto un degrado della qualità? Cosa dice questo della capacità dell’azienda di testare le proprie modifiche prima di rilasciarle in produzione su milioni di utenti paganti?

Va detto che Anthropic non è la prima azienda tecnologica a fare i conti con bug infrastrutturali. Ma il contesto qui è specifico. Claude non è un motore di ricerca o un’app di messaggistica: è uno strumento su cui sviluppatori, professionisti e aziende stanno costruendo flussi di lavoro critici. Quando il modello peggiora in modo silenzioso — senza notifiche, senza changelog pubblici, senza avvisi agli utenti — la fiducia viene erosa in modo difficilmente recuperabile. E la fiducia, nel mercato dei modelli linguistici, è l’unica vera moneta di scambio.

C’è anche una dimensione regolamentare che vale la pena tenere a mente. In Europa, l’AI Act impone obblighi di trasparenza e monitoraggio per i sistemi ad alto rischio. Le modifiche silenziose a un modello — anche se involontarie — pongono domande legittime sulla documentazione dei cambiamenti, sulla notifica agli utenti e sulla responsabilità del fornitore in caso di danni derivanti da un output degradato. Anthropic ha scelto di pubblicare un post-mortem dettagliato, ed è una scelta da valutare positivamente. Ma il post-mortem arriva dopo, quando il danno è già fatto. Viene da chiedersi: se questi tre bug non fossero stati notati dagli utenti e amplificati sui forum, il documento sarebbe mai stato scritto?

La domanda che resta aperta, e che nessun reset dei limiti può risolvere, è questa: se ogni nuova versione di Claude può nascondere un’interazione imprevista tra modifiche accumulate, chi garantisce che il prossimo aggiornamento non produca un altro degrado silenzioso? La governance di un modello linguistico non si misura solo da come si comporta quando funziona. Si misura da come viene gestito quando smette di farlo — e da quanto tempo passa prima che qualcuno lo dica agli utenti.

🍪 Impostazioni Cookie