Gli agenti AI lavorano ore da soli: la sicurezza arriva sempre dopo
OpenAI stima che il 25,6% degli utenti abbia delegato a Codex compiti che richiederebbero oltre otto ore a un umano.
OpenAI stima che un utente su quattro abbia delegato a un agente compiti da oltre otto ore di lavoro umano
Il 25,6 per cento degli utenti individuali, a maggio 2026, ha chiesto a un agente Codex di svolgere un compito che a un umano avrebbe richiesto più di otto ore. È una stima di OpenAI, non un’indiscrezione. E mentre questo numero circolava nei report interni, Google, NVIDIA e AWS pubblicavano guide su come rendere opzionale la sicurezza. Non obbligatoria. Opzionale.
La forbice tra ciò che gli agenti già fanno da soli e ciò che le aziende dichiarano di voler controllare si allarga ogni mese. E non è un dettaglio tecnico: è una questione di responsabilità. Quando un agente lavora otto ore senza supervisione, chi firma? Chi risponde a un prompt injection che trasforma un assistente legale in un estrattore di dati personali?
Il numero che OpenAI non può più nascondere
Partiamo dai dati. Entro giugno 2026 ogni dipartimento di OpenAI – legale, recruiting, ricerca – usa Codex come strumento principale, secondo la documentazione interna sull’adozione degli agenti. Non è una sperimentazione: è l’infrastruttura operativa.
E i numeri pubblicati fotografano un’accelerazione che ha pochi precedenti nella storia dell’automazione d’ufficio. Già a maggio 2026, l’80,6 per cento degli utenti campionati aveva fatto almeno una richiesta a Codex che implicava più di trenta minuti di lavoro umano equivalente. Il 70,2 per cento aveva superato l’ora. Ma il dato che dovrebbe far scattare ogni alert normativo è quel 25,6 per cento: un utente su quattro ha delegato compiti che un professionista svolgerebbe in una giornata intera.
Nello stesso periodo, quasi un quarto di tutte le richieste a Codex riguardava task da più di un’ora di lavoro umano. E al novantanovesimo percentile, gli utenti generavano regolarmente oltre sessanta ore di turni-agente al giorno. Sessanta. Non è un errore di battitura: sono flotte di agenti che lavorano in parallelo, per giorni-uomo che eccedono le ventiquattro ore, documentate dalle metriche sui carichi di lavoro agenti pubblicate dalla stessa azienda. E mentre tutto questo accade, la discussione pubblica sulla sicurezza è ferma al “ci stiamo lavorando”.
La sicurezza è una checkbox che pochi spuntano
AWS ha rilasciato un sistema per rilevare tentativi di jailbreak, prompt injection e prompt leakage tramite l’API InvokeGuardrailChecks di Bedrock. NVIDIA propone modelli per un comportamento più sicuro con la suite di strumenti per agenti AI e un runtime sicuro per gli agenti – NemoClaw e OpenShell – progettati per contenere il raggio d’azione degli agenti sui sistemi dove operano. Google, da parte sua, ha introdotto in Gemini 3.5 Flash un addestramento avversario mirato contro la prompt injection per l’uso del computer, più due sistemi di salvaguardia enterprise: conferma esplicita dell’utente per azioni sensibili e interruzione automatica dei task in caso di prompt injection indiretta.
Tutto opzionale. Tutto delegato alla buona volontà di chi integra. Non esiste uno standard obbligatorio, non esiste un requisito minimo per mettere in produzione un agente che può scrivere codice, accedere a database, inviare email. Il GDPR impone valutazioni d’impatto per trattamenti ad alto rischio: quale trattamento lo è più di un agente non supervisionato che prende decisioni per ore? Eppure le autorità di controllo tacciono, mentre le aziende competono a chi rilascia prima.
Perché la sicurezza è sempre un accessorio
Qui bisogna chiedersi: perché proprio ora? Perché AWS, NVIDIA e Google pubblicano proprio adesso questi strumenti? La risposta più scomoda è che sanno già cosa sta succedendo. Sanno che i reparti IT aziendali stanno perdendo il controllo sulla proliferazione degli agenti, e offrono soluzioni post-hoc che assomigliano più a un argine d’emergenza che a un’architettura pensata. Intanto OpenAI continua a pubblicare dati che certificano l’uso massivo e prolungato di Codex, senza che questo inneschi un dibattito pubblico proporzionato alla posta in gioco.
Il paradosso è limpido: l’adozione corre, la sicurezza arranca. E quando un giornalista chiede a un ingegnere perché un certo guardrail non sia attivo di default, la risposta è quasi sempre la stessa: “perché rallenterebbe l’adozione”. Come se la velocità fosse un valore in sé, anche quando l’accelerazione è verso un muro.
Chi sta guadagnando da questa asimmetria? Non chi usa gli agenti – che eredita rischi legali, reputazionali e operativi – ma chi li vende, mentre scarica la responsabilità della messa in sicurezza sull’acquirente. Fino a quando un’autorità antitrust o un garante della privacy deciderà che questo schema non è più tollerabile?
E nel frattempo, un quarto degli utenti affida a un agente compiti che un umano completerebbe in otto ore. Cosa succede quando quel compito riguarda una delibera, un contratto, una diagnosi differenziale? Forse la domanda non è più se gli agenti possono lavorare da soli. È se possiamo permetterci di lasciarli fare senza che nessuno risponda.