L’attacco a OpenAI ha cambiato le regole della sicurezza
OpenAI subisce attacco via npm; certificati compromessi. NVIDIA e Nous Research propongono AI locale con Hermes Agent, più sicuro ed efficiente.
L’attacco a TanStack ha compromesso certificati di firma di OpenAI su tre piattaforme
Quando il 28 marzo OpenAI ha scoperto un problema di sicurezza con la libreria TanStack npm — parte di un attacco più ampio chiamato Mini Shai-Hulud — due dispositivi di dipendenti erano già stati colpiti. La risposta di OpenAI ha rivelato che i repository colpiti contenevano certificati di firma compromessi per iOS, macOS e Windows. OpenAI sta iniziando a ruotare i certificati — una precauzione che richiederà agli utenti macOS di aggiornare le app entro il 12 giugno 2026, data dopo la quale macOS bloccherà i download con il vecchio certificato. I due dispositivi colpiti non avevano configurazioni aggiornate che avrebbero impedito il download del pacchetto malevolo.
OpenAI non ha trovato malware firmato con alcun certificato.
Il cloud come superficie d’attacco: cosa insegna TanStack
L’incidente non è un caso isolato, ma la fotografia di un rischio strutturale. Ogni dipendenza open-source è un possibile punto di ingresso, e quando il tuo stack AI si appoggia a server cloud di terze parti, la superficie d’attacco diventa enorme. In questo senso, la decisione di NVIDIA di fornire DGX Spark con 128 GB e 1 petaflop non è solo un aggiornamento hardware: è un cambio di modello mentale. Se l’agente vive sulla tua macchina, l’unico modo per comprometterlo è compromettere la tua macchina.
Hermes Agent: un agente auto-migliorante che non chiede permesso al cloud
NVIDIA e Nous Research hanno mostrato che non è più un compromesso, ma una scelta tecnica sostenibile. Hermes Agent su NVIDIA RTX e DGX Spark ha superato 140.000 stelle GitHub in meno di tre mesi. Ed è, secondo OpenRouter, l’agente AI più utilizzato al mondo. Ma il dato rilevante è un altro: Hermes Agent è ottimizzato per l’uso locale sempre attivo. Il suo motore si adatta a una GPU consumer — una RTX 4090 o la nuova DGX Spark — e non richiede una connessione a Internet per funzionare.
L’asincronicità nel continuous batching: il costo nascosto del cloud
Ma c’è un altro argomento, meno drammatico ma altrettanto concreto: l’efficienza. Hugging Face ha misurato che il 24.0% del tempo di generazione i GPU cloud restano idle, in attesa che la CPU completi il preprocessing o l’elaborazione dei batch. Il problema è strutturale: i sistemi di continuous batching tradizionali sono sincroni — inviano un batch, aspettano, poi il prossimo. L’asincronicità nel continuous batching proposta da Hugging Face rompe questo collo di bottiglia: la GPU può iniziare a processare un nuovo batch mentre la CPU prepara il successivo, annullando quasi del tutto il tempo idle. Su una RTX locale, dove la latenza di comunicazione CPU-GPU è di pochi nanosecondi, il guadagno è immediato. Su un’istanza cloud, condivisa e schedulata, il problema è amplificato.
Il dato di Hugging Face — un quarto del tempo sprecato — significa che per ogni ora di GPU pagata, 15 minuti sono buttati. In un mercato dove i prezzi delle istanze cloud continuano a salire, la scelta locale diventa una necessità economica e di sicurezza. Hermes Agent, con il suo design per l’esecuzione always-on su hardware consumer, è la prima implementazione di questa visione: un agente che non solo non ha bisogno del cloud per funzionare, ma che sfrutta al massimo la vicinanza fisica tra CPU e GPU per minimizzare il tempo idle. E, non secondariamente, non rischia di vedere i suoi certificati di firma rubati da un pacchetto npm malevolo.
Il futuro è locale, non per filosofia, ma per necessità.