Hugging Face e NVIDIA vogliono togliere l’AI dal cloud
Crescono gli utenti non sviluppatori di agenti AI, ma NVIDIA e Hugging Face propongono alternative locali per sovranità dei dati.
L’alternativa locale cresce mentre il modello centralizzato spinge verso l’abbonamento perpetuo
Centottantanove volte in dieci mesi. Non è il tasso di crescita di una startup della Silicon Valley, ma l’aumento di utenti organizzativi non sviluppatori che usano agenti AI, come documentato da un report OpenAI sugli agenti. Persone che non scrivono una riga di codice, ma già delegano compiti a software che promettono di pensare per loro. La domanda scomoda è: chi possiede la fabbrica in cui questi pensieri vengono processati? Mentre la narrativa dominante spinge ogni interazione dentro data center altrui, due nomi stanno costruendo l’alternativa più pericolosa per il monopolio del cloud.
E lo fanno in silenzio, sul tuo dispositivo.
La nuvola è piena, il portatile è vuoto
OpenAI e Google trasformano ogni agente in un abbonamento. Ma un agente non è un chatbot: deve agire, non solo chiacchierare. Per agire serve contesto, accesso a file, calendari, email. Caricare tutto su server di terzi è una scelta architetturale, non una necessità. Hugging Face lo ha dimostrato con un esperimento tanto banale quanto eversivo: usare modelli locali come Gemma e Qwen per classificare automaticamente le pull request, in quello che chiamano triage gratuito di OpenClaw. Niente chiamate API, niente costi di inferenza, nessun dato che lascia la macchina.
I numeri sono lì. Su hardware NVIDIA DGX Spark, l’esecuzione di modelli locali ha raggiunto centinaia di token al secondo con alta concorrenza. E non è una tantum: la generazione di token nel triage locale resta stabile su entrambi i modelli dopo ottimizzazioni. Tradotto: classificare bug, assegnare priorità, rispondere a sviluppatori è già automatizzabile senza svegliare nessun hyperscaler.
Chi ci guadagna dal far credere che l’unica strada sia pagare a consumo ogni pensiero digitale? La risposta sta nei bilanci di chi vende GPU e di chi vende minuti di computazione. Non sono la stessa azienda.
NVIDIA apre il negozio. Perché proprio ora?
Mentre OpenAI registra un aumento di 137 volte degli utenti individuali non sviluppatori da agosto 2025 e di 189 volte per quelli organizzativi entro metà 2026, secondo lo stesso report OpenAI, NVIDIA rilascia un pacchetto che sembra la risposta a una domanda che nessuno ha fatto ad alta voce: possiamo fidarci di agenti che girano su macchine invisibili?
L’NVIDIA Agent Toolkit mette sul tavolo pezzi che finora erano sparpagliati: modelli Nemotron aperti, strumenti di orchestrazione, un runtime sicuro chiamato OpenShell. L’obiettivo dichiarato è fornire strumenti per costruire AI specializzata e affidabile. Niente rivoluzioni, ma una base modulare per progettare colleghi digitali sicuri e veloci, con la flessibilità dei modelli Nemotron per personalizzare, valutare e distribuire agenti.
Il dettaglio tecnico è politico. OpenShell non è un sandbox giocattolo: è un ambiente di esecuzione sicuro per agenti che opera dentro i sistemi dove risiedono i dati reali. E il toolkit sposa framework di terze parti come Hermes Agents e OpenClaw – una integrazione con framework aperti che suona come una dichiarazione di guerra alla verticalizzazione chiusa.
Nel frattempo, colossi come Palantir, SAP, ServiceNow, Siemens e Dassault Systèmes stanno già integrando capacità agentiche nelle loro piattaforme, un’adozione aziendale di agenti AI che sposta il baricentro del valore dal “chi ospita il modello” al “chi possiede il processo”. Per un’azienda industriale tedesca, sottoposta a vincoli GDPR, la differenza tra cloud californiano e runtime locale non è ideologica: è esistenziale.
La trappola del caricamento infinito
C’è un difetto di fabbrica nell’AI lato client che nessuno ama citare. Un esperimento sull’isolamento cross-origin dei modelli mostra che visitando un’app di esempio da un’origine diversa, il browser riscarica e rimette in cache tutte le risorse del modello da capo, anche se sono identiche byte per byte. Significa che ogni sito che usa lo stesso identico modello locale consuma la tua banda, il tuo disco, la tua elettricità. Non esiste una cache condivisa. L’esperienza utente collassa sotto il peso di un’architettura pensata per il web dei documenti, non per l’AI.
Chi dovrebbe risolvere questo pasticcio? I produttori di browser? Il W3C? L’antitrust europeo? Il silenzio normativo su questi temi stride con la retorica sulla sovranità digitale. Perché se domani ogni dipendente usa un agente locale, ma ogni agente deve riscaricare gigabyte di pesi sinaptici a ogni riavvio, il cloud – per quanto centralizzato e costoso – torna a essere l’unica alternativa praticabile. E chi vende cloud lo sa benissimo.
Cosa resta al singolo utente, all’impresa media, al regolatore? La sensazione che la vera partita non sia tra cloud e locale, ma tra chi può permettersi la ridondanza e chi no. E mentre discutiamo, gli agenti continuano a proliferare. La domanda non è se saranno ovunque. È: quando apriranno il tuo armadietto digitale, chi avrà la chiave?