L'inferenza locale dell'AI è diventata una corsa all'oro

L’inferenza locale dell’AI è diventata una corsa all’oro

L'inferenza locale porta l'AI su PC e rover, riducendo latenza e aumentando privacy. NVIDIA, Google e IBM guidano la svolta.

L’inferenza locale sta trasformando l’AI da servizio remoto a infrastruttura personale

Immagina di essere seduto al tuo computer, con una finestra di chat aperta con un assistente AI capace di aiutarti a scrivere un’email, analizzare un foglio di calcolo, persino generare un’immagine. Ma c’è un problema: per funzionare, quel cervello digitale deve ogni volta connettersi a un server lontano, consumare banda, farti aspettare qualche secondo.

E se invece potesse girare tutto lì, sulla tua macchina, senza bisogno di internet, con una latenza quasi zero, e – dettaglio non da poco – senza che i tuoi dati vadano chissà dove?

La risposta non è un sogno di un futuro lontano. È quello che sta succedendo adesso, sotto i nostri occhi. Mentre le big tech continuano a spingere modelli mastodontici nel cloud, un esercito parallelo di hardware, software e modelli sta rendendo l’intelligenza artificiale qualcosa che puoi avere sul tuo PC, sul tuo laptop, persino su un rover su Marte. È la corsa all’inferenza locale, e promette di cambiare le regole del gioco.

Quando la potenza di calcolo scende in camera

Fino a poco tempo fa, eseguire un modello AI degno di questo nome su un computer normale era follia. Servivano cluster di GPU, raffreddamento a liquido, bollette elettriche da capogiro. Poi sono arrivate le GPU consumer potenti, e con loro una nuova categoria di dispositivi: macchine progettate specificamente per far girare modelli grandi. Il NVIDIA DGX Spark, per esempio, è un piccolo concentrato di potenza capace di eseguire modelli misti-di-esperti (MoE) con 120 miliardi di parametri – niente male per un oggetto che potrebbe stare sulla tua scrivania. Non solo: le nuove GPU NVIDIA RTX PRO accelerano la generazione di token fino a tre volte quando usano modelli come Qwen 3.6 ottimizzati con llama.cpp. Tradotto: se provi un chatbot locale, ora ottieni risposte in tempo reale, quasi istantanee. Non devi aspettare che il server remoto elabori la richiesta. La latenza schizza a zero, e la privacy sale alle stelle – i tuoi dati non lasciano mai il tuo computer.

Ma non basta avere l’hardware. Servono modelli pensati per l’inferenza locale. Google ha rilasciato i suoi modelli Gemma 4 (26B e 31B) in formato checkpoint NVFP4, un formato di precisione ridotta che dimezza il consumo di memoria senza sacrificare la qualità. E grazie ai “drafters” di Google – una tecnica di previsione multi-token – l’inferenza su queste GPU Blackwell diventa fino a tre volte più veloce. Il risultato? Un assistente AI capace di scrivere, riassumere, programmare tutto in locale, con reattività da applicazione nativa.

Ma se non hai una GPU mostruosa?

Non tutti hanno una scheda da 3000 euro. È qui che la democratizzazione dell’AI prende una piega ancora più interessante. IBM ha rilasciato la famiglia Granite Embedding Multilingual R2, modelli di embedding – quei numeri che permettono a un AI di capire il significato di un testo – con dimensioni contenute e prestazioni sorprendenti. Il modello da 97 milioni di parametri produce embedding a 384 dimensioni, sufficiente per molte applicazioni di ricerca semantica e classificazione. Quello da 311 milioni di parametri arriva a 768 dimensioni con supporto Matryoshka, e supporta 32K contesti, cioè può elaborare interi documenti lunghi. La ciliegina sulla torta? Sono rilasciati sotto licenza Apache 2.0. Significa che chiunque può usarli, modificarli, integrarli in un prodotto commerciale senza pagare royalties. Non serve essere una multinazionale per avere un motore di embedding di livello enterprise.

Anche Anthropic si è mossa in questa direzione. Claude Cowork desktop è ora disponibile per tutti gli abbonati paganti: un’interfaccia desktop che ti permette di usare Claude direttamente sul tuo computer, senza passare dal browser. Supporta file locali, integrazione con applicazioni e, soprattutto, esecuzione locale. Non è ancora un modello open source, ma è un passo importante per chi vuole un assistente AI reattivo e privato.

L’AI vola (letteralmente) su altri mondi

L’esempio più estremo di inferenza locale? Su Marte. L’8 dicembre scorso, il rover Perseverance della NASA ha eseguito la prima guida pianificata da AI su un altro pianeta. Usando Claude (lo stesso modello di Anthropic) ha tracciato un percorso di circa 400 metri, evitando ostacoli, calcolando la traiettoria migliore. Su Marte non c’è banda per chiamare casa ogni secondo: l’AI deve ragionare in loco, in tempo reale, con risorse limitate. Se funziona su un rover a 200 milioni di chilometri da qui, immagina cosa può fare sul tuo laptop.

Certo, la strada è ancora lunga. I modelli più grandi e capaci continuano a richiedere datacenter. Ma il messaggio è chiaro: l’AI sta diventando un’infrastruttura personale, non solo un servizio remoto. Il prossimo passo? Vedremo sempre più PC pensati per l’inferenza, sistemi operativi che integrano assistenti locali, forse addirittura chip dedicati. E la privacy – finalmente – non sarà più un optional.

🍪 Impostazioni Cookie