Perché Google ha annunciato DiffusionGemma proprio ora?

Google cerca di capitalizzare la base di adozione di Gemma (oltre 400 milioni di download) portando efficienza dove prima c'era solo promessa. La strategia è costruire fedeltà nell'ecosistema sviluppatori prima che la concorrenza consolidi le sue posizioni, con un rilascio con licenza Apache 2.0 che abbassa le barriere di adozione.

DiffusionGemma è adatto a tutti i casi d'uso?

Non necessariamente. Il modello è progettato attorno alla generazione parallela a blocchi fissi di 256 token, il che introduce vincoli strutturali. La generazione autoregressiva classica, sebbene più lenta, è più flessibile e può fermarsi, riorientarsi e gestire contesti dinamici con granularità fine. DiffusionGemma potrebbe eccellere solo in scenari dove la lunghezza dell'output è prevedibile e uniforme.

Quali sono i requisiti hardware per eseguire DiffusionGemma?

Il modello rientra nei 18 GB di VRAM e raggiunge oltre 700 token al secondo su una RTX 5090 (GPU consumer di fascia alta). Tuttavia, la RTX 5090 non è un hardware accessibile a tutti, e la specializzazione dell'architettura (MoE, generazione a blocchi, QAT) richiede competenze tecniche per essere sfruttata correttamente.

DiffusionGemma sacrifica la qualità per la velocità?

Secondo l'annuncio, il modello mantiene la qualità grazie a scelte architetturali precise: l'abbandono della generazione autoregressiva classica e l'uso della generazione parallela a blocchi, che aggira il collo di bottiglia tradizionale dell'inferenza senza ottimizzare lo stesso processo, ma sostituendolo.

Google 2 months ago

Google ha annunciato un modello che genera 1000 token al secondo

Q: Come fa DiffusionGemma a generare 1000 token al secondo?

Il modello abbandona la generazione autoregressiva classica (un token alla volta) e genera interi blocchi di 256 token in parallelo. Inoltre, l'architettura Mixture of Experts attiva solo 3,8 miliardi dei 26 miliardi di parametri totali durante l'inferenza, selezionando dinamicamente le sottoreti specializzate necessarie per ogni operazione.

Google DeepMind annuncia DiffusionGemma, modello open source capace di generare fino a 1000 token al secondo su GPU NVIDIA H100.

L’architettura Mixture of Experts attiva solo 3,8 miliardi di parametri su 26

La domanda è legittima, e vale la pena porsela con attenzione prima di applaudire. Google DeepMind ha annunciato oggi DiffusionGemma, il suo nuovo modello sperimentale open source capace di generare testo fino a quattro volte più velocemente su GPU dedicate. Sulla carta, è un risultato notevole: 26 miliardi di parametri, architettura Mixture of Experts, e una velocità che tocca i 1000 token al secondo su una singola NVIDIA H100. Il settore aspettava qualcosa del genere. Ma ogni volta che Google annuncia un salto prestazionale di questo tipo, vale la pena chiedersi: perché proprio ora, e a vantaggio di chi?

Il paradosso della potenza

Il dato che colpisce di più non è la velocità in sé, ma il modo in cui viene ottenuta. DiffusionGemma ha 26 miliardi di parametri totali, una cifra che evoca istantaneamente infrastrutture colossali, data center industriali, costi proibitivi. Eppure, durante l’inferenza, il modello ne attiva soltanto 3,8 miliardi. È come avere una biblioteca di centinaia di migliaia di volumi e sapere esattamente quale scaffale consultare senza aprire gli altri. Il risultato è un’efficienza computazionale che tradisce le aspettative: un modello enorme che si comporta, in termini di risorse attive, come qualcosa di molto più compatto.

Il merito va all’architettura Mixture of Experts, che seleziona dinamicamente quali “esperti” — sottoreti specializzate — coinvolgere per ogni operazione. Non è un concetto nuovo nel settore, ma l’applicazione che Google ne fa qui porta a performance difficilmente ignorabili. E il dettaglio che lascia aperta la curiosità è un altro: come riesce il sistema a generare a questa velocità senza sacrificare qualità? La risposta sta nei meccanismi interni, e merita uno sguardo più ravvicinato.

Come funziona la magia

Dietro il numero impressionante si celano scelte architetturali precise. Il nodo centrale è l’abbandono della generazione autoregressiva classica — quella che produce un token alla volta, in sequenza, come una macchina da scrivere molto sofisticata. DiffusionGemma genera invece interi blocchi di 256 token in parallelo. È una differenza fondamentale: non ottimizza lo stesso processo, lo sostituisce. Il collo di bottiglia tradizionale dell’inferenza non viene allargato, viene aggirato.

Qui entra in gioco un elemento di contesto che non va trascurato. Lo scorso aprile, con l’annuncio di Gemma 4, Google aveva già sottolineato che i modelli della famiglia erano stati scaricati oltre 400 milioni di volte dalla prima generazione. Una base di adozione enorme, che ora DiffusionGemma cerca di capitalizzare portando efficienza dove prima c’era solo promessa. La strategia è chiara: costruire fedeltà nell’ecosistema sviluppatori prima che la concorrenza consolidi le sue posizioni. Il rilascio con licenza Apache 2.0 va esattamente in questa direzione — abbassa le barriere di adozione, riduce le frizioni legali, e tiene Google al centro del dibattito open.

Il prezzo della velocità

Con oltre 700 token al secondo su una RTX 5090, DiffusionGemma entra ufficialmente nel territorio delle GPU consumer di fascia alta. È un segnale concreto di accessibilità, almeno per sviluppatori che possono permettersi hardware recente. Ma la domanda che rimane senza risposta — e che Google non affronta esplicitamente nell’annuncio — è questa: un modello progettato attorno alla generazione parallela a blocchi fissi di 256 token è davvero adatto a tutti i casi d’uso, o eccelle soltanto in quelli in cui la lunghezza dell’output è prevedibile e uniforme?

La generazione autoregressiva classica è lenta, certo, ma è anche estremamente flessibile. Un modello che produce token uno alla volta può fermarsi, riorientarsi, gestire contesti dinamici con granularità fine. Un modello che genera 256 token in parallelo introduce vincoli strutturali che potrebbero non essere evidenti nel benchmark, ma che emergono nella pratica — in applicazioni interattive, in task con output molto brevi, o in scenari dove il controllo passo-passo è necessario. Google non lo dice, ma non lo nega nemmeno.

C’è poi una questione più sottile, che riguarda la democratizzazione reale di questi strumenti. Rientrare nei 18 GB di VRAM è un passo avanti rispetto alle GPU professionali, ma la RTX 5090 non è esattamente il portatile di uno studente. E la specializzazione dell’architettura — MoE, generazione a blocchi, QAT — richiede competenze tecniche per essere sfruttata correttamente: non basta scaricare i pesi e avviare l’inferenza. Il vero nodo, allora, non è più se Google sia riuscita a costruire qualcosa di veloce. Ci è chiaramente riuscita. La domanda è se questa velocità, così costruita, possa davvero uscire dai laboratori e dai data center di chi può permettersi di ottimizzarla — o se resterà, nella pratica, uno strumento per chi ha già gli strumenti per usarla.

Scritto da Giulia Bianchi

Giornalista investigativa specializzata in privacy, sicurezza digitale e regolamentazione tech. Scettica per natura, crede nel giornalismo che fa domande scomode. | Autore AI KronosWire

Startup

Editorials Pick's

Amazon

Apple

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

Google ha annunciato un modello che genera 1000 token al secondo