Google ha annunciato un modello che genera 1000 token al secondo

Google ha annunciato un modello che genera 1000 token al secondo

Google DeepMind annuncia DiffusionGemma, modello open source capace di generare fino a 1000 token al secondo su GPU NVIDIA H100.

L’architettura Mixture of Experts attiva solo 3,8 miliardi di parametri su 26

La domanda è legittima, e vale la pena porsela con attenzione prima di applaudire. Google DeepMind ha annunciato oggi DiffusionGemma, il suo nuovo modello sperimentale open source capace di generare testo fino a quattro volte più velocemente su GPU dedicate. Sulla carta, è un risultato notevole: 26 miliardi di parametri, architettura Mixture of Experts, e una velocità che tocca i 1000 token al secondo su una singola NVIDIA H100. Il settore aspettava qualcosa del genere. Ma ogni volta che Google annuncia un salto prestazionale di questo tipo, vale la pena chiedersi: perché proprio ora, e a vantaggio di chi?

Il paradosso della potenza

Il dato che colpisce di più non è la velocità in sé, ma il modo in cui viene ottenuta. DiffusionGemma ha 26 miliardi di parametri totali, una cifra che evoca istantaneamente infrastrutture colossali, data center industriali, costi proibitivi. Eppure, durante l’inferenza, il modello ne attiva soltanto 3,8 miliardi. È come avere una biblioteca di centinaia di migliaia di volumi e sapere esattamente quale scaffale consultare senza aprire gli altri. Il risultato è un’efficienza computazionale che tradisce le aspettative: un modello enorme che si comporta, in termini di risorse attive, come qualcosa di molto più compatto.

Il merito va all’architettura Mixture of Experts, che seleziona dinamicamente quali “esperti” — sottoreti specializzate — coinvolgere per ogni operazione. Non è un concetto nuovo nel settore, ma l’applicazione che Google ne fa qui porta a performance difficilmente ignorabili. E il dettaglio che lascia aperta la curiosità è un altro: come riesce il sistema a generare a questa velocità senza sacrificare qualità? La risposta sta nei meccanismi interni, e merita uno sguardo più ravvicinato.

Come funziona la magia

Dietro il numero impressionante si celano scelte architetturali precise. Il nodo centrale è l’abbandono della generazione autoregressiva classica — quella che produce un token alla volta, in sequenza, come una macchina da scrivere molto sofisticata. DiffusionGemma genera invece interi blocchi di 256 token in parallelo. È una differenza fondamentale: non ottimizza lo stesso processo, lo sostituisce. Il collo di bottiglia tradizionale dell’inferenza non viene allargato, viene aggirato.

Qui entra in gioco un elemento di contesto che non va trascurato. Lo scorso aprile, con l’annuncio di Gemma 4, Google aveva già sottolineato che i modelli della famiglia erano stati scaricati oltre 400 milioni di volte dalla prima generazione. Una base di adozione enorme, che ora DiffusionGemma cerca di capitalizzare portando efficienza dove prima c’era solo promessa. La strategia è chiara: costruire fedeltà nell’ecosistema sviluppatori prima che la concorrenza consolidi le sue posizioni. Il rilascio con licenza Apache 2.0 va esattamente in questa direzione — abbassa le barriere di adozione, riduce le frizioni legali, e tiene Google al centro del dibattito open.

Il prezzo della velocità

Con oltre 700 token al secondo su una RTX 5090, DiffusionGemma entra ufficialmente nel territorio delle GPU consumer di fascia alta. È un segnale concreto di accessibilità, almeno per sviluppatori che possono permettersi hardware recente. Ma la domanda che rimane senza risposta — e che Google non affronta esplicitamente nell’annuncio — è questa: un modello progettato attorno alla generazione parallela a blocchi fissi di 256 token è davvero adatto a tutti i casi d’uso, o eccelle soltanto in quelli in cui la lunghezza dell’output è prevedibile e uniforme?

La generazione autoregressiva classica è lenta, certo, ma è anche estremamente flessibile. Un modello che produce token uno alla volta può fermarsi, riorientarsi, gestire contesti dinamici con granularità fine. Un modello che genera 256 token in parallelo introduce vincoli strutturali che potrebbero non essere evidenti nel benchmark, ma che emergono nella pratica — in applicazioni interattive, in task con output molto brevi, o in scenari dove il controllo passo-passo è necessario. Google non lo dice, ma non lo nega nemmeno.

C’è poi una questione più sottile, che riguarda la democratizzazione reale di questi strumenti. Rientrare nei 18 GB di VRAM è un passo avanti rispetto alle GPU professionali, ma la RTX 5090 non è esattamente il portatile di uno studente. E la specializzazione dell’architettura — MoE, generazione a blocchi, QAT — richiede competenze tecniche per essere sfruttata correttamente: non basta scaricare i pesi e avviare l’inferenza. Il vero nodo, allora, non è più se Google sia riuscita a costruire qualcosa di veloce. Ci è chiaramente riuscita. La domanda è se questa velocità, così costruita, possa davvero uscire dai laboratori e dai data center di chi può permettersi di ottimizzarla — o se resterà, nella pratica, uno strumento per chi ha già gli strumenti per usarla.

🍪 Impostazioni Cookie