Gemma 4 12B gira su un laptop normale
Google DeepMind lancia Gemma 4 12B, modello AI multimodale che gira su laptop con 16 GB di RAM, senza inviare dati a server remoti.
L’architettura unificata elimina encoder separati per audio e immagini
Immagina di essere seduto sul divano con il laptop, di stare guardando un video e di avere una domanda sul contenuto. Non digiti niente: parli. Il modello risponde. Tutto avviene sul tuo computer, senza mandare nulla a un server remoto, senza abbonamenti, senza latenza. È esattamente quello che promette Gemma 4 12B, il nuovo modello di Google DeepMind annunciato la scorsa settimana. E la parte più sorprendente non è che esista — è che gira su un laptop normale con 16 GB di RAM.
La svolta che aspettavi
Gemma 4 12B è il primo modello di medie dimensioni di Google DeepMind a supportare input audio nativi. Significa che puoi parlargli direttamente, e lui capisce. Non è una funzione aggiunta sopra un modello di testo: l’audio è integrato nell’architettura fin dall’inizio. Il modello si posiziona nella famiglia Gemma 4 come un punto di equilibrio preciso — colma il divario tra il modello edge E4B, pensato per dispositivi con risorse minime, e il più potente 26B Mixture of Experts. Più capace del primo, più leggero del secondo. I modelli Gemma 4 hanno già superato i 150 milioni di download, e dal lancio della prima generazione l’intera famiglia Gemma è stata scaricata oltre 400 milioni di volte. Numeri che dicono una cosa sola: c’è una comunità enorme che aspettava esattamente questo tipo di salto.
Ma come fa un modello relativamente compatto a gestire testo, immagini e audio insieme, senza trasformarsi in un mostro che richiede una GPU professionale? La risposta sta nell’architettura. E qui le cose si fanno interessanti.
Magia senza encoder
La maggior parte dei modelli multimodali funziona come una catena di montaggio: c’è un pezzo di software dedicato all’audio (l’encoder audio), un altro dedicato alle immagini (l’encoder visivo), e poi un modello linguistico che prende i loro output e li elabora. Ogni encoder è un sistema complesso, con decine di strati di trasformazione. È un approccio potente ma costoso in termini di memoria e calcolo. Google DeepMind ha fatto una scelta diversa: secondo la guida per sviluppatori di Gemma 4 12B, il modello elimina completamente l’encoder audio separato — saltando i 12 strati conformer usati nei modelli E2B e E4B — e proietta linearmente i segnali audio grezzi a 16 kHz direttamente nello spazio di input del modello linguistico. È come se invece di tradurre il suono in un altro linguaggio intermedio, lo si consegnasse direttamente al cervello del modello così com’è, in forma grezza.
Lo stesso principio vale per le immagini. Mentre gli altri modelli medi della famiglia Gemma 4 usano un encoder visivo con 27 strati di Vision Transformer — un componente da 550 milioni di parametri — Gemma 4 12B lo sostituisce con un embedder visivo da soli 35 milioni di parametri. È un componente diciassette volte più leggero che fa lo stesso lavoro: portare l’informazione visiva dentro il modello. Il risultato è un’architettura unificata, senza encoder separati, in cui testo, immagini e audio convivono nello stesso spazio rappresentativo fin dall’inizio. Non è una semplificazione: è un ripensamento. E il fatto che funzioni — che il modello capisca audio e immagini nonostante questa drastica riduzione della complessità strutturale — dice qualcosa di importante su come stanno evolvendo le tecniche di addestramento.
Vale la pena ricordare il contesto: ad aprile 2025, con il lancio ufficiale di Gemma 4, Google aveva già presentato questa come la famiglia di modelli open più avanzata mai rilasciata dall’azienda. Gemma 4 12B è il tassello che mancava: l’estensione multimodale completa a una taglia accessibile.
L’AI in tasca (o nel laptop)
I numeri parlano chiaro. Llama 4 Scout di Meta — presentato ad aprile 2025 come il miglior modello multimodale nella sua classe — è un modello con 17 miliardi di parametri attivi e 16 esperti. È potente, ma la sua architettura Mixture of Experts, pur efficiente in inferenza, richiede comunque infrastrutture non banali per girare in locale. Gemma 4 12B punta invece esplicitamente all’hardware consumer: 16 GB di RAM, il laptop che hai già sul tavolo. Non serve comprare nulla di nuovo.
Questo ha implicazioni concrete sulla privacy che meritano attenzione. Un modello che gira localmente non manda nulla a nessun server: le tue conversazioni vocali, le immagini che condividi, le domande che fai restano sul tuo dispositivo. È una differenza sostanziale rispetto agli assistenti cloud-based, dove ogni interazione transita per infrastrutture esterne. Non è una garanzia assoluta — dipende anche da come viene implementato il modello nelle applicazioni che lo usano — ma è un punto di partenza molto diverso.
Per chi sviluppa applicazioni, il modello apre scenari che fino a ieri richiedevano server dedicati: assistenti vocali embedded, strumenti di analisi audio offline, applicazioni che capiscono simultaneamente quello che vedi e quello che dici. Per chi usa semplicemente un computer, la prospettiva è più semplice e più bella: un assistente che sente, vede e risponde, sempre disponibile, anche senza connessione.
Con Gemma 4 12B, Google ha messo un assistente vocale intelligente alla portata di chiunque abbia un laptop moderno. Il prossimo passo? Forse un modello che non solo capisce le tue parole, ma riconosce anche il tono della tua voce mentre ridi — e risponde di conseguenza.