L'AI di Google sta scrivendo al posto tuo

L’AI di Google sta scrivendo al posto tuo

Google applica la frozen multi-token prediction a Gemini sui Pixel, ottenendo speedup del 50% senza modificare il modello principale.

La predizione multi-token su backbone congelato accelera Gemini Nano senza ritocchi ai pesi

Immaginate un modello linguistico congelato, un checkpoint immutabile da mesi, che all’improvviso genera testo quasi il doppio più in fretta senza toccare un peso. Non è un aggiornamento magico: è la tecnica di frozen multi-token prediction applicata a Gemini che Google ha appena retrofittato sui Pixel. Invece di produrre un token alla volta, il modello ne predice diversi in parallelo tramite una testa MTP che lavora su una rappresentazione interna congelata.

Il trucco sta tutto nell’architettura: il backbone non si muove, l’addestramento tocca solo la testa di predizione multi-token, e il verificatore scarta le sequenze implausibili prima che diventino output.

Predire quattro token senza rifare il modello

La scommessa è un classico trade-off da sistemi embedded. Addestrare un drafter standalone è costoso in termini di memoria e latenza su NPU mobile. Con backbone frozen, invece, si riusa lo stesso encoder del modello base, si aggiunge un drafter MTP leggero e lo si addestra su task specifici senza degradare le capacità originali. Su un Pixel 9, il risultato è uno speedup del 50% o più rispetto ai drafter tradizionali. I MTP drafters producono sequenze di token più accurate perché il predittore multi-token impara le dipendenze locali a grana fine, quelle che contano in task strutturalmente prevedibili.

È qui che il discorso tecnico incrocia l’esperienza utente. Modelli Gemini Nano girano su dispositivo per riassumere notifiche e correggere bozze: funzioni dove la prevedibilità sintattica è alta e il rewriting ha vincoli forti. Le funzioni di sintesi notifiche e correzione con MTP non solo vanno più veloci, ma consumano meno energia perché il drafter azzecca più token validi al primo colpo e chiama meno spesso il modello principale. Su benchmark di summarization complessa, MTP supera i drafter standalone; su compiti come le smart replies, dove la struttura è quasi un template, il vantaggio si allarga.

Il punto non è la velocità fine a sé stessa, ma cosa quella latenza ridotta permette di attivare senza che l’utente apra un’app.

Il feed è il nuovo copywriter

Spostiamoci dall’inferenza on-device alla generazione di annunci. Campagne shopping con AI come IMAX stanno automatizzando la creazione di testi per singoli prodotti a partire dal feed merchant. Non è un template che ruota sinonimi: il sistema decide quali attributi del prodotto mostrare in base all’intento di ricerca, genera un titolo e una descrizione al volo. La personalizzazione dei testi diventa la variabile dominante perché nei contesti di shopping con AI – Search Generative Experience, Discover, Maps – l’annuncio non può essere statico: deve adattarsi alla circostanza esatta in cui l’utente sta comprando.

Questa generazione di annunci dal feed prodotto cambia la gerarchia tecnica di una campagna. Se prima il copywriter scriveva testi e il feed era un magazzino di dati grezzi, adesso la qualità del feed prodotto controlla tutto: titoli, attributi, immagini, disponibilità. Un feed curato diventa l’unico asset creativo da governare.

L’editoriale automatizzato che arriva sul telefono

Il terzo tassello è l’informazione finanziaria. Il 25 giugno 2026 Google Finance ha attivato briefing finanziari personalizzati che arrivano via su Android e iOS. La sul Play Store integra watchlist, dati in tempo reale, un feed di notizie live e uno strumento AI che estrae i momenti chiave dai report societari. Anche qui il testo non lo scrive un redattore: lo assembla un modello che decide cosa è rilevante per quel portafoglio in quell’istante.

Tre prodotti, lo stesso pattern architetturale: modelli che non assistono la scrittura, ma la eseguono in modo invisibile. Su dispositivo con MTP, nei server pubblicitari con IMAX, nei backend di Google Finance. Per chi sviluppa, la conseguenza è netta. Lo stack non ruota più attorno all’interfaccia di composizione, ma attorno alla qualità dei dati strutturati in ingresso (il feed, il portafoglio, la cronologia notifiche) e all’efficienza dell’inferenza. Se il modello scrive da solo, il controllo creativo si sposta a monte: nella cura del dato e nella scelta di cosa congelare e cosa addestrare.

🍪 Impostazioni Cookie