Qual è la novità introdotta da Google nell'app Gemini riguardo alla generazione di risposte?

Google ha introdotto il pulsante "Answer now" nell'app Gemini, che permette di interrompere il processo di ragionamento del modello per ottenere una risposta immediata, mantenendo però il modello sottostante e senza forzare un downgrade a un modello più piccolo e meno performante.

Come funzionava il vecchio pulsante "Skip" e in cosa si differenzia dal nuovo "Answer now"?

Il pulsante "Skip" precedente forzava il sistema ad abbandonare il modello "Thinking" o "Pro" per passare a un modello "Fast" più piccolo e con maggiore tendenza all'allucinazione. "Answer now", invece, interrompe la generazione dei token di ragionamento del modello attuale e passa direttamente alla generazione dell'output visibile, senza cambiare il modello.

Cosa significa l'implementazione di "Answer now" dal punto di vista dello sviluppo?

Dal punto di vista dello sviluppo, "Answer now" è una soluzione tecnicamente più elegante perché mantiene il contesto del modello "superiore", anche se troncato nel ragionamento, riducendo il rischio di incoerenza. Il sistema modifica il suo percorso di esecuzione senza ricaricare il contesto in una nuova finestra di inferenza di un modello diverso.

Come influisce la funzionalità "Personal Intelligence" sull'utilizzo del pulsante "Answer now"?

La funzionalità "Personal Intelligence", che permette a Gemini di attingere ai dati personali dell'utente, rende più efficace una risposta rapida. Tuttavia, interrompere il processo di recupero delle informazioni con "Answer now" potrebbe portare a risposte fattualmente incomplete perché il sistema non ha finito di leggere i dati.

Google 2 months ago

Google Gemini: il pulsante ‘rispondi ora’ cambia l’esperienza utente

Q: Qual è l'impatto dell'introduzione di "Answer now" sull'utente?

L'introduzione di "Answer now" pone l'utente davanti a una scelta: la velocità diventa un parametro che influenza direttamente l'affidabilità della risposta, non più una caratteristica fissa del modello scelto.

Q: Cosa implica la gestione di interruzioni asincrone per i modelli di linguaggio come Gemini 3?

Gestire un interrupt che forza una conclusione coerente è complesso. Il modello deve essere addestrato per gestire il "troncamento del pensiero" e fornire una risposta grammaticalmente e logicamente sensata, anche se meno approfondita.

Un aggiornamento di Google permette di interrompere il ragionamento dei modelli Gemini ottenendo risposte immediate, bilanciando velocità e accuratezza

C’è un momento preciso, nell’interazione con i modelli di linguaggio di nuova generazione, in cui l’entusiasmo per la “magia” dell’intelligenza artificiale si scontra con la dura realtà della latenza.

Chiunque abbia utilizzato le varianti “Thinking” di Gemini o i modelli o1 di OpenAI conosce quella pausa: il cursore che pulsa, l’animazione che gira, mentre dietro le quinte il sistema costruisce quella che tecnicamente chiamiamo Chain of Thought.

Fino a ieri, l’utente impaziente aveva una sola opzione brutale: annullare o saltare, accettando però un degradamento qualitativo della risposta.

Google ha deciso di intervenire su questo pattern di interazione con un aggiornamento che, a un occhio non tecnico, potrebbe sembrare banale, ma che nasconde una gestione dell’inferenza molto più raffinata. Non si tratta più di “saltare” il ragionamento, ma di cristallizzarlo nel suo stato attuale.

Questa settimana Google ha iniziato il rollout del pulsante “Answer now” nell’app Gemini, una funzionalità che permette di interrompere il processo di ragionamento profondo per ottenere un output immediato, senza però cambiare il modello sottostante.

La distinzione è fondamentale per chi scrive codice o gestisce flussi di lavoro complessi: il vecchio pulsante “Skip” era, a tutti gli effetti, un downgrade forzato. Premendolo, il sistema abbandonava il modello “Thinking” o “Pro” per passare al modello “Fast” (più piccolo, meno parametri, maggiore tendenza all’allucinazione su task logici).

Era come chiedere a un professore universitario di smettere di riflettere e far rispondere al suo posto a uno studente del primo anno.

Un’interruzione controllata del pensiero

La nuova implementazione, invece, opera diversamente a livello di stack. Quando l’utente preme “Rispondi ora”, non sta cambiando il motore dell’auto in corsa; sta semplicemente dicendo al modello attuale di interrompere la generazione dei token di ragionamento “nascosti” e passare immediatamente alla generazione dell’output visibile.

Per i modelli della serie Gemini 3, questo significa sfruttare la capacità del modello Flash di sintetizzare rapidamente una risposta basata su quanto “pensato” fino a quel millisecondo, o di affidarsi all’istinto probabilistico della rete neurale senza ulteriori verifiche intermedie.

Josh Woodward, VP di Google Labs, ha spiegato la meccanica con una semplicità che cela la complessità dell’orchestrazione backend:

Ora potete toccare “Rispondi ora” per impedire all’App Gemini di continuare a pensare e ottenere una risposta immediata (utilizzando il modello 3 Flash).

— Josh Woodward, VP, Google Labs, Gemini, & AI Studio

Dal punto di vista dello sviluppo, questa è una soluzione tecnicamente più elegante. Mantenere il contesto del modello “superiore” (anche se troncato nel ragionamento) riduce il rischio di incoerenza che si verificava con lo switch improvviso al modello “Fast”. Il sistema non deve ricaricare il contesto in una nuova finestra di inferenza di un modello diverso; deve solo modificare il suo percorso di esecuzione.

Tuttavia, questo pone l’utente davanti a una scelta critica: la velocità diventa un parametro che influenza direttamente l’affidabilità, non più una caratteristica fissa del modello scelto.

La mossa di Google arriva in un momento in cui l’ecosistema AI sta cercando di bilanciare la potenza bruta con l’usabilità quotidiana. I modelli “Thinking” sono eccezionali per il coding o la matematica complessa, ma risultano eccessivi per domande banali.

L’interfaccia utente diventa quindi il regolatore di questo flusso.

La latenza come scelta utente

È interessante notare come l’UI stia evolvendo per rendere trasparenti i limiti computazionali. Il vecchio pulsante “Skip” era una ammissione di fallimento della UX (“ci metto troppo, prendi questa risposta peggiore”), mentre “Answer now” è uno strumento di controllo.

Un portavoce dell’azienda ha confermato che la nuova funzione sostituisce interamente la precedente logica di “Skip”, segnando un cambio di paradigma.

Non si scappa più dalla complessità, la si gestisce.

Sotto il cofano, questo suggerisce che l’architettura dei modelli Gemini 3 sia sufficientemente flessibile da gestire interruzioni asincrone senza “rompere” la generazione del testo. In termini di machine learning operations (MLOps), gestire un interrupt che forza una conclusione coerente è molto più difficile che lasciar terminare un processo o killarlo del tutto.

Il modello deve essere addestrato per gestire il “troncamento del pensiero” e atterrare in piedi, fornendo una risposta che abbia senso grammaticale e logico, anche se priva della profondità di analisi completa.

Ma c’è un altro livello di complessità che si aggiunge a questo aggiornamento, ed è legato a dove il modello va a cercare le informazioni.

Intelligenza personale e compromessi

Contestualmente al controllo sulla velocità di risposta, Google sta spingendo sull’integrazione profonda con i dati utente.

L’efficacia di una risposta rapida dipende spesso dal contesto che il modello possiede già. L’introduzione della funzionalità “Personal Intelligence” permette a Gemini di attingere a Gmail, Foto e altri dati personali per fornire risposte contestualizzate.

Qui il cerchio tecnico si chiude, ma si aprono interrogativi sulla privacy e sull’efficienza. Se il modello deve scansionare migliaia di email per rispondere, la fase di “Thinking” non è solo ragionamento logico, ma anche retrieval di informazioni.

Interrompere questo processo con “Answer now” potrebbe portare a risposte non solo meno ragionate, ma fattualmente incomplete perché il sistema non ha finito di leggere i vostri dati.

La tensione tra l’accuratezza garantita da una lunga catena di pensiero e l’immediatezza richiesta dall’utente mobile è il vero campo di battaglia del 2026. Google ha scelto di dare il telecomando in mano all’utente, permettendogli di decidere, volta per volta, se preferisce un genio lento o un assistente veloce e un po’ superficiale.

Resta da vedere se gli utenti sapranno riconoscere quando la velocità è nemica della verità, o se “Answer now” diventerà semplicemente il tasto predefinito per una generazione che non ha più tempo di aspettare che una macchina finisca di pensare.

Scritto da Luca Verdi

Developer e tech writer. Spiega la tecnologia dal punto di vista tecnico senza perdere di vista l'accessibilità. Ex software engineer, ora si dedica al giornalismo tech.

L’India è il nuovo campo di battaglia dell’IA, e i giganti tech americani stanno scaricando miliardi per conquistarla

Mentre tutti inseguono i giganti, NVIDIA scommette sui modelli piccoli: Nemotron 3 Nano arriva su Amazon Bedrock

Amazon dichiara guerra ai 12 minuti di noia: così Fire TV e il nuovo Ember Artline vogliono cambiare le nostre serate

Il paradosso Amazon: vetrina chiusa, pubblicità a pagamento

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

Google Gemini: il pulsante ‘rispondi ora’ cambia l’esperienza utente