Cos'è TurboQuant e cosa annuncia Google?

TurboQuant è un algoritmo di compressione senza addestramento sviluppato da Google Research. Secondo l'annuncio, è in grado di quantizzare la cache key-value (KV) dei Large Language Model (LLM) fino a soli 3 bit senza richiedere addestramento aggiuntivo e senza compromettere l'accuratezza del modello, riducendo la memoria della cache KV di almeno sei volte e aumentando le prestazioni fino a otto volte.

Come funziona tecnicamente l'algoritmo TurboQuant?

TurboQuant funziona in due stadi. Il primo utilizza PolarQuant, che comprime i vettori lavorando sulla loro struttura geometrica per minimizzare la distorsione del prodotto interno, fondamentale per il calcolo dell'attenzione nei trasformatori. Il secondo stadio utilizza QJL (Quantized Johnson-Lindenstrauss) per gestire l'errore residuo con circa 1 bit aggiuntivo, eliminando efficacemente ciò che rimane dopo la prima fase di compressione.

Quali sono i benefici pratici di TurboQuant?

I benefici immediati includono una riduzione di sei volte della memoria utilizzata dalla cache KV e un aumento delle prestazioni fino a otto volte nel calcolo dei logit di attenzione. Questo permette di servire molte più richieste contemporaneamente con la stessa infrastruttura o di mantenere lo stesso numero di richieste con hardware molto più economico, specialmente per modelli con contesti lunghi (decine di migliaia di token).

TurboQuant comporta una perdita di accuratezza del modello?

Secondo l'annuncio ufficiale e i benchmark pubblicati, TurboQuant è in grado di quantizzare la cache KV fino a 3 bit senza compromettere in alcun modo l'accuratezza del modello. L'algoritmo è progettato specificamente per minimizzare la distorsione del prodotto interno, un fattore determinante per l'accuratezza nel meccanismo di attenzione.

Quali sono le implicazioni più ampie del rilascio di TurboQuant?

La pubblicazione di TurboQuant da parte di Google Research solleva questioni sul contesto competitivo. Un algoritmo che rende più economico il deployment degli LLM avvantaggia gli attori già consolidati con modelli maturi e potrebbe rendere più difficile per i concorrenti minori giustificare investimenti alternativi. Inoltre, tecnologie che abbassano le barriere tecniche ma non quelle economiche possono avere effetti di concentrazione di mercato che meritano attenzione da parte dei regolatori.

Ci sono limiti o aspetti non affrontati da TurboQuant?

La pubblicazione non affronta in modo diretto cosa succeda in scenari estremi, come contesti molto lunghi o distribuzioni di dati molto fuori dalla norma. La dichiarata assenza di perdita di accuratezza dipende dai benchmark scelti. Inoltre, la distanza tra un paper accademico su arXiv e un'implementazione produttiva accessibile a tutti può essere significativa.

Google 2 hours ago

Google comprime la memoria degli LLM di sei volte

Google Research ha presentato TurboQuant, algoritmo che comprime la cache KV degli LLM fino a 3 bit senza addestramento aggiuntivo, riducendo la memoria di sei volte e aumentando le prestazioni di otto volte senza compromettere l'accuratezza.

La tecnica riduce di sei volte la memoria necessaria per la cache dei modelli senza perdita di precisione.

Sei volte meno memoria, otto volte più prestazioni, zero perdita di accuratezza. Quando un’azienda annuncia numeri di questo tipo, la prima domanda non è “come funziona?” — è “perché dovremmo crederci?”. Eppure, stando a l’annuncio ufficiale di TurboQuant su Google Research, l’algoritmo è in grado di quantizzare la cache key-value degli LLM fino a soli 3 bit senza richiedere alcun addestramento aggiuntivo e senza compromettere in alcun modo l’accuratezza del modello. Vale la pena fermarsi su questa affermazione, perché se fosse vera — e i benchmark pubblicati suggeriscono che lo sia — cambierebbe in modo sostanziale l’economia computazionale dei modelli linguistici di grandi dimensioni.

Il numero che cambia tutto

Partiamo dai dati concreti. Secondo la copertura di Tom’s Hardware, Google Research ha pubblicato TurboQuant come algoritmo di compressione senza addestramento capace di portare la cache KV degli LLM fino a 3 bit senza alcuna perdita di precisione. In benchmark condotti su GPU Nvidia H100, la versione a 4 bit ha fornito fino a un aumento di prestazioni di otto volte nel calcolo dei logit di attenzione rispetto a chiavi non quantizzate a 32 bit — riducendo contemporaneamente la memoria della cache KV di almeno sei volte. Non sono margini di miglioramento ordinari. Sono salti quantici in un settore dove i guadagni si misurano normalmente in frazioni di punto percentuale.

Il punto che lascia aperta la tensione è questo: come si comprime così tanto senza perdere nulla? La risposta non è semplice, e merita di essere scomposta con attenzione, perché nasconde una scelta tecnica molto precisa — e non priva di implicazioni.

Scomporre il miracolo: PolarQuant e QJL

La quantizzazione, nella sua forma più elementare, è un vecchio compromesso: si riduce la precisione dei parametri del modello — ad esempio passando da FP32 a FP8 — per guadagnare in velocità di inferenza, ridurre l’impronta di memoria e abbassare i consumi energetici, accettando però una certa perdita di accuratezza. Come spiega la guida Nvidia ai concetti di quantizzazione dei modelli, per i trasformatori questo processo si applica a tre elementi principali: i pesi, le attivazioni e la cache KV nei modelli solo-decoder. È su quest’ultimo elemento che si concentra TurboQuant — e qui sta la sua specificità.

L’algoritmo funziona in due stadi. Il primo usa PolarQuant, progettato per la compressione di alta qualità: invece di quantizzare direttamente i vettori nello spazio euclideo, lavora sulla loro struttura geometrica, cercando di minimizzare la distorsione del prodotto interno — quella che determina quanto due vettori “si assomiglino” nell’attenzione del trasformatore. Pensatela come la differenza tra misurare la distanza tra due punti su una mappa piatta e misurarla su una sfera: usare il sistema sbagliato introduce errori sistematici che si accumulano strato dopo strato. Come spiega la pubblicazione tecnica su arXiv, TurboQuant affronta sia l’errore quadratico medio che la distorsione del prodotto interno, superando i limiti dei metodi esistenti che non riescono a raggiungere tassi di distorsione ottimali. Il secondo stadio usa QJL — Quantized Johnson-Lindenstrauss — per occuparsi dell’errore residuo con appena 1 bit aggiuntivo di potenza computazionale, eliminando di fatto ciò che rimane dopo la prima fase di compressione.

L’analogia che viene naturale è quella di uno chef che prima riduce una salsa togliendo l’acqua in eccesso con il calore, poi rimuove le impurità rimaste con una garza finissima. Il risultato è concentrato, pulito, senza residui. Ma questa eleganza tecnica è davvero priva di costi nascosti? La pubblicazione non affronta in modo diretto cosa succeda in scenari estremi, con contesti molto lunghi o distribuzioni di dati molto fuori dalla norma. La perfezione dichiarata “su tutti i benchmark” è sempre una dichiarazione che dipende da quali benchmark sono stati scelti — e da chi li ha scelti.

Chi vince e cosa rimane in sospeso

I beneficiari immediati sono chiari: chi sviluppa e distribuisce LLM su larga scala. Una riduzione di sei volte della memoria della cache KV non è una questione estetica — significa poter servire molte più richieste contemporaneamente con la stessa infrastruttura, o mantenere lo stesso numero di richieste con hardware enormemente più economico. Per le aziende che fanno girare modelli con contesti lunghi — decine di migliaia di token, documenti interi, sessioni di lunga durata — la cache KV è uno dei colli di bottiglia più costosi. TurboQuant, se mantiene le promesse in produzione, abbassa quel costo in modo significativo.

Ma c’è una domanda che vale la pena porre ad alta voce: perché Google pubblica questo adesso? L’azienda non è nuova a pubblicazioni tecniche che hanno effetti secondari rilevanti sul posizionamento competitivo. Un algoritmo che rende più economico il deployment degli LLM favorisce chi già ha modelli maturi da distribuire — cioè i grandi attori, Google in testa. Rende anche più difficile per i concorrenti minori giustificare investimenti in architetture alternative. Non è una critica all’algoritmo in sé, che sembra genuinamente notevole; è una riflessione sul contesto in cui viene rilasciato, e su chi ne beneficia strutturalmente.

Restano poi questioni aperte sul piano regolatorio: in un momento in cui la Commissione Europea sta affinando l’AI Act e i regolatori antitrust guardano con attenzione alle mosse dei grandi player dell’IA, tecnologie che abbassano le barriere tecniche ma non quelle economiche possono avere effetti di concentrazione che meritano attenzione. La pubblicazione accademica aperta è un gesto di trasparenza, ma la distanza tra un paper su arXiv e un’implementazione produttiva accessibile a tutti è spesso più grande di quanto sembri.

Con TurboQuant, Google Research non ha solo ottimizzato un algoritmo: ha aperto una crepa nei compromessi fondamentali dell’intelligenza artificiale, quelli tra memoria, velocità e accuratezza che sembravano insuperabili. La domanda che rimane sospesa — e che nessun benchmark può ancora rispondere — è quanto lontano si possa spingere questa compressione prima di incontrare il prossimo paradosso: quello in cui l’efficienza stessa diventa un vantaggio così asimmetrico da ridisegnare, ancora una volta, chi può permettersi di stare nel gioco.

Scritto da Giulia Bianchi

Giornalista investigativa specializzata in privacy, sicurezza digitale e regolamentazione tech. Scettica per natura, crede nel giornalismo che fa domande scomode.

Nexxen ha trovato un modo per misurare la pubblicità in TV

Apple ha aggiunto più di cento metriche gratis per gli sviluppatori

Un giudice ha aperto una falla nello scudo legale di Meta

OpenAI ha promesso che Sora non farà danni

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

Google comprime la memoria degli LLM di sei volte