Google comprime la memoria degli LLM di sei volte
Google Research ha presentato TurboQuant, algoritmo che comprime la cache KV degli LLM fino a 3 bit senza addestramento aggiuntivo, riducendo la memoria di sei volte e aumentando le prestazioni di otto volte senza compromettere l'accuratezza.
La tecnica riduce di sei volte la memoria necessaria per la cache dei modelli senza perdita di precisione.
Sei volte meno memoria, otto volte più prestazioni, zero perdita di accuratezza. Quando un’azienda annuncia numeri di questo tipo, la prima domanda non è “come funziona?” — è “perché dovremmo crederci?”. Eppure, stando a l’annuncio ufficiale di TurboQuant su Google Research, l’algoritmo è in grado di quantizzare la cache key-value degli LLM fino a soli 3 bit senza richiedere alcun addestramento aggiuntivo e senza compromettere in alcun modo l’accuratezza del modello. Vale la pena fermarsi su questa affermazione, perché se fosse vera — e i benchmark pubblicati suggeriscono che lo sia — cambierebbe in modo sostanziale l’economia computazionale dei modelli linguistici di grandi dimensioni.
Il numero che cambia tutto
Partiamo dai dati concreti. Secondo la copertura di Tom’s Hardware, Google Research ha pubblicato TurboQuant come algoritmo di compressione senza addestramento capace di portare la cache KV degli LLM fino a 3 bit senza alcuna perdita di precisione. In benchmark condotti su GPU Nvidia H100, la versione a 4 bit ha fornito fino a un aumento di prestazioni di otto volte nel calcolo dei logit di attenzione rispetto a chiavi non quantizzate a 32 bit — riducendo contemporaneamente la memoria della cache KV di almeno sei volte. Non sono margini di miglioramento ordinari. Sono salti quantici in un settore dove i guadagni si misurano normalmente in frazioni di punto percentuale.
Il punto che lascia aperta la tensione è questo: come si comprime così tanto senza perdere nulla? La risposta non è semplice, e merita di essere scomposta con attenzione, perché nasconde una scelta tecnica molto precisa — e non priva di implicazioni.
Scomporre il miracolo: PolarQuant e QJL
La quantizzazione, nella sua forma più elementare, è un vecchio compromesso: si riduce la precisione dei parametri del modello — ad esempio passando da FP32 a FP8 — per guadagnare in velocità di inferenza, ridurre l’impronta di memoria e abbassare i consumi energetici, accettando però una certa perdita di accuratezza. Come spiega la guida Nvidia ai concetti di quantizzazione dei modelli, per i trasformatori questo processo si applica a tre elementi principali: i pesi, le attivazioni e la cache KV nei modelli solo-decoder. È su quest’ultimo elemento che si concentra TurboQuant — e qui sta la sua specificità.
L’algoritmo funziona in due stadi. Il primo usa PolarQuant, progettato per la compressione di alta qualità: invece di quantizzare direttamente i vettori nello spazio euclideo, lavora sulla loro struttura geometrica, cercando di minimizzare la distorsione del prodotto interno — quella che determina quanto due vettori “si assomiglino” nell’attenzione del trasformatore. Pensatela come la differenza tra misurare la distanza tra due punti su una mappa piatta e misurarla su una sfera: usare il sistema sbagliato introduce errori sistematici che si accumulano strato dopo strato. Come spiega la pubblicazione tecnica su arXiv, TurboQuant affronta sia l’errore quadratico medio che la distorsione del prodotto interno, superando i limiti dei metodi esistenti che non riescono a raggiungere tassi di distorsione ottimali. Il secondo stadio usa QJL — Quantized Johnson-Lindenstrauss — per occuparsi dell’errore residuo con appena 1 bit aggiuntivo di potenza computazionale, eliminando di fatto ciò che rimane dopo la prima fase di compressione.
L’analogia che viene naturale è quella di uno chef che prima riduce una salsa togliendo l’acqua in eccesso con il calore, poi rimuove le impurità rimaste con una garza finissima. Il risultato è concentrato, pulito, senza residui. Ma questa eleganza tecnica è davvero priva di costi nascosti? La pubblicazione non affronta in modo diretto cosa succeda in scenari estremi, con contesti molto lunghi o distribuzioni di dati molto fuori dalla norma. La perfezione dichiarata “su tutti i benchmark” è sempre una dichiarazione che dipende da quali benchmark sono stati scelti — e da chi li ha scelti.
Chi vince e cosa rimane in sospeso
I beneficiari immediati sono chiari: chi sviluppa e distribuisce LLM su larga scala. Una riduzione di sei volte della memoria della cache KV non è una questione estetica — significa poter servire molte più richieste contemporaneamente con la stessa infrastruttura, o mantenere lo stesso numero di richieste con hardware enormemente più economico. Per le aziende che fanno girare modelli con contesti lunghi — decine di migliaia di token, documenti interi, sessioni di lunga durata — la cache KV è uno dei colli di bottiglia più costosi. TurboQuant, se mantiene le promesse in produzione, abbassa quel costo in modo significativo.
Ma c’è una domanda che vale la pena porre ad alta voce: perché Google pubblica questo adesso? L’azienda non è nuova a pubblicazioni tecniche che hanno effetti secondari rilevanti sul posizionamento competitivo. Un algoritmo che rende più economico il deployment degli LLM favorisce chi già ha modelli maturi da distribuire — cioè i grandi attori, Google in testa. Rende anche più difficile per i concorrenti minori giustificare investimenti in architetture alternative. Non è una critica all’algoritmo in sé, che sembra genuinamente notevole; è una riflessione sul contesto in cui viene rilasciato, e su chi ne beneficia strutturalmente.
Restano poi questioni aperte sul piano regolatorio: in un momento in cui la Commissione Europea sta affinando l’AI Act e i regolatori antitrust guardano con attenzione alle mosse dei grandi player dell’IA, tecnologie che abbassano le barriere tecniche ma non quelle economiche possono avere effetti di concentrazione che meritano attenzione. La pubblicazione accademica aperta è un gesto di trasparenza, ma la distanza tra un paper su arXiv e un’implementazione produttiva accessibile a tutti è spesso più grande di quanto sembri.
Con TurboQuant, Google Research non ha solo ottimizzato un algoritmo: ha aperto una crepa nei compromessi fondamentali dell’intelligenza artificiale, quelli tra memoria, velocità e accuratezza che sembravano insuperabili. La domanda che rimane sospesa — e che nessun benchmark può ancora rispondere — è quanto lontano si possa spingere questa compressione prima di incontrare il prossimo paradosso: quello in cui l’efficienza stessa diventa un vantaggio così asimmetrico da ridisegnare, ancora una volta, chi può permettersi di stare nel gioco.