OlmoEarth comprime dodici bande in un solo token
Allen AI presenta OlmoEarth v1.1, che comprime 12 bande spettrali in un token, tagliando i costi di inferenza di tre volte.
La compressione delle bande spettrali in un token unico riduce la sequenza di un fattore dodici
Mentre Google annunciava numeri da capogiro durante il keynote di Google I/O 2026 — 3,2 quadrilioni di token elaborati ogni mese — una squadra di ricercatori ad Allen AI ha appena dimostrato che il vero moltiplicatore di efficienza non sta nei nuovi chip, ma in un trucco apparentemente banale: comprimere dodici bande spettrali di immagini satellitari in un singolo token. Il risultato è un modello, OlmoEarth v1.1: modello più efficiente, che taglia i costi di inferenza fino a tre volte rispetto alla versione precedente, senza perdere un colpo in accuratezza.
È la prova concreta che l’ingegneria dei dati — come decidi di rappresentare il mondo in token — vale spesso più della potenza di calcolo bruta.
Il collo di bottiglia è la lunghezza della sequenza, non i transistor
Il motivo per cui questo dettaglio implementativo è così dirompente ha a che fare con un limite fondamentale dei transformer: i costi computazionali scalano quadraticamente con la lunghezza della sequenza token. Ogni nuovo token che aggiungi al contesto non costa solo il suo peso in moltiplicazioni, ma moltiplica il costo di tutti gli altri token contemporaneamente. Nelle immagini satellitari multispettrali, ogni pixel è tipicamente rappresentato da più bande (rosso, verde, blu, infrarosso, ecc.) e il modo più naive è trasformare ogni banda in un token separato. Se un’immagine ha 12 bande e 256×256 pixel, la sequenza token schizza a quasi 80.000 unità — e la complessità quadratica ti esplode tra le mani.
Fondere le bande, non i pixel
OlmoEarth v1.1 fa esattamente l’opposto di quanto si farebbe per inerzia: usa invece un token unico per tutte le bande, indipendentemente dalla risoluzione. In pratica, ogni token incorpora l’intero spettro multi-banda di una singola posizione geografica. Il numero totale di token si riduce di un fattore pari al numero di bande — qui dodici — e la complessità quadratica scende dalla stessa proporzione al quadrato. Il modello Gemini 3.5: intelligenza all’avanguardia ha già mostrato che si può ottenere un throughput quadruplo rispetto ad altri modelli frontiera, con un costo dimezzato; la compressione dei token è una leva analoga, applicata a monte invece che a valle.
Il prezzo della compressione (e come aggirarlo)
C’è però un trade-off implicito. Allen AI documenta che combinare i token in modo naive — cioè semplicemente concatenare tutti i valori di banda in un vettore lungo — porta a un crollo di 10 punti percentuali sul benchmark m-eurosat kNN. L’informazione spettrale fine si perde se non la si organizza con criterio. La soluzione adottata da OlmoEarth v1.1 è un layer di proiezione che impara a ridurre dimensionalità delle bande senza distruggere le relazioni spettrali critiche. Il risultato è un modello tre volte più economico a parità di capacità. Per chi costruisce oggi modelli geospaziali, la lezione è chiara: prima di pensare a cluster di GPU o a compressione dei pesi, guarda come definisci i token. In uno stack dove ogni token costa, l’architettura dell’informazione è il vero acceleratore.