Qual è il principale collo di bottiglia nei transformer per immagini satellitari?

Il costo computazionale scala quadraticamente con la lunghezza della sequenza token. Nelle immagini multispettrali, rappresentare ogni banda come token separato genera sequenze molto lunghe, aumentando esponenzialmente i costi.

Come ha risolto OlmoEarth v1.1 il problema della lunghezza della sequenza?

Fonde tutte le bande spettrali di un pixel in un singolo token, riducendo il numero totale di token di un fattore pari al numero di bande (12). La complessità quadratica scende proporzionalmente al quadrato di tale fattore.

Quale lezione emerge per chi costruisce modelli geospaziali?

Prima di pensare a cluster di GPU o compressione dei pesi, è più efficace ridefinire come si rappresentano i token. L'architettura dell'informazione è il vero acceleratore.

Editorials Pick's 2 months ago

OlmoEarth comprime dodici bande in un solo token

Q: Qual è il risultato ottenuto da OlmoEarth v1.1?

Il modello taglia i costi di inferenza fino a tre volte rispetto alla versione precedente, senza perdere accuratezza.

Q: Qual è il trade-off della compressione dei token?

Combinare i token in modo naive (concatenando i valori di banda in un vettore lungo) porta a un crollo di 10 punti percentuali sul benchmark m-eurosat kNN. La soluzione è un layer di proiezione che riduce la dimensionalità preservando le relazioni spettrali.

Allen AI presenta OlmoEarth v1.1, che comprime 12 bande spettrali in un token, tagliando i costi di inferenza di tre volte.

La compressione delle bande spettrali in un token unico riduce la sequenza di un fattore dodici

Mentre Google annunciava numeri da capogiro durante il keynote di Google I/O 2026 — 3,2 quadrilioni di token elaborati ogni mese — una squadra di ricercatori ad Allen AI ha appena dimostrato che il vero moltiplicatore di efficienza non sta nei nuovi chip, ma in un trucco apparentemente banale: comprimere dodici bande spettrali di immagini satellitari in un singolo token. Il risultato è un modello, OlmoEarth v1.1: modello più efficiente, che taglia i costi di inferenza fino a tre volte rispetto alla versione precedente, senza perdere un colpo in accuratezza.

È la prova concreta che l’ingegneria dei dati — come decidi di rappresentare il mondo in token — vale spesso più della potenza di calcolo bruta.

Il collo di bottiglia è la lunghezza della sequenza, non i transistor

Il motivo per cui questo dettaglio implementativo è così dirompente ha a che fare con un limite fondamentale dei transformer: i costi computazionali scalano quadraticamente con la lunghezza della sequenza token. Ogni nuovo token che aggiungi al contesto non costa solo il suo peso in moltiplicazioni, ma moltiplica il costo di tutti gli altri token contemporaneamente. Nelle immagini satellitari multispettrali, ogni pixel è tipicamente rappresentato da più bande (rosso, verde, blu, infrarosso, ecc.) e il modo più naive è trasformare ogni banda in un token separato. Se un’immagine ha 12 bande e 256×256 pixel, la sequenza token schizza a quasi 80.000 unità — e la complessità quadratica ti esplode tra le mani.

Fondere le bande, non i pixel

OlmoEarth v1.1 fa esattamente l’opposto di quanto si farebbe per inerzia: usa invece un token unico per tutte le bande, indipendentemente dalla risoluzione. In pratica, ogni token incorpora l’intero spettro multi-banda di una singola posizione geografica. Il numero totale di token si riduce di un fattore pari al numero di bande — qui dodici — e la complessità quadratica scende dalla stessa proporzione al quadrato. Il modello Gemini 3.5: intelligenza all’avanguardia ha già mostrato che si può ottenere un throughput quadruplo rispetto ad altri modelli frontiera, con un costo dimezzato; la compressione dei token è una leva analoga, applicata a monte invece che a valle.

Il prezzo della compressione (e come aggirarlo)

C’è però un trade-off implicito. Allen AI documenta che combinare i token in modo naive — cioè semplicemente concatenare tutti i valori di banda in un vettore lungo — porta a un crollo di 10 punti percentuali sul benchmark m-eurosat kNN. L’informazione spettrale fine si perde se non la si organizza con criterio. La soluzione adottata da OlmoEarth v1.1 è un layer di proiezione che impara a ridurre dimensionalità delle bande senza distruggere le relazioni spettrali critiche. Il risultato è un modello tre volte più economico a parità di capacità. Per chi costruisce oggi modelli geospaziali, la lezione è chiara: prima di pensare a cluster di GPU o a compressione dei pesi, guarda come definisci i token. In uno stack dove ogni token costa, l’architettura dell’informazione è il vero acceleratore.

Scritto da Luca Verdi

Developer e tech writer. Spiega la tecnologia dal punto di vista tecnico senza perdere di vista l'accessibilità. Ex software engineer, ora si dedica al giornalismo tech. | Autore AI KronosWire

Startup

Editorials Pick's

Amazon

Apple

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

OlmoEarth comprime dodici bande in un solo token

La compressione delle bande spettrali in un token unico riduce la sequenza di un fattore dodici

Il collo di bottiglia è la lunghezza della sequenza, non i transistor

Fondere le bande, non i pixel

Il prezzo della compressione (e come aggirarlo)

La compressione delle bande spettrali in un token unico riduce la sequenza di un fattore dodici

Il collo di bottiglia è la lunghezza della sequenza, non i transistor

Fondere le bande, non i pixel

Il prezzo della compressione (e come aggirarlo)

Articoli correlati

Tradeshift ha guadagnato il 2% di fatturato in più con l’AI agentica

Google Finance ha lanciato l’AI in Europa

Nvidia non vende più solo GPU