L’addestramento dell’AI non ha più bisogno di una connessione superveloce
Google DeepMind e DeepSeek riducono drasticamente requisiti di banda e memoria per il training distribuito di modelli AI.
Due innovazioni su training distribuito e memoria riducono le barriere per l’addestramento AI
Un modello da 12 miliardi di parametri è stato addestrato attraverso quattro regioni degli Stati Uniti con una connessione di soli 2-5 Gbps di banda. Ventidue volte più veloce dei metodi tradizionali. Questo non è un test di laboratorio: è l’esemplificazione di come l’infrastruttura di training stia cambiando le regole del gioco, mentre l’attenzione pubblica resta fissata sui nuovi modelli AI, un’altra rivoluzione silenziosa avviene sotto il cofano.
La vera battaglia dell’AI non si combatte sulla qualità dei modelli, ma sull’infrastruttura che li addestra. Due sviluppi indipendenti, uno da Google DeepMind e l’altro da DeepSeek, stanno riducendo drasticamente i requisiti di memoria e larghezza di banda necessari per addestrare modelli di frontiera, rendendo possibile l’addestramento distribuito su hardware eterogeneo e datacenter distanti. Mentre NVIDIA e Google Cloud collaborano per l’AI agentica e fisica da oltre un decennio, la novità è che ora questi progressi sono accessibili a un numero molto maggiore di attori.
Training distribuito senza paura di guasti: Decoupled DiLoCo
Il punto di svolta è l’architettura Decoupled DiLoCo, presentata da Google DeepMind come metodo per addestrare modelli su larga scala attraverso datacenter distanti. A differenza del training sincrono classico, dove ogni gradiente deve essere scambiato tra tutti i nodi prima di avanzare, Decoupled DiLoCo divide il lavoro in ‘isole’ di calcolo indipendenti, con dati asincroni che fluiscono tra di esse. Il risultato è che i requisiti di banda crollano: DiLoCo riduce la larghezza di banda tra datacenter distribuiti di ordini di grandezza, passando da decine di Gbps a valori come 2-5 Gbps per un modello da 12 miliardi di parametri.
Ma il vero colpo di genio è la resilienza. Decoupled DiLoCo permette training asincrono tra unità di apprendimento separate così che un guasto a un chip in una zona non blocca le altre. Nei test, il team ha usato “chaos engineering” per introdurre guasti hardware artificiali: l’addestramento continuava dopo la perdita di intere unità e le reintegrava automaticamente quando tornavano online. In scenari con guasti crescenti, Decoupled DiLoCo mantiene un’alta ‘goodput‘ mentre altri metodi crollano.
La prova finale? Un modello Gemma 4 addestrato con Decoupled DiLoCo ha ottenuto le stesse performance ML del training convenzionale su tutti i benchmark, mentre la disponibilità dei cluster di apprendimento era superiore. Inoltre, il sistema ha raggiunto un training più di 20 volte più veloce rispetto ai metodi di sincronizzazione tradizionali. E non solo: Decoupled DiLoCo può mescolare generazioni hardware diverse in una singola esecuzione, come TPU v6e e v5p, e i chip di diverse generazioni che girano a velocità differenti hanno eguagliato le performance ML di training con un solo tipo di chip.
Memoria e banda ottimizzate: DeepSeek V4 e la compressione dell’attenzione
Dall’altra parte, DeepSeek ha compiuto un passo altrettanto radicale lato efficienza di inferenza e caching. La nuova famiglia V4 introduce meccanismi di attenzione compressa che riducono la memoria necessaria per il contesto lungo. DeepSeek-V4-Pro richiede solo il 27% dei FLOPs di inferenza per token rispetto a V3.2, ma il dato impressionante è sulla cache KV: V4-Pro usa il 10% della memoria KV cache rispetto al predecessore. Ancora più aggressiva è la variante V4-Flash, che richiede solo il 10% dei FLOPs e il 7% della KV cache.
Come ci riesce? Con due innovazioni architetturali: Compressed Sparse Attention (CSA), che comprime le entry KV di 4× lungo la dimensione sequenziale usando pooling softmax-gated con bias posizionale appreso; e Heavily Compressed Attention (HCA), che comprime di 128× e abbandona la selezione sparsa. Rispetto all’attenzione a query raggruppate con 8 teste in bfloat16, DeepSeek V4 richiede circa il 2% della dimensione della cache. Per un modello con contesto di un milione di token, la differenza è tra avere bisogno di decine di GB di VRAM e gestire il tutto con poche centinaia di MB.
Cosa cambia per chi costruisce lo stack AI
Mettendo insieme le due innovazioni, lo scenario per chi addestra modelli cambia radicalmente. Training distribuito su datacenter distanti con banda ridotta e senza paura di guasti hardware, combinato con modelli che consumano un decimo della memoria e dei FLOPs di inferenza, significa che la barriera d’ingresso si abbassa.
Non servono più cluster monolitici di GPU collegate da fibre ottiche a bassissima latenza: si possono mescolare hardware di generazioni diverse e sfruttare capacità di calcolo sparse geograficamente.
Per un developer che progetta un sistema di training, le implicazioni sono immediate: goodput invece di uptime, addestramento asincrono invece di sincrono, e un modello che può continuare a imparare anche quando metà del cluster va offline. La collaborazione decennale tra NVIDIA e Google Cloud ha creato il terreno fertile, ma sono queste architetture — Decoupled DiLoCo da una parte e i meccanismi di attenzione compressa di DeepSeek dall’altra — a definire la prossima generazione di sistemi AI.
Il futuro non è un modello più grande: è un addestramento più intelligente, distribuito e resiliente. E ora sappiamo come funziona sotto il cofano.