Cosa rende innovativo Decoupled DiLoCo di Google DeepMind?

Decoupled DiLoCo divide il lavoro in 'isole' di calcolo indipendenti con dati asincroni, riducendo la larghezza di banda tra datacenter a 2-5 Gbps per un modello da 12 miliardi di parametri. Offre resilienza ai guasti hardware, permettendo all'addestramento di continuare anche dopo la perdita di intere unità e reintegrandole automaticamente. Ha addestrato un modello Gemma 4 con le stesse performance ML del training convenzionale, risultando oltre 20 volte più veloce dei metodi di sincronizzazione tradizionali.

Quali innovazioni di efficienza introduce DeepSeek V4?

DeepSeek V4 introduce meccanismi di attenzione compressa: Compressed Sparse Attention (CSA) comprime le entry KV di 4×, mentre Heavily Compressed Attention (HCA) comprime di 128×. La variante V4-Pro richiede solo il 27% dei FLOPs di inferenza e il 10% della memoria KV cache rispetto a V3.2. V4-Flash richiede solo il 10% dei FLOPs e il 7% della KV cache. Per un contesto di un milione di token, la cache si riduce da decine di GB a poche centinaia di MB.

Qual è il risultato dell'addestramento con Decoupled DiLoCo su hardware eterogeneo?

Decoupled DiLoCo può mescolare generazioni hardware diverse in una singola esecuzione, come TPU v6e e v5p. Chip di diverse generazioni che girano a velocità differenti hanno eguagliato le performance ML di training con un solo tipo di chip.

Editorials Pick's 2 days ago

L’addestramento dell’AI non ha più bisogno di una connessione superveloce

Q: Come cambia lo scenario per chi addestra modelli AI grazie a queste innovazioni?

La combinazione di Decoupled DiLoCo e DeepSeek V4 abbassa la barriera d'ingresso: non servono più cluster monolitici di GPU con fibre ottiche a bassissima latenza. Si possono mescolare hardware di generazioni diverse e sfruttare capacità di calcolo sparse geograficamente. Il training diventa asincrono, resiliente ai guasti (goodput invece di uptime), e i modelli possono continuare ad apprendere anche con metà del cluster offline.

Q: Quali sono le due innovazioni architetturali di DeepSeek V4 per la compressione dell'attenzione?

Le due innovazioni sono: Compressed Sparse Attention (CSA), che comprime le entry KV di 4× lungo la dimensione sequenziale usando pooling softmax-gated con bias posizionale appreso; e Heavily Compressed Attention (HCA), che comprime di 128× e abbandona la selezione sparsa.

Google DeepMind e DeepSeek riducono drasticamente requisiti di banda e memoria per il training distribuito di modelli AI.

Due innovazioni su training distribuito e memoria riducono le barriere per l’addestramento AI

Un modello da 12 miliardi di parametri è stato addestrato attraverso quattro regioni degli Stati Uniti con una connessione di soli 2-5 Gbps di banda. Ventidue volte più veloce dei metodi tradizionali. Questo non è un test di laboratorio: è l’esemplificazione di come l’infrastruttura di training stia cambiando le regole del gioco, mentre l’attenzione pubblica resta fissata sui nuovi modelli AI, un’altra rivoluzione silenziosa avviene sotto il cofano.

La vera battaglia dell’AI non si combatte sulla qualità dei modelli, ma sull’infrastruttura che li addestra. Due sviluppi indipendenti, uno da Google DeepMind e l’altro da DeepSeek, stanno riducendo drasticamente i requisiti di memoria e larghezza di banda necessari per addestrare modelli di frontiera, rendendo possibile l’addestramento distribuito su hardware eterogeneo e datacenter distanti. Mentre NVIDIA e Google Cloud collaborano per l’AI agentica e fisica da oltre un decennio, la novità è che ora questi progressi sono accessibili a un numero molto maggiore di attori.

Training distribuito senza paura di guasti: Decoupled DiLoCo

Il punto di svolta è l’architettura Decoupled DiLoCo, presentata da Google DeepMind come metodo per addestrare modelli su larga scala attraverso datacenter distanti. A differenza del training sincrono classico, dove ogni gradiente deve essere scambiato tra tutti i nodi prima di avanzare, Decoupled DiLoCo divide il lavoro in ‘isole’ di calcolo indipendenti, con dati asincroni che fluiscono tra di esse. Il risultato è che i requisiti di banda crollano: DiLoCo riduce la larghezza di banda tra datacenter distribuiti di ordini di grandezza, passando da decine di Gbps a valori come 2-5 Gbps per un modello da 12 miliardi di parametri.

Ma il vero colpo di genio è la resilienza. Decoupled DiLoCo permette training asincrono tra unità di apprendimento separate così che un guasto a un chip in una zona non blocca le altre. Nei test, il team ha usato “chaos engineering” per introdurre guasti hardware artificiali: l’addestramento continuava dopo la perdita di intere unità e le reintegrava automaticamente quando tornavano online. In scenari con guasti crescenti, Decoupled DiLoCo mantiene un’alta ‘goodput‘ mentre altri metodi crollano.

La prova finale? Un modello Gemma 4 addestrato con Decoupled DiLoCo ha ottenuto le stesse performance ML del training convenzionale su tutti i benchmark, mentre la disponibilità dei cluster di apprendimento era superiore. Inoltre, il sistema ha raggiunto un training più di 20 volte più veloce rispetto ai metodi di sincronizzazione tradizionali. E non solo: Decoupled DiLoCo può mescolare generazioni hardware diverse in una singola esecuzione, come TPU v6e e v5p, e i chip di diverse generazioni che girano a velocità differenti hanno eguagliato le performance ML di training con un solo tipo di chip.

Memoria e banda ottimizzate: DeepSeek V4 e la compressione dell’attenzione

Dall’altra parte, DeepSeek ha compiuto un passo altrettanto radicale lato efficienza di inferenza e caching. La nuova famiglia V4 introduce meccanismi di attenzione compressa che riducono la memoria necessaria per il contesto lungo. DeepSeek-V4-Pro richiede solo il 27% dei FLOPs di inferenza per token rispetto a V3.2, ma il dato impressionante è sulla cache KV: V4-Pro usa il 10% della memoria KV cache rispetto al predecessore. Ancora più aggressiva è la variante V4-Flash, che richiede solo il 10% dei FLOPs e il 7% della KV cache.

Come ci riesce? Con due innovazioni architetturali: Compressed Sparse Attention (CSA), che comprime le entry KV di 4× lungo la dimensione sequenziale usando pooling softmax-gated con bias posizionale appreso; e Heavily Compressed Attention (HCA), che comprime di 128× e abbandona la selezione sparsa. Rispetto all’attenzione a query raggruppate con 8 teste in bfloat16, DeepSeek V4 richiede circa il 2% della dimensione della cache. Per un modello con contesto di un milione di token, la differenza è tra avere bisogno di decine di GB di VRAM e gestire il tutto con poche centinaia di MB.

Cosa cambia per chi costruisce lo stack AI

Mettendo insieme le due innovazioni, lo scenario per chi addestra modelli cambia radicalmente. Training distribuito su datacenter distanti con banda ridotta e senza paura di guasti hardware, combinato con modelli che consumano un decimo della memoria e dei FLOPs di inferenza, significa che la barriera d’ingresso si abbassa.

Non servono più cluster monolitici di GPU collegate da fibre ottiche a bassissima latenza: si possono mescolare hardware di generazioni diverse e sfruttare capacità di calcolo sparse geograficamente.

Per un developer che progetta un sistema di training, le implicazioni sono immediate: goodput invece di uptime, addestramento asincrono invece di sincrono, e un modello che può continuare a imparare anche quando metà del cluster va offline. La collaborazione decennale tra NVIDIA e Google Cloud ha creato il terreno fertile, ma sono queste architetture — Decoupled DiLoCo da una parte e i meccanismi di attenzione compressa di DeepSeek dall’altra — a definire la prossima generazione di sistemi AI.

Il futuro non è un modello più grande: è un addestramento più intelligente, distribuito e resiliente. E ora sappiamo come funziona sotto il cofano.

Scritto da Luca Verdi

Developer e tech writer. Spiega la tecnologia dal punto di vista tecnico senza perdere di vista l'accessibilità. Ex software engineer, ora si dedica al giornalismo tech.

Startup

Editorials Pick's

Amazon

Apple

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

L’addestramento dell’AI non ha più bisogno di una connessione superveloce

Due innovazioni su training distribuito e memoria riducono le barriere per l’addestramento AI

Training distribuito senza paura di guasti: Decoupled DiLoCo

Memoria e banda ottimizzate: DeepSeek V4 e la compressione dell’attenzione

Cosa cambia per chi costruisce lo stack AI

Due innovazioni su training distribuito e memoria riducono le barriere per l’addestramento AI

Training distribuito senza paura di guasti: Decoupled DiLoCo

Memoria e banda ottimizzate: DeepSeek V4 e la compressione dell’attenzione

Cosa cambia per chi costruisce lo stack AI

Articoli correlati

I maintainer non riescono più a gestire le pull request

DeepSeek e OpenAI hanno tagliato i prezzi dell’AI

Il Paradosso dell’Ottimizzazione: Come l’IA Sta Rendendo il Web Insipido