DeepSeek ha azzerato il costo della memoria nei modelli AI

DeepSeek ha azzerato il costo della memoria nei modelli AI

DeepSeek V4 adotta attenzione ibrida e compressione della cache, offrendo prestazioni da leader con un decimo delle risorse hardware.

DeepSeek V4 usa il 10% della cache e il 27% dei FLOPs rispetto ai modelli tradizionali

Quando il settore punta tutto su modelli da trilioni di parametri, DeepSeek ha scommesso sull’architettura. Il nuovo V4 non è il solito modello più grande: è un esperimento di ingegneria efficiente che, grazie a meccanismi di attenzione ibridi (CSA e HCA) e a una compressione estrema della KV cache, promette prestazioni da leader con un decimo delle risorse. Il risultato? Una sfida diretta all’imperativo “più grande è meglio”.

Il trucco sotto il cofano: come DeepSeek azzera il costo del contesto lungo

La chiave è nella gestione della memoria di attenzione. I modelli tradizionali, quando elaborano un contesto di un milione di token, devono mantenere in memoria una quantità enorme di key-value cache. DeepSeek V4, invece, adotta una strategia di compressione radicale: il modello V4-Pro richiede solo il 27% dei FLOPs di inferenza rispetto a V3.2 per un singolo token, e impiega appena il 10% della memoria KV cache. La variante V4-Flash spinge ulteriormente la leva: 10% dei FLOPs e 7% della cache rispetto a V3.2. In numeri concreti, rispetto alla grouped query attention a 8 teste in bfloat16, DeepSeek V4 usa solo il 2% della cache equivalente.

Questo non è un ritocco: è un cambio di architettura che permette a un modello più piccolo di gestire milioni di token senza impennate di costo hardware.

Mentre DeepSeek taglia i consumi, il resto del mercato cresce in potenza lorda. GPT-5.5 ha raggiunto l’82,7% su Terminal-Bench 2.0 e l’84,9% su GDPval – numeri impressionanti. Ma per ottenerli serve infrastruttura massiccia: NVIDIA riferisce che il sistema GB200 NVL72 offre 35x lower cost per million tokens e 50x higher token output per megawatt rispetto alle generazioni precedenti. Un miglioramento notevole, che dice anche quanto fosse inefficiente lo stack di prima.

I benchmark che smontano il mito della scala

Sulla carta, i numeri di DeepSeek V4 sembrano da inseguitore. Su Terminal-Bench 2.0, V4-Pro-Max segna 67,9, superando GLM-5.1 e K2.6 ma restando dietro a GPT-5.4-xHigh (75,1) e Gemini-3.1-Pro (68,5). Tuttavia, su SWE Verified il modello si ferma a 80,6, a un punto da Opus-4.6-Max e alla pari con Gemini-3.1-Pro. Il dato che fa riflettere arriva dal benchmark interno di R&D: 30 task di coding in PyTorch, CUDA, Rust e C++. Qui V4-Pro-Max passa il 67% dei test, contro il 47% di Sonnet 4.5 e il 70% di Opus 4.5. Praticamente in parità con un modello molto più grande e costoso.

E Anthropic? Opus 4.7 mostra performance altalenanti: su SWE-bench Pro tocca il 64,3%, superando GPT-5.4 e Gemini, ma su SWE-bench Verified perde terreno rispetto a Gemini. Il quadro è chiaro: i colossi avanzano, ma i vantaggi in termini di efficienza energetica e di memoria stanno diventando il fattore discriminante per chi deve mettere in produzione questi modelli.

Cosa cambia per chi costruisce applicazioni reali

L’implicazione pratica è immediata. Se un modello come DeepSeek V4-Pro è in grado di competere con i vertici della classifica usando il 10% della cache e il 27% dei FLOPs, la scelta per un team che deve servire milioni di token diventa quasi obbligata: risparmio hardware, latenza ridotta, possibilità di eseguire inferenza su GPU meno costose. Il vantaggio non è solo economico: permette di allocare più risorse a passaggi successivi della pipeline (RAG, agenti multi-step) senza saturare il memory budget.

L’open source della metodologia – il paper tecnico di DeepSeek è pubblico – permette a chiunque di replicare e adattare l’architettura. Mentre OpenAI e Anthropic blindano i loro modelli, DeepSeek offre trasparenza su come ha compresso la cache. Per i team di ingegneria, questo significa poter combinare l’attenzione ibrida con tecniche di quantizzazione e pruning custom, spremendo ulteriore efficienza. La lezione è chiara: la prossima frontiera non sarà il modello più grande, ma quello che sa fare di più con meno.

🍪 Impostazioni Cookie