Quali sono i risultati di DeepSeek V4 nei benchmark?

DeepSeek V4 ottiene un punteggio SWE Verified di 80.6, vicino a Opus-4.6-Max (80.8) e Gemini-3.1-Pro (80.6). Su MCPAtlas Public arriva a 73.6, secondo solo a Opus-4.6-Max (73.8). Su Toolathlon segna 51.8, superando K2.6 (50.0), GLM-5.1 (40.7) e Gemini-3.1-Pro (48.8). Nel benchmark interno di R&D, V4-Pro-Max raggiunge il 67% di pass rate, contro il 47% di Sonnet 4.5 e il 70% di Opus 4.5.

Quali bug ha avuto Claude Code di Anthropic?

Il 4 marzo 2025, Anthropic ha abbassato il livello predefinito di 'reasoning effort' da alto a medio. Il 26 marzo 2025, un bug ha causato la cancellazione della cronologia del ragionamento a ogni turno, corretto il 10 aprile. Il 16 aprile, un'istruzione di sistema per ridurre la verbosità ha peggiorato la qualità del codice, rimossa il 20 aprile. Tutti risolti dalla versione v2.1.116 del 20 aprile.

Cosa ha accusato OpenAI ad Anthropic?

Il 9 aprile 2025, OpenAI ha inviato un memo agli investitori accusando Anthropic di essere bug che hanno rotto Claude Code sul fronte computazionale. OpenAI prevede di avere 30 gigawatt di potenza di calcolo entro il 2030, mentre Anthropic ne avrà solo 7-8 entro la fine del 2027.

Editorials Pick's 4 hours ago

DeepSeek ha superato i giganti dell’IA

Q: Perché DeepSeek V4 è considerato un'alternativa valida?

DeepSeek V4 è aperto, usabile, con una finestra di contesto da milioni di token. Dimostra che si può competere ai massimi livelli con un'architettura efficiente e trasparente, senza bisogno di enormi quantità di potenza di calcolo.

Q: Qual è la valutazione di Anthropic?

La valutazione di Anthropic è di 380 miliardi di dollari.

DeepSeek V4 ottiene punteggi record nei benchmark, superando i modelli di OpenAI e Anthropic con un'architettura efficiente e aperta.

DeepSeek V4 dimostra che l’efficienza architetturale può competere con la potenza bruta dei giganti

C’è una guerra in corso tra i due colossi dell’intelligenza artificiale, OpenAI e Anthropic. Si accusano a vicenda di essere ammissione dei bug sul fronte computazionale, si rinfacciano potenza di calcolo insufficiente. Ma mentre litigano, un terzo incomodo sta mettendo a segno risultati che i due giganti preferirebbero non vedere.

I numeri che OpenAI e Anthropic preferirebbero ignorare

DeepSeek V4 ha pubblicato benchmark che fanno a pezzi la logica dello “spendere miliardi per vincere”. Sul DeepSeek-V4, il modello ottiene un punteggio SWE Verified di 80.6, a un soffio da Opus-4.6-Max (80.8) e Gemini-3.1-Pro (80.6). Sull’MCPAtlas Public arriva a 73.6, secondo solo a Opus-4.6-Max (73.8). E su Toolathlon segna 51.8, superando K2.6 (50.0), GLM-5.1 (40.7) e Gemini-3.1-Pro (48.8).

Non è un colpo di fortuna. Nel benchmark interno di R&D, 30 task curati tra PyTorch, CUDA, Rust e C++, V4-Pro-Max raggiunge il 67% di pass rate, contro il 47% di Sonnet 4.5 e il 70% di Opus 4.5.

Questi numeri raccontano una storia scomoda: si può competere ai massimi livelli con un’architettura efficiente e trasparente. E senza bruciare GPT-5.5 su infrastruttura NVIDIA per oltre 10 gigawatt. DeepSeek V4 è aperto, usabile, e ha una finestra di contesto da milioni di token che gli agenti possono davvero sfruttare. Mentre OpenAI e Anthropic litigano su chi ha più GPU, DeepSeek dimostra che la potenza bruta non è l’unica strada.

Accuse e bug: la guerra dei giganti si gioca sui dettagli

Il 9 aprile 2025, OpenAI ha inviato un memo agli investitori in cui accusava Anthropic di essere bug che hanno rotto Claude Code sul fronte computazionale. Secondo il memo, OpenAI prevede di avere 30 gigawatt di potenza di calcolo entro il 2030, mentre Anthropic ne avrà solo 7-8 entro la fine del 2027. La valutazione di Anthropic è di 380 miliardi di dollari, ma la sostanza è che OpenAI punta a schiacciarla con la potenza. Peccato che, mentre si scambiano accuse, Anthropic abbia ammesso tre bug che hanno rotto Claude Code.

Il 4 marzo 2025, ha abbassato il livello predefinito di ‘reasoning effort’ da alto a medio. Il 26 marzo 2025, un bug ha causato la cancellazione della cronologia del ragionamento a ogni turno, invece che solo dopo un’ora di inattività. Corretto il 10 aprile. Il 16 aprile, un’istruzione di sistema per ridurre la verbosità ha peggiorato la qualità del codice. Rimossa il 20 aprile. Tutti risolti dalla versione v2.1.116 del 20 aprile secondo bug di Claude Code. Ma il danno era fatto: secondo segnalazioni su GitHub, Claude era regressione di Claude “al punto da non potersi fidare di lui per fare ingegneria complessa”. E Anthropic ha ammesso che gli utenti stavano bruciando i propri limiti mensili bruciati molto più velocemente del previsto.

È legittimo chiedersi: mentre OpenAI investe in gigawatt e Anthropic cerca di rattoppare bug, chi sta realmente facendo avanzare il settore? DeepSeek V4, con la sua architettura efficiente e trasparente, non ha bisogno di accusare nessuno. I numeri parlano da soli.

Chi vince quando i giganti litigano?

I regolatori europei dovrebbero guardare con attenzione a questa dinamica. Se OpenAI e Anthropic continueranno a competere sulla base della potenza di calcolo, il mercato si concentrerà ulteriormente, con barriere all’ingresso insormontabili per chiunque non abbia accesso a gigawatt di GPU. DeepSeek V4 dimostra che esiste un’alternativa: modelli aperti ed efficienti che competono senza inquinare l’ambiente con consumi energetici folli. Ma la domanda vera è: perché i due giganti spendono così tante energie a denigrarsi a vicenda, invece di guardare a chi sta costruendo qualcosa di realmente innovativo?

Forse perché sanno che il modello chiuso da miliardi di dollari non è più l’unica via. E se DeepSeek continuerà su questa strada, il prossimo a sentirsi “vincolato sul fronte computazionale” potrebbe essere proprio chi oggi accusa gli altri.

Scritto da Giulia Bianchi

Giornalista investigativa specializzata in privacy, sicurezza digitale e regolamentazione tech. Scettica per natura, crede nel giornalismo che fa domande scomode.

Startup

Editorials Pick's

Amazon

Apple

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

DeepSeek ha superato i giganti dell’IA

DeepSeek V4 dimostra che l’efficienza architetturale può competere con la potenza bruta dei giganti

I numeri che OpenAI e Anthropic preferirebbero ignorare

Accuse e bug: la guerra dei giganti si gioca sui dettagli

Chi vince quando i giganti litigano?

DeepSeek V4 dimostra che l’efficienza architetturale può competere con la potenza bruta dei giganti

I numeri che OpenAI e Anthropic preferirebbero ignorare

Accuse e bug: la guerra dei giganti si gioca sui dettagli

Chi vince quando i giganti litigano?

Articoli correlati

La licenza CC BY-NC blocca l’uso commerciale del modello.

IA a Chilometro Zero: Il Dialetto Emiratino Diventa il Banco di Prova per i Modelli Specializzati

Amazon ha reso Alexa un canale pubblicitario di default