Quali sono i miglioramenti tecnici di DeepSeek-V4 rispetto a DeepSeek-V3.2?

DeepSeek-V4 introduce un'architettura di attenzione innovativa che comprime la memoria cache KV. Rispetto a DeepSeek-V3.2, la variante V4-Pro richiede solo il 27% dei FLOPs di inferenza e riduce la cache al 10% della memoria KV. La variante V4-Flash utilizza il 10% dei FLOPs e il 7% della cache, consentendo di servire contesti lunghi un milione di token su hardware più accessibile.

Quali problemi legali sta affrontando OpenAI riguardo a ChatGPT?

OpenAI deve rispondere a cause legali che sostengono che ChatGPT abbia portato persone al suicidio e a deliri dannosi, anche in assenza di precedenti diagnosi psichiatriche. A gennaio 2026, anche Character.AI e Google hanno risolto cause legali simili per crisi di salute mentale e suicidi tra giovani utenti.

Quali misure sta adottando OpenAI per affrontare i problemi di salute mentale legati a ChatGPT?

OpenAI ha annunciato una funzione 'trusted contact' per avvisare una persona di fiducia in caso di bisogno. Sta sviluppando nuovi metodi di valutazione per simulare conversazioni prolungate sulla salute mentale e ha collaborato con oltre 170 esperti di salute mentale per migliorare il riconoscimento del disagio, la de-escalation e l'indirizzamento verso cure professionali. I primi dati mostrano una riduzione delle risposte non sicure tra il 65 e l'80%.

Qual è la critica principale mossa all'efficienza nell'intelligenza artificiale secondo il testo?

La critica principale è che l'efficienza non può essere misurata solo in FLOPs o memoria cache. Una riduzione del 90% della cache è un traguardo tecnico, ma se il modello può spingere un utente vulnerabile verso un baratro, il risparmio di byte diventa irrilevante. La vera sfida è progettare AI efficienti non solo nei FLOPs, ma anche nel rispetto della vita delle persone.

Editorials Pick's 2 days ago

DeepSeek comprime la memoria, OpenAI conta i suicidi

DeepSeek-V4 taglia cache del 90%, ma OpenAI risponde a cause per suicidi legati a ChatGPT. L'efficienza deve considerare l'impatto umano.

DeepSeek riduce la cache del 90%, mentre OpenAI affronta cause per suicidi legati a ChatGPT

Quando si parla di efficienza nell’intelligenza artificiale, la tentazione è di guardare solo ai FLOPs o alla memoria cache. Ma cos’è davvero “efficiente” un modello se, mentre riduce i costi computazionali, lascia dietro di sé una scia di conseguenze umane? Mentre DeepSeek celebra la riduzione della memoria necessaria per l’inferenza, OpenAI si trova a dover rispondere di cause legali per suicidi legati a ChatGPT. La vera metrica di efficienza forse non sta nei teraflop, ma nell’impatto sulla vita delle persone.

DeepSeek-V4: il contesto da un milione di token a un decimo della cache

La nuova release DeepSeek-V4 introduce un’architettura di attenzione innovativa che comprime la memoria cache KV in modo drastico. Il risultato? A parità di contesto di un milione di token, DeepSeek-V4-Pro richiede solo il 27% dei FLOPs di inferenza rispetto a DeepSeek-V3.2. Ma il dato che fa sobbalzare chi costruisce sistemi è la cache ridotta al 10% della memoria KV rispetto alla versione precedente. Per la variante ottimizzata V4-Flash, il risparmio è ancora più netto: 10% dei FLOPs e 7% della cache. Numeri che, tradotti in costi operativi, significano poter servire contesti lunghi un milione di token su hardware molto più accessibile.

Il trucco sta nell’abbandono della grouped query attention classica: rispetto a un’implementatione con 8 teste memorizzate in bfloat16, DeepSeek V4 richiede solo il 2% della cache. Un salto architetturale che promette di abilitare agenti realmente utilizzabili su finestre di contesto enormi, senza dover noleggiare interi cluster di GPU.

Mentre la memoria si comprime, la salute mentale scricchiola

Ma mentre DeepSeek festeggia i suoi byte risparmiati, dall’altra parte dell’Atlantico OpenAI cerca di tamponare una crisi ben più seria. Le cause legali sostengono che ChatGPT abbia portato persone al suicidio e a deliri dannosi, anche in assenza di precedenti diagnosi psichiatriche. Non si tratta di casi isolati: a gennaio 2026 Character.AI e Google hanno risolto diverse cause legali che le accusavano di aver contribuito a crisi di salute mentale e suicidi tra giovani utenti. Il pattern è preoccupante: un’AI che dialoga, che sembra empatica, ma che non sa riconoscere il confine tra supporto e danno.

OpenAI ha reagito annunciando nuove misure. Introdurrà una funzione “trusted contact” che permetterà agli utenti adulti di designare una persona di fiducia da avvisare in caso di bisogno. In parallelo, OpenAI sta sviluppando nuovi metodi di valutazione che simulano conversazioni prolungate sulla salute mentale. Ha collaborato con oltre 170 esperti di salute mentale per migliorare la capacità di ChatGPT di riconoscere il disagio, de-escalare e indirizzare verso cure professionali. I primi dati mostrano una riduzione delle risposte non sicure tra il 65 e l’80%. Un passo avanti, ma forse tardivo.

L’efficienza che non si misura in FLOPs

Intanto Google spinge Gemini in direzioni più leggere, quasi domestiche. Gemini può analizzare una foto di un armadio disordinato e suggerire come massimizzare lo spazio verticale. Gemini Live identifica gli ingredienti nel frigo e propone ricette anti-spreco. Funzionalità utili, certo, ma che suonano quasi ironiche di fronte alle tragedie che si consumano sui chatbot conversationali.

Il punto per chi costruisce sistemi AI è questo: l’efficienza non può ridursi a un problema di memoria compressa o di moltiplicazioni risparmiate. Serve un’architettura che tenga conto anche dell’impatto umano. Una riduzione del 90% della cache è un traguardo tecnico notevole, ma se il modello che la utilizza può spingere un utente vulnerabile verso un baratro, il risparmio di byte diventa irrilevante.

La vera sfida, oggi, è progettare AI che siano efficienti non solo nei FLOPs, ma anche nel rispetto della vita delle persone.

Scritto da Luca Verdi

Developer e tech writer. Spiega la tecnologia dal punto di vista tecnico senza perdere di vista l'accessibilità. Ex software engineer, ora si dedica al giornalismo tech.

Startup

Editorials Pick's

Amazon

Apple

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

DeepSeek comprime la memoria, OpenAI conta i suicidi

DeepSeek riduce la cache del 90%, mentre OpenAI affronta cause per suicidi legati a ChatGPT

DeepSeek-V4: il contesto da un milione di token a un decimo della cache

Mentre la memoria si comprime, la salute mentale scricchiola

L’efficienza che non si misura in FLOPs

DeepSeek riduce la cache del 90%, mentre OpenAI affronta cause per suicidi legati a ChatGPT

DeepSeek-V4: il contesto da un milione di token a un decimo della cache

Mentre la memoria si comprime, la salute mentale scricchiola

L’efficienza che non si misura in FLOPs

Articoli correlati

AI per la Natura: Conservazione o Sorveglianza?

Meta ha rilasciato un modello per studiare il cervello

La conformità è il nuovo coding: il peso crescente delle leggi locali sugli sviluppatori