DeepSeek comprime la memoria, OpenAI conta i suicidi
DeepSeek-V4 taglia cache del 90%, ma OpenAI risponde a cause per suicidi legati a ChatGPT. L'efficienza deve considerare l'impatto umano.
DeepSeek riduce la cache del 90%, mentre OpenAI affronta cause per suicidi legati a ChatGPT
Quando si parla di efficienza nell’intelligenza artificiale, la tentazione è di guardare solo ai FLOPs o alla memoria cache. Ma cos’è davvero “efficiente” un modello se, mentre riduce i costi computazionali, lascia dietro di sé una scia di conseguenze umane? Mentre DeepSeek celebra la riduzione della memoria necessaria per l’inferenza, OpenAI si trova a dover rispondere di cause legali per suicidi legati a ChatGPT. La vera metrica di efficienza forse non sta nei teraflop, ma nell’impatto sulla vita delle persone.
DeepSeek-V4: il contesto da un milione di token a un decimo della cache
La nuova release DeepSeek-V4 introduce un’architettura di attenzione innovativa che comprime la memoria cache KV in modo drastico. Il risultato? A parità di contesto di un milione di token, DeepSeek-V4-Pro richiede solo il 27% dei FLOPs di inferenza rispetto a DeepSeek-V3.2. Ma il dato che fa sobbalzare chi costruisce sistemi è la cache ridotta al 10% della memoria KV rispetto alla versione precedente. Per la variante ottimizzata V4-Flash, il risparmio è ancora più netto: 10% dei FLOPs e 7% della cache. Numeri che, tradotti in costi operativi, significano poter servire contesti lunghi un milione di token su hardware molto più accessibile.
Il trucco sta nell’abbandono della grouped query attention classica: rispetto a un’implementatione con 8 teste memorizzate in bfloat16, DeepSeek V4 richiede solo il 2% della cache. Un salto architetturale che promette di abilitare agenti realmente utilizzabili su finestre di contesto enormi, senza dover noleggiare interi cluster di GPU.
Mentre la memoria si comprime, la salute mentale scricchiola
Ma mentre DeepSeek festeggia i suoi byte risparmiati, dall’altra parte dell’Atlantico OpenAI cerca di tamponare una crisi ben più seria. Le cause legali sostengono che ChatGPT abbia portato persone al suicidio e a deliri dannosi, anche in assenza di precedenti diagnosi psichiatriche. Non si tratta di casi isolati: a gennaio 2026 Character.AI e Google hanno risolto diverse cause legali che le accusavano di aver contribuito a crisi di salute mentale e suicidi tra giovani utenti. Il pattern è preoccupante: un’AI che dialoga, che sembra empatica, ma che non sa riconoscere il confine tra supporto e danno.
OpenAI ha reagito annunciando nuove misure. Introdurrà una funzione “trusted contact” che permetterà agli utenti adulti di designare una persona di fiducia da avvisare in caso di bisogno. In parallelo, OpenAI sta sviluppando nuovi metodi di valutazione che simulano conversazioni prolungate sulla salute mentale. Ha collaborato con oltre 170 esperti di salute mentale per migliorare la capacità di ChatGPT di riconoscere il disagio, de-escalare e indirizzare verso cure professionali. I primi dati mostrano una riduzione delle risposte non sicure tra il 65 e l’80%. Un passo avanti, ma forse tardivo.
L’efficienza che non si misura in FLOPs
Intanto Google spinge Gemini in direzioni più leggere, quasi domestiche. Gemini può analizzare una foto di un armadio disordinato e suggerire come massimizzare lo spazio verticale. Gemini Live identifica gli ingredienti nel frigo e propone ricette anti-spreco. Funzionalità utili, certo, ma che suonano quasi ironiche di fronte alle tragedie che si consumano sui chatbot conversationali.
Il punto per chi costruisce sistemi AI è questo: l’efficienza non può ridursi a un problema di memoria compressa o di moltiplicazioni risparmiate. Serve un’architettura che tenga conto anche dell’impatto umano. Una riduzione del 90% della cache è un traguardo tecnico notevole, ma se il modello che la utilizza può spingere un utente vulnerabile verso un baratro, il risparmio di byte diventa irrilevante.
La vera sfida, oggi, è progettare AI che siano efficienti non solo nei FLOPs, ma anche nel rispetto della vita delle persone.