Openai e cerebras: la fine del dominio nvidia nell'inferenza dell'ai?

Openai e cerebras: la fine del dominio nvidia nell’inferenza dell’ai?

OpenAI cambia strategia: accordo multimiliardario con Cerebras per abbandonare il monopolio delle GPU e abbracciare un’architettura wafer-scale per l’inferenza su larga scala

Se c’è una cosa che la storia dell’informatica ci ha insegnato, è che il software finisce sempre per saturare l’hardware disponibile.

Ma quello che sta accadendo oggi nei datacenter di OpenAI non è semplicemente un aumento di capacità: è un cambio di paradigma architettonico.

La notizia che OpenAI ha concordato un accordo multimiliardario per l’acquisto di fino a 750 megawatt di potenza di calcolo da Cerebras nei prossimi tre anni è il segnale che l’era del monopolio GPU-centrico sta iniziando a mostrare le prime crepe strutturali. Non stiamo parlando di aggiungere qualche migliaio di schede H100 in un rack; stiamo parlando di adottare un approccio all’inferenza che, fino a pochi anni fa, sembrava fantascienza o un esercizio di stile accademico.

Per capire la portata di questa mossa, bisogna guardare sotto il cofano, dove i tecnici solitamente si sporcano le mani. L’approccio tradizionale – quello che ha reso NVIDIA un colosso da trilioni di dollari – prevede di stampare chip su un wafer di silicio, tagliarli in piccoli pezzi (i die), impacchettarli singolarmente e poi ricollegarli via cavo o su scheda madre.

È un metodo collaudato, che garantisce rese produttive alte, ma introduce un problema fisico invalicabile: la latenza di comunicazione.

Spostare dati da un chip all’altro è lento e costoso in termini energetici. Cerebras ha fatto l’impensabile: ha smesso di tagliare il wafer.

Il loro chip è l’intero wafer.

Questa architettura, definita Wafer-Scale Engine (WSE), permette di mantenere i dati “on-chip” con una larghezza di banda di memoria che fa impallidire qualsiasi cluster di GPU tradizionale. Per OpenAI, questo non è un dettaglio implementativo trascurabile.

Quando si devono servire modelli di ragionamento complessi a milioni di utenti in tempo reale, la velocità con cui la memoria alimenta i core di calcolo è l’unico collo di bottiglia che conta davvero. Ed è qui che la strategia di Sam Altman si intreccia con l’ingegneria estrema di Andrew Feldman.

L’inferenza come commodity istantanea

Il contesto di questo accordo è stato preparato con cura nell’agosto del 2025, quando OpenAI ha rilasciato i modelli open-weight gpt-oss-120B e gpt-oss-20B, una mossa che molti hanno letto come una risposta strategica a Llama di Meta.

Tuttavia, rilasciare un modello da 117 miliardi di parametri (anche se sparsificato con un’architettura Mixture-of-Experts) è inutile se nessuno può farlo girare in modo efficiente. Un modello del genere, su hardware convenzionale, è un pachiderma lento.

Su un’architettura wafer-scale, diventa un ghepardo.

I benchmark dell’epoca parlavano chiaro. Trevor Cai, Head of Infrastructure di OpenAI, aveva commentato così i risultati ottenuti sui sistemi Cerebras:

Insieme a Cerebras e Core42, stiamo rendendo il nostro modello aperto migliore e più utilizzabile disponibile a una velocità e su una scala senza precedenti.

— Trevor Cai, Head of Infrastructure presso OpenAI

La parola chiave qui è “utilizzabile”. Per un developer, “utilizzabile” significa bassa latenza. Significa che se integro un’API nella mia applicazione, l’utente non deve fissare una rotella che gira per tre secondi.

L’architettura WSE permette di tenere l’intero modello in memoria statica (SRAM) direttamente sul wafer, eliminando i tempi morti di accesso alla memoria esterna (HBM) che affliggono le GPU classiche.

Questo spiega la natura dell’accordo da 750MW. Non si tratta di training – per il quale le GPU NVIDIA e la loro libreria CUDA restano insuperabili per flessibilità e supporto software – ma di inferenza su scala massiva.

OpenAI sta scommettendo che il futuro non sia solo modelli più intelligenti, ma modelli che rispondono istantaneamente. Se vogliamo agenti vocali che conversano senza pause innaturali, o sistemi che ragionano su passaggi multipli in millisecondi, l’hardware deve cambiare.

La fine del “cluster” come lo conosciamo?

C’è un aspetto di eleganza tecnica in questa soluzione che va sottolineato, ma anche una criticità che non possiamo ignorare.

Gestire un cluster di migliaia di GPU è un incubo logistico e software: bisogna parallelizzare il carico, gestire i fallimenti dei nodi, sincronizzare gli stati. Un sistema Cerebras, pur essendo fisicamente imponente, si presenta al software quasi come un singolo, gigantesco acceleratore. Questo semplifica drasticamente lo stack software necessario per il deployment.

Tuttavia, legarsi a un hardware così specializzato comporta dei rischi.

Il lock-in tecnologico è evidente.

Mentre il codice CUDA può essere (con fatica) portato su AMD tramite layer come ROCm o su altre architetture, il codice ottimizzato per il dataflow di un wafer Cerebras è strettamente accoppiato a quell’hardware. OpenAI sta diversificando i fornitori per non essere ostaggio di Jensen Huang (CEO di NVIDIA), ma sta entrando in un nuovo giardino recintato.

Andrew Feldman, CEO di Cerebras, ha ovviamente tutto l’interesse a spingere questa narrazione di “democratizzazione” della potenza di calcolo attraverso l’efficienza:

L’ultimo capitolo della nostra partnership strategica in corso con Core42 offre ora i modelli open-weight più capaci al mondo direttamente nelle mani di imprese, ricercatori e governi in Medio Oriente e in tutto il mondo per applicazioni in tempo reale capaci di ragionamento.

— Andrew Feldman, CEO e co-fondatore di Cerebras

Feldman tocca un punto cruciale: le “applicazioni in tempo reale”. Fino ad oggi, l’IA generativa è stata prevalentemente asincrona o quasi. Chiedi, aspetti, ricevi.

Con throughput che superano il lancio del modello gpt-oss-120B a una velocità di 3.000 token al secondo, entriamo in un territorio dove l’IA può generare testo più velocemente di quanto un essere umano possa leggere, o addirittura processare, aprendo la strada a interfacce macchina-macchina ad alta frequenza.

Open Source o Open Weights? L’illusione della trasparenza

Bisogna essere onesti anche sulla natura “Open” di questa operazione. OpenAI ha rilasciato i pesi (weights) di gpt-oss-120B, ma non il dataset di training completo né tutti i dettagli della ricetta di addestramento.

È quella che nel settore chiamiamo “open-washing”: si dà alla community il prodotto finito per sfruttare l’ecosistema di ottimizzazione globale, ma si tiene chiusa la cucina.

L’accordo con Cerebras rafforza questa dinamica. Se il modello è “aperto”, ma per girare con le performance promesse richiede un hardware che solo pochi data center al mondo possiedono (e che ora OpenAI ha prenotato per tre anni), quanto è accessibile davvero questa tecnologia?

La democratizzazione del codice è inutile senza la democratizzazione del silicio.

Tecnicamente, il modello gpt-oss-120B utilizza un’architettura Mixture-of-Experts (MoE) con circa 5 miliardi di parametri attivi per token su un totale di 117 miliardi. Questa sparsità è perfetta per l’hardware di Cerebras, che può attivare solo le parti del circuito necessarie, risparmiando energia.

Ma per l’utente comune con una RTX 4090 a casa, o anche per una piccola azienda con un server locale, replicare queste performance è fisicamente impossibile.

Siamo di fronte a una biforcazione dell’ecosistema.

Da una parte, l’hardware consumer e prosumer che arranca per far girare modelli quantizzati a 4-bit; dall’altra, le cattedrali del calcolo come quella che OpenAI e Cerebras stanno costruendo, dove l’IA scorre liquida e istantanea.

La domanda che rimane sospesa tra i rack dei server non è se questa tecnologia funzionerà – i 750MW dicono che funzionerà eccome – ma se stiamo costruendo un futuro in cui l’intelligenza artificiale ad alte prestazioni sarà una commodity elettrica accessibile a tutti, o un lusso riservato a chi ha le chiavi del wafer.

Facebook X Network Pinterest Instagram
🍪 Impostazioni Cookie