Qual è il significato dell'accordo multimiliardario tra OpenAI e Cerebras per l'acquisto di potenza di calcolo?

L'accordo segnala un potenziale cambio di paradigma architettonico nei datacenter, spostandosi dal monopolio GPU-centrico verso approcci come l'architettura Wafer-Scale Engine (WSE) di Cerebras, focalizzata sulla riduzione della latenza di comunicazione e sull'aumento della velocità di inferenza.

Qual è l'importanza dei modelli open-weight rilasciati da OpenAI, come gpt-oss-120B?

Il rilascio di modelli open-weight come gpt-oss-120B permette alla community di ottimizzare e utilizzare questi modelli. Tuttavia, l'efficienza di tali modelli è fortemente dipendente dall'hardware su cui vengono eseguiti. L'architettura WSE permette di far girare modelli di grandi dimensioni in modo più efficiente rispetto all'hardware convenzionale.

Perché OpenAI sta investendo nell'inferenza su larga scala con Cerebras?

OpenAI sta puntando su modelli che non solo siano più intelligenti, ma anche che rispondano istantaneamente. L'inferenza su larga scala con architetture come WSE permette di ottenere la velocità necessaria per applicazioni in tempo reale, come agenti vocali con conversazioni naturali e sistemi di ragionamento in millisecondi.

Quali sono i vantaggi e gli svantaggi di utilizzare hardware specializzato come i sistemi Cerebras?

I vantaggi includono la semplificazione dello stack software e la maggiore efficienza nell'inferenza. Lo svantaggio principale è il lock-in tecnologico, poiché il codice ottimizzato per l'hardware Cerebras è strettamente legato a tale architettura, limitando la portabilità su altri sistemi.

Cosa significa la distinzione tra 'Open Source' e 'Open Weights' nel contesto di OpenAI?

OpenAI rilascia i pesi dei modelli (Open Weights), ma non necessariamente il dataset di training completo o tutti i dettagli della ricetta di addestramento. Questo approccio permette alla community di utilizzare e ottimizzare il modello, ma mantiene il controllo sui dati e sui processi di addestramento.

Qual è l'impatto dell'architettura WSE sull'accessibilità all'IA ad alte prestazioni?

L'architettura WSE crea una disparità tra l'hardware consumer/prosumer e le infrastrutture di calcolo avanzate come quelle di OpenAI. Mentre i modelli possono essere 'aperti', la capacità di farli girare con le performance promesse è limitata a chi ha accesso a hardware specializzato come i sistemi Cerebras. Questo solleva interrogativi sulla democratizzazione dell'accesso all'IA ad alte prestazioni.

Intelligenza Artificiale 3 months ago

Openai e cerebras: la fine del dominio nvidia nell’inferenza dell’ai?

Q: Come funziona l'architettura Wafer-Scale Engine (WSE) di Cerebras?

Invece di tagliare i wafer di silicio in chip più piccoli e collegarli, Cerebras utilizza l'intero wafer come un singolo chip. Questo permette di mantenere i dati 'on-chip' con una larghezza di banda di memoria superiore, riducendo la latenza e il consumo energetico associati allo spostamento dei dati tra chip separati.

OpenAI cambia strategia: accordo multimiliardario con Cerebras per abbandonare il monopolio delle GPU e abbracciare un’architettura wafer-scale per l’inferenza su larga scala

Se c’è una cosa che la storia dell’informatica ci ha insegnato, è che il software finisce sempre per saturare l’hardware disponibile.

Ma quello che sta accadendo oggi nei datacenter di OpenAI non è semplicemente un aumento di capacità: è un cambio di paradigma architettonico.

La notizia che OpenAI ha concordato un accordo multimiliardario per l’acquisto di fino a 750 megawatt di potenza di calcolo da Cerebras nei prossimi tre anni è il segnale che l’era del monopolio GPU-centrico sta iniziando a mostrare le prime crepe strutturali. Non stiamo parlando di aggiungere qualche migliaio di schede H100 in un rack; stiamo parlando di adottare un approccio all’inferenza che, fino a pochi anni fa, sembrava fantascienza o un esercizio di stile accademico.

Per capire la portata di questa mossa, bisogna guardare sotto il cofano, dove i tecnici solitamente si sporcano le mani. L’approccio tradizionale – quello che ha reso NVIDIA un colosso da trilioni di dollari – prevede di stampare chip su un wafer di silicio, tagliarli in piccoli pezzi (i die), impacchettarli singolarmente e poi ricollegarli via cavo o su scheda madre.

È un metodo collaudato, che garantisce rese produttive alte, ma introduce un problema fisico invalicabile: la latenza di comunicazione.

Spostare dati da un chip all’altro è lento e costoso in termini energetici. Cerebras ha fatto l’impensabile: ha smesso di tagliare il wafer.

Il loro chip è l’intero wafer.

Questa architettura, definita Wafer-Scale Engine (WSE), permette di mantenere i dati “on-chip” con una larghezza di banda di memoria che fa impallidire qualsiasi cluster di GPU tradizionale. Per OpenAI, questo non è un dettaglio implementativo trascurabile.

Quando si devono servire modelli di ragionamento complessi a milioni di utenti in tempo reale, la velocità con cui la memoria alimenta i core di calcolo è l’unico collo di bottiglia che conta davvero. Ed è qui che la strategia di Sam Altman si intreccia con l’ingegneria estrema di Andrew Feldman.

L’inferenza come commodity istantanea

Il contesto di questo accordo è stato preparato con cura nell’agosto del 2025, quando OpenAI ha rilasciato i modelli open-weight gpt-oss-120B e gpt-oss-20B, una mossa che molti hanno letto come una risposta strategica a Llama di Meta.

Tuttavia, rilasciare un modello da 117 miliardi di parametri (anche se sparsificato con un’architettura Mixture-of-Experts) è inutile se nessuno può farlo girare in modo efficiente. Un modello del genere, su hardware convenzionale, è un pachiderma lento.

Su un’architettura wafer-scale, diventa un ghepardo.

I benchmark dell’epoca parlavano chiaro. Trevor Cai, Head of Infrastructure di OpenAI, aveva commentato così i risultati ottenuti sui sistemi Cerebras:

Insieme a Cerebras e Core42, stiamo rendendo il nostro modello aperto migliore e più utilizzabile disponibile a una velocità e su una scala senza precedenti.

— Trevor Cai, Head of Infrastructure presso OpenAI

La parola chiave qui è “utilizzabile”. Per un developer, “utilizzabile” significa bassa latenza. Significa che se integro un’API nella mia applicazione, l’utente non deve fissare una rotella che gira per tre secondi.

L’architettura WSE permette di tenere l’intero modello in memoria statica (SRAM) direttamente sul wafer, eliminando i tempi morti di accesso alla memoria esterna (HBM) che affliggono le GPU classiche.

Questo spiega la natura dell’accordo da 750MW. Non si tratta di training – per il quale le GPU NVIDIA e la loro libreria CUDA restano insuperabili per flessibilità e supporto software – ma di inferenza su scala massiva.

OpenAI sta scommettendo che il futuro non sia solo modelli più intelligenti, ma modelli che rispondono istantaneamente. Se vogliamo agenti vocali che conversano senza pause innaturali, o sistemi che ragionano su passaggi multipli in millisecondi, l’hardware deve cambiare.

La fine del “cluster” come lo conosciamo?

C’è un aspetto di eleganza tecnica in questa soluzione che va sottolineato, ma anche una criticità che non possiamo ignorare.

Gestire un cluster di migliaia di GPU è un incubo logistico e software: bisogna parallelizzare il carico, gestire i fallimenti dei nodi, sincronizzare gli stati. Un sistema Cerebras, pur essendo fisicamente imponente, si presenta al software quasi come un singolo, gigantesco acceleratore. Questo semplifica drasticamente lo stack software necessario per il deployment.

Tuttavia, legarsi a un hardware così specializzato comporta dei rischi.

Il lock-in tecnologico è evidente.

Mentre il codice CUDA può essere (con fatica) portato su AMD tramite layer come ROCm o su altre architetture, il codice ottimizzato per il dataflow di un wafer Cerebras è strettamente accoppiato a quell’hardware. OpenAI sta diversificando i fornitori per non essere ostaggio di Jensen Huang (CEO di NVIDIA), ma sta entrando in un nuovo giardino recintato.

Andrew Feldman, CEO di Cerebras, ha ovviamente tutto l’interesse a spingere questa narrazione di “democratizzazione” della potenza di calcolo attraverso l’efficienza:

L’ultimo capitolo della nostra partnership strategica in corso con Core42 offre ora i modelli open-weight più capaci al mondo direttamente nelle mani di imprese, ricercatori e governi in Medio Oriente e in tutto il mondo per applicazioni in tempo reale capaci di ragionamento.

— Andrew Feldman, CEO e co-fondatore di Cerebras

Feldman tocca un punto cruciale: le “applicazioni in tempo reale”. Fino ad oggi, l’IA generativa è stata prevalentemente asincrona o quasi. Chiedi, aspetti, ricevi.

Con throughput che superano il lancio del modello gpt-oss-120B a una velocità di 3.000 token al secondo, entriamo in un territorio dove l’IA può generare testo più velocemente di quanto un essere umano possa leggere, o addirittura processare, aprendo la strada a interfacce macchina-macchina ad alta frequenza.

Open Source o Open Weights? L’illusione della trasparenza

Bisogna essere onesti anche sulla natura “Open” di questa operazione. OpenAI ha rilasciato i pesi (weights) di gpt-oss-120B, ma non il dataset di training completo né tutti i dettagli della ricetta di addestramento.

È quella che nel settore chiamiamo “open-washing”: si dà alla community il prodotto finito per sfruttare l’ecosistema di ottimizzazione globale, ma si tiene chiusa la cucina.

L’accordo con Cerebras rafforza questa dinamica. Se il modello è “aperto”, ma per girare con le performance promesse richiede un hardware che solo pochi data center al mondo possiedono (e che ora OpenAI ha prenotato per tre anni), quanto è accessibile davvero questa tecnologia?

La democratizzazione del codice è inutile senza la democratizzazione del silicio.

Tecnicamente, il modello gpt-oss-120B utilizza un’architettura Mixture-of-Experts (MoE) con circa 5 miliardi di parametri attivi per token su un totale di 117 miliardi. Questa sparsità è perfetta per l’hardware di Cerebras, che può attivare solo le parti del circuito necessarie, risparmiando energia.

Ma per l’utente comune con una RTX 4090 a casa, o anche per una piccola azienda con un server locale, replicare queste performance è fisicamente impossibile.

Siamo di fronte a una biforcazione dell’ecosistema.

Da una parte, l’hardware consumer e prosumer che arranca per far girare modelli quantizzati a 4-bit; dall’altra, le cattedrali del calcolo come quella che OpenAI e Cerebras stanno costruendo, dove l’IA scorre liquida e istantanea.

La domanda che rimane sospesa tra i rack dei server non è se questa tecnologia funzionerà – i 750MW dicono che funzionerà eccome – ma se stiamo costruendo un futuro in cui l’intelligenza artificiale ad alte prestazioni sarà una commodity elettrica accessibile a tutti, o un lusso riservato a chi ha le chiavi del wafer.

Scritto da Luca Verdi

Developer e tech writer. Spiega la tecnologia dal punto di vista tecnico senza perdere di vista l'accessibilità. Ex software engineer, ora si dedica al giornalismo tech.

Startup

Editorials Pick's

Amazon

Apple

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

Openai e cerebras: la fine del dominio nvidia nell’inferenza dell’ai?

OpenAI cambia strategia: accordo multimiliardario con Cerebras per abbandonare il monopolio delle GPU e abbracciare un’architettura wafer-scale per l’inferenza su larga scala

L’inferenza come commodity istantanea

La fine del “cluster” come lo conosciamo?

Open Source o Open Weights? L’illusione della trasparenza

OpenAI cambia strategia: accordo multimiliardario con Cerebras per abbandonare il monopolio delle GPU e abbracciare un’architettura wafer-scale per l’inferenza su larga scala

L’inferenza come commodity istantanea

La fine del “cluster” come lo conosciamo?

Open Source o Open Weights? L’illusione della trasparenza

Articoli correlati

Rembrand e Spaceback: l’AI trasforma i social in performance advertising per CTV

Brandlight: 30M per il controllo narrativo AI dei brand su ogni chatbot.

GPT-5.4: OpenAI consegna il primo modello IA che impara a usare il tuo computer