OpenAI ha progettato un chip in nove mesi

OpenAI ha progettato un chip in nove mesi

OpenAI ha progettato il chip Jalapeño in nove mesi, un ASIC per l'inferenza AI che supera le GPU in efficienza.

L’hardware su misura per l’inferenza sta cambiando le regole del gioco

Avete presente la frustrazione di chiudere una pull request alle sei di sera e tornare l’indomani mattina scoprendo che la CI ha impiegato quattro ore a darvi il responso? Onur Solmaz no. Lui ha messo in piedi un triage automatico delle PR con modelli locali su un NVIDIA GB10 con 128 GB di memoria unificata. Niente chiamate API, niente latenza di rete, niente costi a consumo: tutto gira in casa, su una workstation che sta sotto la scrivania.

È un dettaglio che sembra da smanettoni, e invece è la prima increspatura di un terremoto. Perché mentre Onur smanetta nel suo ufficio, i grandi fornitori cloud stanno ridisegnando l’offerta attorno a un’idea scomoda: l’inferenza si sta spostando dove serve, e non sempre quel posto è un datacenter altrui.

AWS ha appena acceso le sue istanze G7, frutto della collaborazione NVIDIA-AWS per l’AI in produzione. Queste macchine, spinte dalle GPU NVIDIA RTX PRO 4500 Blackwell, promettono fino a 4.6x le prestazioni di inferenza rispetto alla generazione precedente. Numeri che fanno gola a qualunque azienda stia spostando i propri carichi di lavoro agentici su infrastrutture sempre più affamate di calcolo.

Ma sotto il pelo dell’acqua si muove un’altra corrente

Mentre NVIDIA moltiplicava i core delle sue Blackwell, OpenAI faceva una mossa che fino a ieri sarebbe sembrata fantascienza. Il 24 giugno 2026, insieme a Broadcom, ha tolto il velo al chip Jalapeño, il primo processore ottimizzato per l’inferenza dei grandi modelli linguistici progettato direttamente da chi quei modelli li costruisce. Non una scheda con GPU di terze parti. Un ASIC fatto su misura, con un’architettura pensata per una sola ragione: servire token il più velocemente possibile spendendo meno energia.

La notizia che fa sobbalzare è un’altra: è stato progettato e mandato in produzione in un. Nove mesi. OpenAI ha impiegato più tempo a rilasciare GPT-5 che a progettare un chip da zero. Non è un paradosso: è il segnale che l’accelerazione non riguarda più solo il software, ma sta entrando con prepotenza nell’hardware.

Nove mesi. Il tempo di una gravidanza

Pensateci: stiamo parlando del ciclo di sviluppo ASIC più veloce mai registrato nei semiconduttori avanzati. Per riuscirci, OpenAI ha usato i propri modelli per accelerare il design del chip Jalapeño, chiudendo un cerchio che sa di fantascienza: l’AI che progetta l’hardware su cui girerà la prossima generazione di AI.

I primi test parlano chiaro: le prestazioni per watt di Jalapeño surclassano lo stato dell’arte attuale. E i campioni ingegneristici di Jalapeño stanno già eseguendo in laboratorio GPT-5.3-Codex-Spark, un carico di lavoro ML reale, non un benchmark sintetico.

Il messaggio è limpido: OpenAI non vuole più dipendere da NVIDIA per servire i propri modelli. E se OpenAI fa questa mossa, quanto ci metteranno gli altri a seguirla?

E gli agenti? Loro sono già qui, e hanno fame di calcolo

Il punto è che dietro Jalapeño non c’è solo un capriccio industriale. C’è un’esigenza concreta, misurabile, che sta esplodendo in queste settimane. Codex da solo rappresenta il 99.8% dei token di output settimanali generati in OpenAI, un dato che racconta la trasformazione del lavoro con gli agenti. Non stiamo più parlando di chatbot con cui chiacchierare: parliamo di turni di lavoro ininterrotti, affidati a modelli che scrivono codice, revisionano, rispondono a ticket. Gli utenti al 99° percentile spingono fino a 60 ore di turni agentici al giorno. Ogni giorno.

Servire questa mole di calcolo con hardware generico è come voler svuotare una piscina con un bicchiere di carta. Jalapeño, le Blackwell su AWS, le workstation come il GB10 di Onur: non sono tre prodotti in competizione. Sono tre strati della stessa battaglia. L’hardware custom per chi costruisce modelli. Il cloud per chi li affitta. L’on-premise per chi vuole tenersi tutto in casa.

Il futuro degli agenti non si deciderà sulla qualità del prompt engineering. Si deciderà su chi riuscirà a servire più token al costo più basso.

Tenete d’occhio i prossimi sei mesi. Se Jalapeño manterrà le promesse, assisteremo a una reazione a catena: altri laboratori inizieranno a progettare silicio su misura, i tempi di sviluppo si accorceranno ulteriormente, e la dipendenza dall’hardware di terze parti diventerà un lusso che nessuno può più permettersi. Nel frattempo, la domanda di calcolo per agenti non farà che salire. E noi, in fondo, vorremo solo aprire il nostro editor di codice e scoprire che la pull request è già stata revisionata mentre dormivamo.

🍪 Impostazioni Cookie