Qual è il problema descritto nell'articolo riguardo le pull request?

La frustrazione di chiudere una pull request alle sei di sera e scoprire l'indomani che la CI ha impiegato quattro ore per dare il responso.

Quali sono le caratteristiche delle istanze AWS G7?

Sono spinte dalle GPU NVIDIA RTX PRO 4500 Blackwell e promettono fino a 4.6x le prestazioni di inferenza rispetto alla generazione precedente.

Cos'è il chip Jalapeño di OpenAI?

È il primo processore ottimizzato per l'inferenza dei grandi modelli linguistici progettato da OpenAI, un ASIC su misura con architettura pensata per servire token velocemente con minore energia.

Come ha fatto OpenAI a sviluppare Jalapeño così rapidamente?

Ha usato i propri modelli per accelerare il design del chip, chiudendo un cerchio in cui l'AI progetta l'hardware su cui girerà la prossima generazione di AI.

Quali prestazioni mostra Jalapeño nei test?

Le prestazioni per watt surclassano lo stato dell'arte attuale, e i campioni ingegneristici eseguono già GPT-5.3-Codex-Spark, un carico di lavoro ML reale.

Perché OpenAI ha sviluppato un chip custom?

Per non dipendere più da NVIDIA per servire i propri modelli, data l'esigenza concreta di gestire il 99.8% dei token di output settimanali generati da Codex e turni agentici fino a 60 ore al giorno.

Quali sono i tre strati della battaglia per l'inferenza descritti?

L'hardware custom per chi costruisce modelli (Jalapeño), il cloud per chi li affitta (AWS G7), e l'on-premise per chi vuole tenersi tutto in casa (workstation come GB10).

Cosa si prevede per i prossimi sei mesi secondo l'articolo?

Se Jalapeño manterrà le promesse, altri laboratori inizieranno a progettare silicio su misura, i tempi di sviluppo si accorceranno e la dipendenza dall'hardware di terze parti diventerà un lusso che nessuno può più permettersi.

Editorials Pick's 2 hours ago

OpenAI ha progettato un chip in nove mesi

Q: Cosa ha fatto Onur Solmaz per risolvere il problema della latenza?

Ha messo in piedi un triage automatico delle PR con modelli locali su un NVIDIA GB10 con 128 GB di memoria unificata, senza chiamate API, latenza di rete o costi a consumo.

Q: Quanto tempo ha impiegato OpenAI per progettare e mandare in produzione il chip Jalapeño?

Nove mesi, il ciclo di sviluppo ASIC più veloce mai registrato nei semiconduttori avanzati.

OpenAI ha progettato il chip Jalapeño in nove mesi, un ASIC per l'inferenza AI che supera le GPU in efficienza.

L’hardware su misura per l’inferenza sta cambiando le regole del gioco

Avete presente la frustrazione di chiudere una pull request alle sei di sera e tornare l’indomani mattina scoprendo che la CI ha impiegato quattro ore a darvi il responso? Onur Solmaz no. Lui ha messo in piedi un triage automatico delle PR con modelli locali su un NVIDIA GB10 con 128 GB di memoria unificata. Niente chiamate API, niente latenza di rete, niente costi a consumo: tutto gira in casa, su una workstation che sta sotto la scrivania.

È un dettaglio che sembra da smanettoni, e invece è la prima increspatura di un terremoto. Perché mentre Onur smanetta nel suo ufficio, i grandi fornitori cloud stanno ridisegnando l’offerta attorno a un’idea scomoda: l’inferenza si sta spostando dove serve, e non sempre quel posto è un datacenter altrui.

AWS ha appena acceso le sue istanze G7, frutto della collaborazione NVIDIA-AWS per l’AI in produzione. Queste macchine, spinte dalle GPU NVIDIA RTX PRO 4500 Blackwell, promettono fino a 4.6x le prestazioni di inferenza rispetto alla generazione precedente. Numeri che fanno gola a qualunque azienda stia spostando i propri carichi di lavoro agentici su infrastrutture sempre più affamate di calcolo.

Ma sotto il pelo dell’acqua si muove un’altra corrente

Mentre NVIDIA moltiplicava i core delle sue Blackwell, OpenAI faceva una mossa che fino a ieri sarebbe sembrata fantascienza. Il 24 giugno 2026, insieme a Broadcom, ha tolto il velo al chip Jalapeño, il primo processore ottimizzato per l’inferenza dei grandi modelli linguistici progettato direttamente da chi quei modelli li costruisce. Non una scheda con GPU di terze parti. Un ASIC fatto su misura, con un’architettura pensata per una sola ragione: servire token il più velocemente possibile spendendo meno energia.

La notizia che fa sobbalzare è un’altra: è stato progettato e mandato in produzione in un. Nove mesi. OpenAI ha impiegato più tempo a rilasciare GPT-5 che a progettare un chip da zero. Non è un paradosso: è il segnale che l’accelerazione non riguarda più solo il software, ma sta entrando con prepotenza nell’hardware.

Nove mesi. Il tempo di una gravidanza

Pensateci: stiamo parlando del ciclo di sviluppo ASIC più veloce mai registrato nei semiconduttori avanzati. Per riuscirci, OpenAI ha usato i propri modelli per accelerare il design del chip Jalapeño, chiudendo un cerchio che sa di fantascienza: l’AI che progetta l’hardware su cui girerà la prossima generazione di AI.

I primi test parlano chiaro: le prestazioni per watt di Jalapeño surclassano lo stato dell’arte attuale. E i campioni ingegneristici di Jalapeño stanno già eseguendo in laboratorio GPT-5.3-Codex-Spark, un carico di lavoro ML reale, non un benchmark sintetico.

Il messaggio è limpido: OpenAI non vuole più dipendere da NVIDIA per servire i propri modelli. E se OpenAI fa questa mossa, quanto ci metteranno gli altri a seguirla?

E gli agenti? Loro sono già qui, e hanno fame di calcolo

Il punto è che dietro Jalapeño non c’è solo un capriccio industriale. C’è un’esigenza concreta, misurabile, che sta esplodendo in queste settimane. Codex da solo rappresenta il 99.8% dei token di output settimanali generati in OpenAI, un dato che racconta la trasformazione del lavoro con gli agenti. Non stiamo più parlando di chatbot con cui chiacchierare: parliamo di turni di lavoro ininterrotti, affidati a modelli che scrivono codice, revisionano, rispondono a ticket. Gli utenti al 99° percentile spingono fino a 60 ore di turni agentici al giorno. Ogni giorno.

Servire questa mole di calcolo con hardware generico è come voler svuotare una piscina con un bicchiere di carta. Jalapeño, le Blackwell su AWS, le workstation come il GB10 di Onur: non sono tre prodotti in competizione. Sono tre strati della stessa battaglia. L’hardware custom per chi costruisce modelli. Il cloud per chi li affitta. L’on-premise per chi vuole tenersi tutto in casa.

Il futuro degli agenti non si deciderà sulla qualità del prompt engineering. Si deciderà su chi riuscirà a servire più token al costo più basso.

Tenete d’occhio i prossimi sei mesi. Se Jalapeño manterrà le promesse, assisteremo a una reazione a catena: altri laboratori inizieranno a progettare silicio su misura, i tempi di sviluppo si accorceranno ulteriormente, e la dipendenza dall’hardware di terze parti diventerà un lusso che nessuno può più permettersi. Nel frattempo, la domanda di calcolo per agenti non farà che salire. E noi, in fondo, vorremo solo aprire il nostro editor di codice e scoprire che la pull request è già stata revisionata mentre dormivamo.

Scritto da Marco Rossi

Giornalista tech con 10 anni di esperienza nel settore. Appassionato di innovazione e early adopter incallito. Ama raccontare come la tecnologia cambia la vita quotidiana delle persone.

Startup

Editorials Pick's

Amazon

Apple

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

OpenAI ha progettato un chip in nove mesi

L’hardware su misura per l’inferenza sta cambiando le regole del gioco

Ma sotto il pelo dell’acqua si muove un’altra corrente

Nove mesi. Il tempo di una gravidanza

E gli agenti? Loro sono già qui, e hanno fame di calcolo

L’hardware su misura per l’inferenza sta cambiando le regole del gioco

Ma sotto il pelo dell’acqua si muove un’altra corrente

Nove mesi. Il tempo di una gravidanza

E gli agenti? Loro sono già qui, e hanno fame di calcolo

Articoli correlati

I modelli AI nascondono la loro vera potenza

Gli agenti IA hanno imparato a manipolare

L’addestramento degli agenti AI ha un costo nascosto