Qual è il problema principale che le istanze A5X di Google Cloud risolvono?

Il problema principale è il collo di bottiglia della comunicazione nei cluster tradizionali, dove oltre una certa soglia di GPU la sincronizzazione diventa più lenta del lavoro stesso, causando perdite di tempo e costi elevati.

Qual è la scala massima raggiungibile con le nuove istanze A5X?

Le istanze A5X permettono di scalare fino a 80.000 GPU NVIDIA Rubin in un singolo cluster in un unico sito, e fino a 960.000 GPU in configurazione multisito.

Quale tecnologia di interconnessione rende possibile questa scala?

La tecnologia chiave è NVLink Fusion di NVIDIA, che permette ai chip di comunicare a velocità elevatissime, eliminando i colli di bottiglia della rete tradizionale.

Come si posizionano Microsoft e AWS rispetto a Google Cloud in questo ambito?

Microsoft punta sulla velocità di adozione e primati tecnologici, AWS sull'integrazione con i propri servizi esistenti, mentre Google Cloud si distingue per la scala pura con 80.000 GPU in un cluster singolo.

Quale primato Microsoft ha rivendicato al GTC di NVIDIA?

Microsoft si è vantata di essere il primo hyperscaler cloud ad accendere il sistema NVIDIA Vera Rubin NVL72 nei propri laboratori.

Intelligenza Artificiale 5 hours ago

Google Cloud ha alzato il muro degli 80.000 GPU

Q: Cosa sono le AI factory secondo NVIDIA?

Le AI factory sono strutture progettate per produrre intelligenza su larga scala, integrando infrastruttura accelerata e software AI per ottimizzare la generazione di token.

Q: Cosa ha lanciato AWS al re:Invent di dicembre 2025?

AWS ha lanciato la propria offerta di AI Factories combinando acceleratori Trainium e GPU NVIDIA con reti a bassa latenza e storage ad alte prestazioni.

Google Cloud annuncia le istanze A5X con fino a 80.000 GPU NVIDIA Rubin, superando i limiti dei cluster AI tradizionali.

Le nuove istanze A5X di Google Cloud promettono di eliminare il collo di bottiglia della comunicazione tra chip nei cluster

Immagina di dover addestrare un modello AI grande quanto Gemini. Il tuo cluster attuale ti impone di frammentare il lavoro, perdere giorni in sincronizzazione e sperare che la rete non collassi sotto il peso dei dati. È esattamente il problema che Google Cloud ha appena cancellato. Ieri, secondo l’annuncio di Google Cloud pubblicato sul blog di NVIDIA, sono state presentate le nuove istanze A5X: una proposta che riscrive completamente quello che si pensava possibile con l’infrastruttura cloud per l’intelligenza artificiale.

Il muro dei 10.000 GPU

Partiamo da un caso reale. Un team di ricerca vuole addestrare un modello generativo su larga scala — il tipo di lavoro che grandi laboratori e aziende tecnologiche fanno ogni giorno. Il collo di bottiglia non è la creatività, né i dati: è il cluster. Con le architetture tradizionali, oltre una certa soglia di GPU, la comunicazione tra i chip diventa più lenta del lavoro stesso. È come avere un’orchestra enorme ma un direttore che riesce a sentire solo i primi violini: il resto suona fuori tempo. Il risultato? Giorni persi in sincronizzazione, costi che esplodono, e un soffitto invisibile ma solidissimo oltre il quale non si riesce ad andare.

Le istanze A5X nascono precisamente per abbattere quel soffitto. Non si tratta di un aggiornamento incrementale, di qualche GPU in più rispetto alla generazione precedente. Si tratta di ripensare l’intera struttura di come un cluster di calcolo AI viene costruito e fatto comunicare. E i numeri, come vedremo, sono di un altro ordine di grandezza.

80.000 GPU in un colpo solo

Ecco la svolta vera: le nuove istanze A5X permettono di scalare fino a 80.000 GPU NVIDIA Rubin all’interno di un singolo cluster in un unico sito. Ottantamila. Per dare un riferimento: i cluster considerati “grandi” fino a poco tempo fa si aggiravano su qualche migliaio di unità. Ma non finisce qui — in configurazione multisito, la scala arriva fino a 960.000 GPU NVIDIA Rubin collegate insieme. Quasi un milione di chip che lavorano in sincronia su un unico problema.

Come è possibile? La chiave è NVLink Fusion, la tecnologia di interconnessione di NVIDIA che permette ai chip di comunicare tra loro a velocità elevatissime, eliminando il collo di bottiglia della rete tradizionale. Pensatela come passare da una strada provinciale a una superstrada a venti corsie, dove ogni chip può “parlare” con gli altri senza fare la fila. Il risultato pratico è che un modello che richiederebbe settimane di addestramento su un cluster convenzionale può essere completato in una frazione del tempo — e con una qualità dei risultati proporzionalmente superiore.

C’è anche un contesto storico che vale la pena ricordare. Già nel marzo 2023, stando alla collaborazione Google Cloud-NVIDIA, Google era stato il primo fornitore cloud ad offrire le GPU NVIDIA L4, e aveva integrato NVIDIA AI Enterprise nel proprio marketplace. Poi erano arrivate le istanze A3, basate sulle GPU NVIDIA H100 Tensor Core, con NVIDIA nominata Partner dell’anno per l’AI generativa di Google Cloud. Le A5X sono il capitolo successivo di una partnership che va avanti da anni e che ora raggiunge una scala davvero inedita. Secondo la definizione stessa di NVIDIA, le AI factory sono strutture progettate appositamente per produrre intelligenza su larga scala, integrando infrastruttura accelerata e software AI per ottimizzare la generazione di token — l’unità base di qualsiasi sistema AI. Con 960.000 GPU disponibili, Google Cloud si candida a gestire le AI factory più grandi mai costruite.

La guerra delle AI factory

Mentre Google alza l’asticella, Microsoft e AWS non stanno certo fermi. Lo scorso marzo, stando all’annuncio Microsoft al GTC di NVIDIA, Redmond si è vantata di essere il primo hyperscaler cloud ad accendere il nuovo sistema NVIDIA Vera Rubin NVL72 nei propri laboratori — un primato di validazione tecnologica che la dice lunga su quanto sia serrata questa corsa. In meno di un anno, Microsoft ha distribuito centinaia di migliaia di GPU Grace Blackwell raffreddate a liquido nei propri datacenter globali. Numeri impressionanti, anche se ancora distanti dalla scala dichiarata da Google.

AWS ha mosso le sue pedine già a dicembre 2025: al re:Invent, stando all’annuncio delle AI Factories AWS, Amazon ha lanciato la propria offerta combinando acceleratori Trainium e GPU NVIDIA con reti a bassa latenza e storage ad alte prestazioni. Una proposta ibrida, che punta su flessibilità e integrazione con i servizi AWS già esistenti. Tre colossi, tre strategie leggermente diverse: Google punta sulla scala pura, Microsoft sulla velocità di adozione e sui primati tecnologici, AWS sull’integrazione con il proprio universo di servizi. E nel frattempo, a pagare il conto — letteralmente — sono le aziende che devono scegliere su quale piattaforma costruire i propri modelli.

Intanto, la concorrenza viene segnalata anche da l’articolo di DataCenterDynamics che ha documentato come Microsoft rivendichi esplicitamente il primato sull’accensione del sistema Vera Rubin NVL72 — un dettaglio che, nel linguaggio dei datacenter, conta quanto una medaglia olimpica.

Il futuro dell’AI non si gioca solo sugli algoritmi, né solo sui dati. Si gioca su chi riesce a costruire le fabbriche di intelligenza più grandi, più veloci e meglio integrate. Le A5X di Google Cloud sono un passo avanti concreto e misurabile — 80.000 GPU in un cluster singolo non è un numero che si dimentica facilmente. Ma la partita è appena cominciata, e sia Microsoft che AWS hanno già dimostrato di saper rispondere. Chi avrà la meglio dipenderà da qualcosa di più sottile della sola potenza di calcolo: la capacità di trasformare quei chip in prodotti che le aziende — e magari un giorno anche le persone comuni — riescono davvero a usare.

Scritto da Marco Rossi

Giornalista tech con 10 anni di esperienza nel settore. Appassionato di innovazione e early adopter incallito. Ama raccontare come la tecnologia cambia la vita quotidiana delle persone.

Startup

Editorials Pick's

Amazon

Apple

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

Google Cloud ha alzato il muro degli 80.000 GPU