Microsoft ha quasi triplicato i ricavi AI in un anno
Microsoft ha quasi triplicato i ricavi AI a 37 miliardi di dollari, spinta dal modello di pricing a consumo su Azure OpenAI.
Il modello a consumo dei token ha spinto i ricavi AI di Microsoft da 13 a 37 miliardi in poco
Immagina di deployare una funzione che chiama l’API di Azure OpenAI. La testi, funziona, la metti in produzione. Una settimana dopo guardi la dashboard di billing e noti che il costo è salito in modo inatteso, proporzionale a ogni singola risposta generata, ogni token elaborato, ogni inference completata. Non è un bug, non è un errore di configurazione: è esattamente il meccanismo che i risultati trimestrali di Microsoft per il Q3 FY2026 hanno appena certificato come vincente. Il business AI dell’azienda ha superato un tasso di ricavi annuali di 37 miliardi di dollari, con una crescita del 123% su base annua. Azure e gli altri servizi cloud hanno segnato un incremento dei ricavi del 40%. Il fatturato complessivo del trimestre chiuso il 31 marzo 2026 è stato di 82,9 miliardi di dollari, in crescita del 18%, con un utile netto GAAP di 31,8 miliardi, in aumento del 23%. Sono numeri che impressionano. Ma il dato più interessante non è il totale: è il meccanismo sottostante che li ha prodotti.
Il prezzo del successo
Per capire come si arriva a 37 miliardi di AI revenue con una crescita anno su anno del 123%, bisogna guardare al modello di business, non alla tecnologia. Microsoft non ha inventato i modelli linguistici — OpenAI esiste indipendentemente — ma ha costruito l’infrastruttura di distribuzione e monetizzazione che trasforma ogni chiamata API in ricavo. Azure OpenAI Service funziona su un principio semplice: paghi per i token. Input token, output token, context window, embedding. Ogni operazione ha un prezzo marginale, e ogni richiesta al modello contribuisce direttamente alla top line.
Questo è profondamente diverso dal modello di pricing tradizionale del cloud, dove acquistavi capacità computazionale — istanze EC2, VM Azure — e la pagavi indipendentemente dall’utilizzo reale. Con i modelli linguistici il pricing a consumo è quasi inevitabile: il costo di inference varia in modo significativo a seconda della lunghezza del prompt, della complessità della risposta, del modello scelto (GPT-4o costa diversamente da GPT-4o-mini). Microsoft ha costruito l’intera architettura di Azure AI intorno a questo principio, e i risultati mostrano che funziona — almeno per Microsoft. La domanda è: cosa significa per chi ci costruisce sopra?
Dalla capacità al consumo
La CFO Amy Hood ha difeso la spesa in AI di Microsoft davanti agli analisti citando un mercato totale indirizzabile che definisce “così espansivo” da giustificare gli investimenti in infrastruttura. Ma la dichiarazione più tecnicalmente rilevante è stata un’altra. Secondo la copertura MarketWatch degli earnings, Hood ha detto esplicitamente: “Consumption models result in acceleration in the top line.” Non è retorica: è la descrizione di un meccanismo. I modelli a consumo accelerano i ricavi perché il tetto di spesa non è definito dalla capacità acquistata, ma dall’intensità dell’utilizzo. Più i clienti integrano AI nei loro prodotti, più chiamano le API, più cresce il fatturato — in modo quasi automatico, senza rinegoziare contratti o aggiornare tier di abbonamento.
L’analogia più precisa è quella con l’elettricità. Non compri una “quantità di elettricità mensile” fissa: consumi quello che consumi, e il contatore gira. Con i token è lo stesso. E proprio come con l’elettricità, la gestione dei consumi diventa una competenza critica — non solo finanziaria, ma architetturale. Il passaggio dal modello reserved (capacità pre-acquistata, costi fissi) al modello pay-as-you-go (consumo effettivo, costi variabili) non è neutro per chi sviluppa: impone un nuovo modo di pensare il design dei sistemi AI.
Cosa cambia per chi costruisce
Se ogni chiamata API ha un costo marginale, allora ogni scelta di design ha un impatto economico diretto. Un sistema che usa GPT-4o per classificare email di supporto quando basterebbe un modello più piccolo e meno costoso non è solo inefficiente: è costoso in modo proporzionale al successo. Più utenti, più email, più costi. La scalabilità — che nei sistemi tradizionali era un problema infrastrutturale — diventa un problema economico prima ancora che tecnico.
Le implicazioni concrete sono tre. Prima: l’observability dei costi AI non è più opzionale. Non basta monitorare latenza e error rate; bisogna tracciare token per richiesta, costo per utente, costo per feature. Strumenti come LangSmith, Helicone o soluzioni custom su OpenTelemetry permettono di capire dove vanno i token — e quindi i soldi. Seconda: il caching diventa un’ottimizzazione economica, non solo di performance. Se il tuo sistema fa prompt simili o identici, un layer di semantic caching (che confronta embedding dei prompt e restituisce risposte già generate per richieste semanticamente equivalenti) può ridurre drasticamente il numero di chiamate effettive all’API. Terza: la scelta del modello è una decisione di architettura. Non ogni task richiede il modello più capace. Un pipeline che usa un modello piccolo per il routing e uno grande solo per i casi complessi può ridurre i costi di ordini di grandezza a parità di qualità percepita dall’utente finale.
Microsoft ha registrato, già a gennaio 2025, un tasso di ricavi AI annuali di 13 miliardi di dollari. In poco più di un anno quel numero è quasi triplicato, arrivando a 37 miliardi. Quella traiettoria non è alimentata da nuovi clienti che scoprono l’AI: è alimentata da clienti esistenti che integrano sempre più profondamente i modelli nei loro prodotti, aumentando il consumo di token mese su mese. È una macchina ben costruita
— e funziona in entrambe le direzioni.
I 37 miliardi di Microsoft sono un avvertimento preciso: l’era dell’AI illimitata — quella dei piani flat, dei playground gratuiti, delle API senza tetto — sta cedendo il posto a un modello dove ogni inferenza ha un prezzo. Chi costruisce prodotti su questi servizi deve trattare i token come risorse scarse, misurarli con la stessa attenzione con cui misura le query al database, e ottimizzarli come si ottimizza qualsiasi risorsa costosa. Altrimenti, il successo del prodotto diventerà un costo insostenibile — e il contatore girerà, indifferente, mentre i ricavi di Microsoft continuano a salire.