Microsoft è entrata nella top tre dei modelli text-to-image.

Microsoft è entrata nella top tre dei modelli text-to-image.

Microsoft entra per la prima volta nella top tre dei modelli text-to-image con MAI-Image-2, dietro a Google e OpenAI. Il modello è già disponibile su Copilot e Bing.

Il modello è già disponibile su Copilot e Bing, ma il distacco dal primo in classifica rimane significativo.

Terzo posto. Per la prima volta, Microsoft riesce a infilarsi nella top tre dei modelli text-to-image al mondo. L’annuncio ufficiale di MAI-Image-2, pubblicato ieri, è accompagnato da toni trionfalistici: il modello è già disponibile in anteprima su MAI Playground, sta iniziando a essere distribuito su Copilot e Bing Image Creator, e l’accesso API è aperto per clienti selezionati. Tutto bene, dunque. Tranne per un dettaglio: nella classifica Arena.ai — quella stessa classifica che Microsoft cita orgogliosamente nel comunicato — al primo posto c’è Google Gemini 3.1 Flash Image Preview, e il margine tra il primo e il terzo, in questo tipo di competizioni, non è mai piccolo quanto sembra. Essere il terzo è un successo. Ma rispetto a cosa?

Il peso del terzo posto

Microsoft descrive MAI-Image-2 come il modello che ha spinto il suo laboratorio MAI “tra i primi tre al mondo” nel settore text-to-image secondo la classifica Arena.ai. È un posizionamento reale, verificabile, e non va sminuito: entrare nella top tre di un mercato dominato da giganti consolidati non è banale. Il problema è il contesto in cui questa notizia arriva. La classifica Arena.ai vede Google Gemini 3.1 Flash Image Preview saldamente in cima, seguito da un secondo classificato — OpenAI GPT-Image 1.5 High Fidelity — e poi Microsoft. In un mercato dove chi guida fissa gli standard, chi insegue è costretto a correre su un percorso già tracciato da altri. Microsoft lo sa. E probabilmente è per questo che l’annuncio è arrivato ieri, in un momento in cui il settore è in piena ebollizione competitiva: lanciare adesso significa esistere nella conversazione, non sparire tra le note a piè di pagina delle press release altrui.

C’è però una domanda che il comunicato non si fa mai: perché il terzo posto dovrebbe bastare? In un mercato dove la percezione conta tanto quanto le prestazioni tecniche, la narrativa del “podio” funziona finché non ci si chiede quanto sia lontano il primo. Microsoft ha scelto di misurare il proprio successo rispetto alla classifica, il che è comprensibile. Ma chi usa strumenti di generazione di immagini professionalmente non sceglie il terzo modello della classifica per lealtà alla piattaforma: sceglie quello che produce risultati migliori, più velocemente, con meno tentativi falliti.

Da MAI-Image-1 a oggi: una corsa contro il tempo

Per capire dove si trova oggi Microsoft, bisogna ricordare dove era poco più di un anno fa. Era l’ottobre 2025 quando Microsoft lanciò MAI-Image-1, il suo primo modello di generazione di immagini sviluppato interamente in-house: secondo il comunicato di lancio di MAI-Image-1, quel modello era già entrato tra i primi dieci nel ranking di riferimento su LMArena. Un esordio rispettabile, certo, ma ancora distante dalla punta. In meno di sei mesi, Microsoft ha fatto un salto di diversi gradini nella classifica. È un ritmo di sviluppo accelerato, e suggerisce che l’azienda stia investendo in modo significativo in questa direzione. MAI-Image-2 è stato costruito anche con feedback diretto di fotografi, designer e narratori visivi — non solo ingegneri — il che indica un cambio di approccio: meno ottimizzazione per i benchmark, più attenzione ai flussi di lavoro reali. Rimane però la domanda irrisolta: in un mercato già saturo di modelli potenti, a cosa serve arrivare terzi se gli altri due ti precedono da mesi?

Fotorealismo e guerra dei modelli

Le ambizioni dichiarate di MAI-Image-2 sono precise: fotorealismo, generazione affidabile di testo nelle immagini, creazione di scene complesse con l’obiettivo di ridurre il lavoro di post-produzione. Sono esattamente le tre aree in cui i modelli generativi hanno storicamente fallito di più — mani sbagliate, testo illeggibile, scenari incoerenti. Il fatto che Microsoft le abbia individuate come priorità suggerisce che il lavoro con professionisti del settore abbia prodotto indicazioni concrete, non solo marketing. Un designer che deve ridurre il numero di iterazioni per ottenere un’immagine utilizzabile ha un interesse pratico diretto a provare uno strumento nuovo. Ed è qui che MAI-Image-2 potrebbe trovare il suo spazio.

Ma è qui che il confronto con Google diventa imbarazzante per Microsoft. Gemini 3.1 Flash Image Preview non è solo al primo posto: è il modello che sta ridefinendo le aspettative di un intero settore. Quando il leader è questo avanti, il terzo classificato deve offrire qualcosa di qualitativamente diverso — non solo migliore, ma diverso — per convincere gli utenti a cambiare abitudini. E su questo punto, l’annuncio di Microsoft tace. Non c’è un caso d’uso in cui MAI-Image-2 fa qualcosa che Google non fa, o lo fa in modo radicalmente più efficiente per categorie specifiche di utenti. C’è una lista di capacità, e un ranking. Il che pone una questione più ampia: chi sono i clienti che Microsoft intende conquistare con questo modello? I professionisti creativi già integrati in suite Adobe o Google Workspace? Gli sviluppatori che accedono via API? Gli utenti consumer su Bing Image Creator? Mercati diversi, con esigenze diverse, su cui una singola classifica dice poco.

C’è anche una dimensione competitiva che va oltre i benchmark. Con MAI-Image-2 che inizia a essere distribuito su Copilot e Bing — piattaforme con centinaia di milioni di utenti — Microsoft ha un canale di distribuzione enorme. Non ha bisogno di essere il modello migliore per raggiungere più persone. Ha solo bisogno di essere abbastanza buono, abbastanza integrato, abbastanza presente. È una strategia diversa da quella di Google, che punta sulla qualità tecnica del modello. Ed è forse l’unica strategia che Microsoft può permettersi in questo momento, considerando il vantaggio accumulato dai concorrenti. Questo, però, solleva una questione che i regolatori europei e antitrust potrebbero prima o poi trovare interessante: quanto vale la distribuzione captive di un modello AI quando è integrata in prodotti già dominanti nel loro segmento? Il GDPR e le norme sul mercato digitale non si occupano ancora direttamente di questo, ma il tema è già sul tavolo della Commissione Europea nel contesto del AI Act.

Mentre MAI-Image-2 inizia la sua diffusione su Copilot e Bing, la tensione irrisolta è questa: in un mercato dove il primo vince tutto — o quasi — essere il terzo basta per sopravvivere, o serve per cambiare le regole? Microsoft ha dimostrato di saper accelerare. Non ha ancora dimostrato di saper sorpassare.

Facebook X Network Pinterest Instagram
🍪 Impostazioni Cookie