Qual è il risultato ottenuto da Microsoft con MAI-Image-2?

Con MAI-Image-2, Microsoft è entrata per la prima volta nella top tre dei modelli text-to-image al mondo, classificandosi al terzo posto nella classifica Arena.ai.

Quali sono i primi due modelli nella classifica Arena.ai?

Al primo posto della classifica c'è Google Gemini 3.1 Flash Image Preview, seguito al secondo posto da OpenAI GPT-Image 1.5 High Fidelity.

Quali sono le ambizioni dichiarate di MAI-Image-2?

Le ambizioni dichiarate sono il fotorealismo, la generazione affidabile di testo nelle immagini e la creazione di scene complesse con l'obiettivo di ridurre il lavoro di post-produzione.

Come si confronta il lancio di MAI-Image-2 con il modello precedente?

MAI-Image-1, lanciato nell'ottobre 2025, era entrato tra i primi dieci nella classifica di riferimento. In meno di sei mesi, con MAI-Image-2, Microsoft ha fatto un salto di diversi gradini, arrivando al terzo posto.

Quale vantaggio di distribuzione ha Microsoft?

Microsoft ha un canale di distribuzione enorme, poiché MAI-Image-2 inizia a essere distribuito su Copilot e Bing, piattaforme con centinaia di milioni di utenti.

Quale questione regolatoria potrebbe essere sollevata dalla distribuzione di MAI-Image-2?

La distribuzione integrata di un modello AI in prodotti già dominanti nel loro segmento potrebbe interessare i regolatori europei e antitrust, ed è un tema già sul tavolo della Commissione Europea nel contesto dell'AI Act.

Bing 2 hours ago

Microsoft è entrata nella top tre dei modelli text-to-image.

Q: Dove è disponibile MAI-Image-2?

Il modello è disponibile in anteprima su MAI Playground, sta iniziando a essere distribuito su Copilot e Bing Image Creator, e l'accesso API è aperto per clienti selezionati.

Microsoft entra per la prima volta nella top tre dei modelli text-to-image con MAI-Image-2, dietro a Google e OpenAI. Il modello è già disponibile su Copilot e Bing.

Il modello è già disponibile su Copilot e Bing, ma il distacco dal primo in classifica rimane significativo.

Terzo posto. Per la prima volta, Microsoft riesce a infilarsi nella top tre dei modelli text-to-image al mondo. L’annuncio ufficiale di MAI-Image-2, pubblicato ieri, è accompagnato da toni trionfalistici: il modello è già disponibile in anteprima su MAI Playground, sta iniziando a essere distribuito su Copilot e Bing Image Creator, e l’accesso API è aperto per clienti selezionati. Tutto bene, dunque. Tranne per un dettaglio: nella classifica Arena.ai — quella stessa classifica che Microsoft cita orgogliosamente nel comunicato — al primo posto c’è Google Gemini 3.1 Flash Image Preview, e il margine tra il primo e il terzo, in questo tipo di competizioni, non è mai piccolo quanto sembra. Essere il terzo è un successo. Ma rispetto a cosa?

Il peso del terzo posto

Microsoft descrive MAI-Image-2 come il modello che ha spinto il suo laboratorio MAI “tra i primi tre al mondo” nel settore text-to-image secondo la classifica Arena.ai. È un posizionamento reale, verificabile, e non va sminuito: entrare nella top tre di un mercato dominato da giganti consolidati non è banale. Il problema è il contesto in cui questa notizia arriva. La classifica Arena.ai vede Google Gemini 3.1 Flash Image Preview saldamente in cima, seguito da un secondo classificato — OpenAI GPT-Image 1.5 High Fidelity — e poi Microsoft. In un mercato dove chi guida fissa gli standard, chi insegue è costretto a correre su un percorso già tracciato da altri. Microsoft lo sa. E probabilmente è per questo che l’annuncio è arrivato ieri, in un momento in cui il settore è in piena ebollizione competitiva: lanciare adesso significa esistere nella conversazione, non sparire tra le note a piè di pagina delle press release altrui.

C’è però una domanda che il comunicato non si fa mai: perché il terzo posto dovrebbe bastare? In un mercato dove la percezione conta tanto quanto le prestazioni tecniche, la narrativa del “podio” funziona finché non ci si chiede quanto sia lontano il primo. Microsoft ha scelto di misurare il proprio successo rispetto alla classifica, il che è comprensibile. Ma chi usa strumenti di generazione di immagini professionalmente non sceglie il terzo modello della classifica per lealtà alla piattaforma: sceglie quello che produce risultati migliori, più velocemente, con meno tentativi falliti.

Da MAI-Image-1 a oggi: una corsa contro il tempo

Per capire dove si trova oggi Microsoft, bisogna ricordare dove era poco più di un anno fa. Era l’ottobre 2025 quando Microsoft lanciò MAI-Image-1, il suo primo modello di generazione di immagini sviluppato interamente in-house: secondo il comunicato di lancio di MAI-Image-1, quel modello era già entrato tra i primi dieci nel ranking di riferimento su LMArena. Un esordio rispettabile, certo, ma ancora distante dalla punta. In meno di sei mesi, Microsoft ha fatto un salto di diversi gradini nella classifica. È un ritmo di sviluppo accelerato, e suggerisce che l’azienda stia investendo in modo significativo in questa direzione. MAI-Image-2 è stato costruito anche con feedback diretto di fotografi, designer e narratori visivi — non solo ingegneri — il che indica un cambio di approccio: meno ottimizzazione per i benchmark, più attenzione ai flussi di lavoro reali. Rimane però la domanda irrisolta: in un mercato già saturo di modelli potenti, a cosa serve arrivare terzi se gli altri due ti precedono da mesi?

Fotorealismo e guerra dei modelli

Le ambizioni dichiarate di MAI-Image-2 sono precise: fotorealismo, generazione affidabile di testo nelle immagini, creazione di scene complesse con l’obiettivo di ridurre il lavoro di post-produzione. Sono esattamente le tre aree in cui i modelli generativi hanno storicamente fallito di più — mani sbagliate, testo illeggibile, scenari incoerenti. Il fatto che Microsoft le abbia individuate come priorità suggerisce che il lavoro con professionisti del settore abbia prodotto indicazioni concrete, non solo marketing. Un designer che deve ridurre il numero di iterazioni per ottenere un’immagine utilizzabile ha un interesse pratico diretto a provare uno strumento nuovo. Ed è qui che MAI-Image-2 potrebbe trovare il suo spazio.

Ma è qui che il confronto con Google diventa imbarazzante per Microsoft. Gemini 3.1 Flash Image Preview non è solo al primo posto: è il modello che sta ridefinendo le aspettative di un intero settore. Quando il leader è questo avanti, il terzo classificato deve offrire qualcosa di qualitativamente diverso — non solo migliore, ma diverso — per convincere gli utenti a cambiare abitudini. E su questo punto, l’annuncio di Microsoft tace. Non c’è un caso d’uso in cui MAI-Image-2 fa qualcosa che Google non fa, o lo fa in modo radicalmente più efficiente per categorie specifiche di utenti. C’è una lista di capacità, e un ranking. Il che pone una questione più ampia: chi sono i clienti che Microsoft intende conquistare con questo modello? I professionisti creativi già integrati in suite Adobe o Google Workspace? Gli sviluppatori che accedono via API? Gli utenti consumer su Bing Image Creator? Mercati diversi, con esigenze diverse, su cui una singola classifica dice poco.

C’è anche una dimensione competitiva che va oltre i benchmark. Con MAI-Image-2 che inizia a essere distribuito su Copilot e Bing — piattaforme con centinaia di milioni di utenti — Microsoft ha un canale di distribuzione enorme. Non ha bisogno di essere il modello migliore per raggiungere più persone. Ha solo bisogno di essere abbastanza buono, abbastanza integrato, abbastanza presente. È una strategia diversa da quella di Google, che punta sulla qualità tecnica del modello. Ed è forse l’unica strategia che Microsoft può permettersi in questo momento, considerando il vantaggio accumulato dai concorrenti. Questo, però, solleva una questione che i regolatori europei e antitrust potrebbero prima o poi trovare interessante: quanto vale la distribuzione captive di un modello AI quando è integrata in prodotti già dominanti nel loro segmento? Il GDPR e le norme sul mercato digitale non si occupano ancora direttamente di questo, ma il tema è già sul tavolo della Commissione Europea nel contesto del AI Act.

Mentre MAI-Image-2 inizia la sua diffusione su Copilot e Bing, la tensione irrisolta è questa: in un mercato dove il primo vince tutto — o quasi — essere il terzo basta per sopravvivere, o serve per cambiare le regole? Microsoft ha dimostrato di saper accelerare. Non ha ancora dimostrato di saper sorpassare.

Scritto da Giulia Bianchi

Giornalista investigativa specializzata in privacy, sicurezza digitale e regolamentazione tech. Scettica per natura, crede nel giornalismo che fa domande scomode.

DeepMind ha messo in palio 200.000 dollari per misurare l’intelligenza

OpenAI ha messo un registratore di volo negli assistenti di codifica

Il tuo medico ha condiviso i tuoi dati con Meta

Una startup usa le telefonate di vendita per creare annunci

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

Microsoft è entrata nella top tre dei modelli text-to-image.

Il modello è già disponibile su Copilot e Bing, ma il distacco dal primo in classifica rimane significativo.

Il peso del terzo posto

Da MAI-Image-1 a oggi: una corsa contro il tempo

Fotorealismo e guerra dei modelli

Il modello è già disponibile su Copilot e Bing, ma il distacco dal primo in classifica rimane significativo.

Il peso del terzo posto

Da MAI-Image-1 a oggi: una corsa contro il tempo

Fotorealismo e guerra dei modelli

Articoli correlati

McDonald’s nel 2025: Stress test dell’architettura economica occidentale?

Quando chiedi all’AI un regalo e te lo compra lei: la nuova frontiera dello shopping

Bing desktop: autopsia di un’interfaccia del futuro (2012-2013)