Quale problema risolve Gemini Embedding 2 per Nuuly?

Nuuly, piattaforma di noleggio vestiti, aveva un problema di precisione nella ricerca: trovava un 'vestito estivo leggero con stampa floreale' solo sei volte su dieci. Dopo l'integrazione di Gemini Embedding 2, la precisione è salita a quasi il 87% (Match@20), riducendo la frustrazione degli utenti.

Cos'è il Match@20 e come è migliorato con Gemini Embedding 2?

Match@20 misura quante volte il risultato corretto compare tra i primi venti risultati di una ricerca. Prima dell'integrazione di Gemini Embedding 2 era al 60%; dopo è salito a quasi il 87%, con un miglioramento di 27 punti percentuali.

Come funziona l'architettura multimodale di Gemini Embedding 2?

Il modello trasforma qualsiasi tipo di contenuto (testo, immagini, video, audio, PDF) in un vettore numerico. Mappa tutto in un unico spazio vettoriale, permettendo di confrontare media diversi senza usare modelli separati. In una singola chiamata API gestisce fino a 8.192 token di testo, 6 immagini, 120 secondi di video, 180 secondi di audio e 6 pagine di PDF.

Cosa significa che Gemini Embedding 2 supporta la Matryoshka Representation Learning?

È una tecnica che permette di 'tagliare' il vettore a dimensioni minori (1.536 o 768) senza perdere troppa qualità. I vettori di default hanno 3.072 dimensioni, ma questa tecnica consente di adattare il modello a infrastrutture con vincoli di costo o memoria.

Come si posiziona Gemini Embedding 2 rispetto ai concorrenti?

Secondo un confronto del 2026, Gemini Embedding 2 supera text-embedding-3-large di OpenAI di circa 3,5 punti su MTEB nei compiti di recupero testuale, aggiungendo la capacità multimodale che OpenAI non ha. Cohere aveva rilasciato Embed Multimodal v4 nell'aprile 2025, ma Google arriva con un'implementazione più ampia per tipologie di input e benchmark a supporto.

Quali lingue supporta Gemini Embedding 2?

Il modello supporta più di cento lingue, rendendolo praticabile in contesti internazionali senza configurazioni aggiuntive.

Google 2 months ago

Google ha risolto il problema della ricerca nei vestiti

Q: Quali miglioramenti ha registrato Supermemory con Gemini Embedding 2?

Supermemory, un servizio di recupero informazioni, ha registrato un aumento del 40% nella precisione Recall@1, ovvero la capacità di portare in cima ai risultati il documento più rilevante al primo colpo.

Q: Qual era il punteggio MTEB del predecessore Gemini Embedding 001?

Il predecessore Gemini Embedding 001 guidava la classifica inglese con un punteggio medio di 68,32 e un vantaggio di oltre cinque punti sul secondo classificato. Lavorava solo con testo e accettava al massimo 2.048 token.

Google ha lanciato Gemini Embedding 2, un modello multimodale che migliora la precisione della ricerca fino all'87% in casi reali.

Il modello mappa testo, immagini, video e audio in un unico spazio vettoriale

Immagina di gestire un catalogo di abbigliamento con diecimila capi. Un cliente cerca “un vestito estivo leggero con stampa floreale” e il tuo sistema di ricerca glielo trova — ma solo sei volte su dieci. Le altre quattro, propone qualcosa di vagamente simile, abbastanza vicino da essere frustrante. Nuuly, la piattaforma americana di noleggio vestiti, viveva esattamente questo problema. Poi ha integrato Gemini Embedding 2, il nuovo modello di embedding di Google annunciato ieri, e la precisione è salita a quasi il 87%. Non sei su dieci: quasi nove. Questo è ciò che succede quando un modello smette di essere un aggiornamento incrementale e diventa qualcosa di genuinamente diverso.

Il salto dell’87%

Il numero che colpisce, nel caso di Nuuly, è la metrica Match@20: misura quante volte il risultato corretto compare tra i primi venti risultati restituiti da una ricerca. Prima dell’integrazione: 60%. Dopo: quasi 87%. Ventisette punti percentuali di differenza, in un settore dove ogni punto si traduce in un cliente che trova quello che cerca — o che abbandona la pagina. Allo stesso tempo, Supermemory, un servizio che aiuta a recuperare informazioni salvate in precedenza, ha registrato un aumento del 40% nella precisione Recall@1, ovvero la capacità di portare in cima ai risultati esattamente il documento più rilevante, al primo colpo. Due casi d’uso diversissimi, stesso modello, stessa direzione: la ricerca funziona molto meglio. La domanda spontanea è: come fa un singolo modello a fare tutto questo su contenuti così diversi?

Dentro il motore multimodale

La risposta sta in un’architettura che fa una cosa sola, ma la fa in modo radicalmente nuovo: prende qualsiasi tipo di contenuto — testo, immagini, video, audio, PDF — e lo trasforma in un numero. Anzi, in un insieme di numeri, chiamato vettore. L’idea di fondo è che due cose simili nel mondo reale producono vettori simili nello spazio matematico. Finora, quasi tutti i modelli di embedding lavoravano su un solo tipo di contenuto: il testo. Volevi confrontare un’immagine con una descrizione scritta? Dovevi usare due modelli diversi, poi riconciliare i risultati. Un’operazione macchinosa, spesso imprecisa.

Gemini Embedding 2 mappa tutto in un unico spazio vettoriale. In una sola chiamata API gestisce fino a 8.192 token di testo, 6 immagini, 120 secondi di video, 180 secondi di audio e 6 pagine di PDF. Significa che puoi chiedere “trovami contenuti simili a questo video di trenta secondi” e il modello capisce cosa stai cercando senza che tu debba descrivere il video a parole. È come avere un traduttore universale che non converte le lingue tra loro, ma le porta tutte allo stesso tavolo e le fa parlare direttamente. Il modello supporta inoltre più di cento lingue, il che lo rende praticabile in contesti internazionali senza configurazioni aggiuntive.

C’è poi un dettaglio tecnico che vale la pena capire anche per chi non scrive codice. I vettori prodotti da Gemini Embedding 2 hanno di default 3.072 dimensioni — pensa a ogni dimensione come a una coordinata in uno spazio astratto enormemente complesso. Più dimensioni, più precisione, ma anche più spazio di archiviazione e più calcoli. Google ha addestrato il modello con una tecnica chiamata Matryoshka Representation Learning, che permette di “tagliare” il vettore a dimensioni minori (1.536 o 768 sono i valori consigliati) senza perdere troppa qualità. L’analogia è quella delle matrioske russe: togli gli strati esterni e dentro trovi ancora qualcosa di funzionante. Questo rende il modello adattabile a infrastrutture con vincoli di costo o memoria, senza dover scegliere un modello completamente diverso. Sul fronte dei benchmark, stando alla classifica MTEB aggiornata a marzo 2026, il predecessore Gemini Embedding 001 — già disponibile in generale da luglio 2025 — guidava la classifica inglese con un punteggio medio di 68,32 e un vantaggio di oltre cinque punti sul secondo classificato. Il predecessore lavorava solo con testo e accettava al massimo 2.048 token. Il salto di generazione è netto.

Chi vince, chi perde

I risultati di Supermemory e Nuuly sono solo i primi esempi documentati, ma dicono già qualcosa di preciso sul panorama competitivo. Secondo un confronto modelli embedding del 2026, Gemini Embedding 2 supera text-embedding-3-large di OpenAI di circa 3,5 punti su MTEB nei compiti di recupero testuale — e aggiunge la capacità multimodale che il modello di OpenAI non ha. L’unico concorrente che si era mosso prima in questa direzione era Cohere, che già nell’aprile 2025 aveva rilasciato Embed Multimodal v4, il primo grande modello di embedding multimodale di un concorrente significativo. Google arriva dopo, ma con un’implementazione più ampia per tipologie di input e con i benchmark a supporto. In concreto, stando all’annuncio ufficiale di Google sull’API Gemini, il modello è già accessibile agli sviluppatori tramite la Gemini API. La domanda non è se Google consoliderà il primato nei prossimi mesi. È quanto tempo ci vorrà agli altri per colmare un divario che, al momento, è tutt’altro che trascurabile.

Gemini Embedding 2 non è solo un modello più preciso: è la dimostrazione che trattare testo, immagini, audio e video come universi separati era una limitazione tecnica, non una necessità. Il retrieval multimodale — cercare informazioni attraverso media diversi con un’unica query — smette di essere una funzionalità di nicchia e diventa lo standard verso cui si muove tutto il settore. Il futuro del recupero delle informazioni parla già la lingua di tutti i media. E per una volta, la promessa coincide con i numeri.

Scritto da Marco Rossi

Giornalista tech con 10 anni di esperienza nel settore. Appassionato di innovazione e early adopter incallito. Ama raccontare come la tecnologia cambia la vita quotidiana delle persone.

Startup

Editorials Pick's

Amazon

Apple

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

Google ha risolto il problema della ricerca nei vestiti