Google ha risolto il problema della ricerca nei vestiti

Google ha risolto il problema della ricerca nei vestiti

Google ha lanciato Gemini Embedding 2, un modello multimodale che migliora la precisione della ricerca fino all'87% in casi reali.

Il modello mappa testo, immagini, video e audio in un unico spazio vettoriale

Immagina di gestire un catalogo di abbigliamento con diecimila capi. Un cliente cerca “un vestito estivo leggero con stampa floreale” e il tuo sistema di ricerca glielo trova — ma solo sei volte su dieci. Le altre quattro, propone qualcosa di vagamente simile, abbastanza vicino da essere frustrante. Nuuly, la piattaforma americana di noleggio vestiti, viveva esattamente questo problema. Poi ha integrato Gemini Embedding 2, il nuovo modello di embedding di Google annunciato ieri, e la precisione è salita a quasi il 87%. Non sei su dieci: quasi nove. Questo è ciò che succede quando un modello smette di essere un aggiornamento incrementale e diventa qualcosa di genuinamente diverso.

Il salto dell’87%

Il numero che colpisce, nel caso di Nuuly, è la metrica Match@20: misura quante volte il risultato corretto compare tra i primi venti risultati restituiti da una ricerca. Prima dell’integrazione: 60%. Dopo: quasi 87%. Ventisette punti percentuali di differenza, in un settore dove ogni punto si traduce in un cliente che trova quello che cerca — o che abbandona la pagina. Allo stesso tempo, Supermemory, un servizio che aiuta a recuperare informazioni salvate in precedenza, ha registrato un aumento del 40% nella precisione Recall@1, ovvero la capacità di portare in cima ai risultati esattamente il documento più rilevante, al primo colpo. Due casi d’uso diversissimi, stesso modello, stessa direzione: la ricerca funziona molto meglio. La domanda spontanea è: come fa un singolo modello a fare tutto questo su contenuti così diversi?

Dentro il motore multimodale

La risposta sta in un’architettura che fa una cosa sola, ma la fa in modo radicalmente nuovo: prende qualsiasi tipo di contenuto — testo, immagini, video, audio, PDF — e lo trasforma in un numero. Anzi, in un insieme di numeri, chiamato vettore. L’idea di fondo è che due cose simili nel mondo reale producono vettori simili nello spazio matematico. Finora, quasi tutti i modelli di embedding lavoravano su un solo tipo di contenuto: il testo. Volevi confrontare un’immagine con una descrizione scritta? Dovevi usare due modelli diversi, poi riconciliare i risultati. Un’operazione macchinosa, spesso imprecisa.

Gemini Embedding 2 mappa tutto in un unico spazio vettoriale. In una sola chiamata API gestisce fino a 8.192 token di testo, 6 immagini, 120 secondi di video, 180 secondi di audio e 6 pagine di PDF. Significa che puoi chiedere “trovami contenuti simili a questo video di trenta secondi” e il modello capisce cosa stai cercando senza che tu debba descrivere il video a parole. È come avere un traduttore universale che non converte le lingue tra loro, ma le porta tutte allo stesso tavolo e le fa parlare direttamente. Il modello supporta inoltre più di cento lingue, il che lo rende praticabile in contesti internazionali senza configurazioni aggiuntive.

C’è poi un dettaglio tecnico che vale la pena capire anche per chi non scrive codice. I vettori prodotti da Gemini Embedding 2 hanno di default 3.072 dimensioni — pensa a ogni dimensione come a una coordinata in uno spazio astratto enormemente complesso. Più dimensioni, più precisione, ma anche più spazio di archiviazione e più calcoli. Google ha addestrato il modello con una tecnica chiamata Matryoshka Representation Learning, che permette di “tagliare” il vettore a dimensioni minori (1.536 o 768 sono i valori consigliati) senza perdere troppa qualità. L’analogia è quella delle matrioske russe: togli gli strati esterni e dentro trovi ancora qualcosa di funzionante. Questo rende il modello adattabile a infrastrutture con vincoli di costo o memoria, senza dover scegliere un modello completamente diverso. Sul fronte dei benchmark, stando alla classifica MTEB aggiornata a marzo 2026, il predecessore Gemini Embedding 001 — già disponibile in generale da luglio 2025 — guidava la classifica inglese con un punteggio medio di 68,32 e un vantaggio di oltre cinque punti sul secondo classificato. Il predecessore lavorava solo con testo e accettava al massimo 2.048 token. Il salto di generazione è netto.

Chi vince, chi perde

I risultati di Supermemory e Nuuly sono solo i primi esempi documentati, ma dicono già qualcosa di preciso sul panorama competitivo. Secondo un confronto modelli embedding del 2026, Gemini Embedding 2 supera text-embedding-3-large di OpenAI di circa 3,5 punti su MTEB nei compiti di recupero testuale — e aggiunge la capacità multimodale che il modello di OpenAI non ha. L’unico concorrente che si era mosso prima in questa direzione era Cohere, che già nell’aprile 2025 aveva rilasciato Embed Multimodal v4, il primo grande modello di embedding multimodale di un concorrente significativo. Google arriva dopo, ma con un’implementazione più ampia per tipologie di input e con i benchmark a supporto. In concreto, stando all’annuncio ufficiale di Google sull’API Gemini, il modello è già accessibile agli sviluppatori tramite la Gemini API. La domanda non è se Google consoliderà il primato nei prossimi mesi. È quanto tempo ci vorrà agli altri per colmare un divario che, al momento, è tutt’altro che trascurabile.

Gemini Embedding 2 non è solo un modello più preciso: è la dimostrazione che trattare testo, immagini, audio e video come universi separati era una limitazione tecnica, non una necessità. Il retrieval multimodale — cercare informazioni attraverso media diversi con un’unica query — smette di essere una funzionalità di nicchia e diventa lo standard verso cui si muove tutto il settore. Il futuro del recupero delle informazioni parla già la lingua di tutti i media. E per una volta, la promessa coincide con i numeri.

🍪 Impostazioni Cookie