Fan-out: la tecnica distribuita che sta monopolizzando la ricerca visiva
Google applica la tecnica del fan-out in AI Mode per eseguire ricerche parallele su più oggetti in un'immagine, rivoluzionando la velocità e completezza della ricerca visiva.
La tecnica permette di lanciare decine di ricerche in parallelo, moltiplicando il carico sui server in modo esponenziale
Dietro l’apparente magia di inquadrare un outfit con lo smartphone e ricevere in pochi secondi link per acquistare ogni singolo capo, non c’è solo un modello di visione artificiale più acuto, ma un cambio radicale di architettura a livello di query execution. La vera leva che sta spostando l’asticella nella ricerca visiva si chiama ‘fan-out’: una tecnica classica dei sistemi distributi che Google sta applicando con aggressività per monopolizzare il settore.
Non una, ma dozzine: la parallelizzazione delle query visive
Fino a poco fa, strumenti come Lens o Circle to Search analizzavano un’immagine per estrarne un singolo soggetto o concetto da ricercare. L’aggiornamento di Circle to Search e Lens cambia questo paradigma in modo fondamentale. Ora, l’AI Mode può scomporre un’immagine complessa, identificando ogni elemento distinto. Il sistema, che agisce come un “cervello” che può “vedere”, non si accontenta più di un risultato. Usando il modello AI per recuperare risultati per più oggetti – come cappello, scarpe e giacca – attiva in realtà una cascata di ricerche parallele.
È qui che entra in gioco il “fan-out” che attiva più ricerche contemporaneamente. Il modello identifica tutte le possibili query rilevanti estratte dalla scena e le invia simultaneamente al backend, che funziona come una “biblioteca” di miliardi di risultati web. Il risultato netto è che AI Mode esegue una dozzina di ricerche nel tempo che prima ne richiedeva una sola. Una tecnica non nuova nelle architetture distribuite, ma la cui applicazione alla ricerca visiva è decisiva per la velocità e completezza della risposta.
L’architettura nascosta: dal modello di visione all’orchestrazione
Per abilitare questo comportamento, non è bastato potenziare il modello di intelligenza artificiale. È stato necessario un cambio di architettura nel modello di visione. Questo aggiornamento permette al sistema di identificare tutte le ricerche “fan-out” necessarie in una sola passata, trasformando un’immagine in un grafo di query potenziali.
Il sistema è così flessibile da poter anche prendere un’immagine specifica e avviare il fan-out da quel punto, una capacità essenziale per contesti come lo shopping.
L’eleganza tecnica sta nella fase di orchestrazione e composizione. Dopo il lancio parallelo delle ricerche, il modello deve attendere, raccogliere e sintetizzare i risultati. È qui che dimostra il suo valore: intrecciando i singoli risultati in una risposta coerente, legge i dati grezzi provenienti dai vari canali e li presenta come un’unica, fluida risposta con link pertinenti. Il tutto presentato in pochi secondi, mascherando la complessità distribuita che c’è sotto.
La barriera non è nell’idea, ma nell’esecuzione su scala planetaria.
La barriera tecnologica è l’infrastruttura, non l’algoritmo
Qualsiasi azienda può implementare un modello AI che usa il fan-out per orchestrare ricerche in un ambiente controllato. Il punto è che Google non orchestra solo modelli: orchestra l’intero stack, dal chip TPU alla rete di data center, fino all’indice di ricerca visiva più vasto al mondo. Il fan-out moltiplica il carico sul backend in modo lineare: una dozzina di query per utente significa un fattore di scala che pochi competitor possono sostenere senza che i costi esplodano o che la latenza crolli.
Per gli sviluppatori e le aziende che vogliono competere in questo spazio, l’implicazione è chiara: non basta un buon modello di computer vision open-source. Serve un’architettura di serving in grado di gestire esplosioni combinatorie di query con latenze costanti, e un indice di riferimento altrettanto ricco e strutturato. La ricerca visiva sta diventando una guerra di infrastruttura distribuita, dove la tecnica del fan-out è l’arma che richiede la maggiore potenza di fuoco. Chi non ha la fabbrica di proiettili, rimarrà a guardare.