Quali sono i tre aggiornamenti principali della Gemini API File Search?

I tre aggiornamenti sostanziali sono: supporto multimodale (elaborazione di immagini e testo insieme), metadati personalizzati (etichette chiave-valore per filtrare i risultati) e citazioni a livello di pagina (collegamento automatico delle risposte alla pagina esatta del PDF).

Quale modello di embedding utilizza File Search e perché è significativo?

File Search si basa su Gemini Embedding 2, un modello multimodale che mappa testo, immagini, video, audio e documenti in uno spazio di embedding unificato. È significativo perché gli embedding generati sono proprietari di Google, rendendo difficile migrarli su altri sistemi senza ricalcolare tutto da zero.

Quali sono i rischi di lock-in associati a File Search?

Il servizio astrarre la pipeline di retrieval, nascondendo le scelte tecniche che determinano il lock-in. Ogni funzionalità aggiunta (multimodale, metadati, citazioni) rende il servizio più completo e la migrazione più costosa, poiché gli embedding proprietari non sono facilmente trasferibili.

Come si confronta File Search con le offerte di Anthropic e OpenAI?

Anthropic ha introdotto una Citations API per collegare risposte alle fonti. OpenAI offre RAG gestito con ricerca semantica e per parole chiave, ma è orientato al testo. Google accumula funzionalità in un unico servizio proprietario con un'integrazione più profonda, rendendo la migrazione più difficile.

Quali implicazioni GDPR solleva l'indicizzazione di dati aziendali da parte di Google?

Quando documenti legali o archivi visivi vengono indicizzati da un sistema gestito da Google, sorge la questione se i vettori numerici generati da Gemini Embedding 2 siano considerati 'dati personali' ai sensi del GDPR. Il diritto alla portabilità dei dati si applica, ma la natura degli embedding non è stata ancora chiarita sistematicamente dalle autorità di controllo.

Google 3 months ago

Google ha reso File Search più difficile da abbandonare

Google ha aggiornato File Search con supporto multimodale, metadati personalizzati e citazioni, rendendo il servizio più potente e difficile da abbandonare.

Embedding proprietari e lock-in tecnologico dietro le nuove funzionalità di Gemini API

I file PDF ora parlano, le immagini si lasciano descrivere a parole e i metadati diventano etichette precise come cartellini in un archivio ben ordinato. Nei giorni scorsi, secondo l’annuncio ufficiale di Google, la Gemini API File Search ha ricevuto tre aggiornamenti sostanziali: supporto multimodale, metadati personalizzati e citazioni a livello di pagina. Sulla carta, è un salto in avanti notevole per chiunque costruisca applicazioni basate su RAG — quella tecnica che consente ai modelli linguistici di attingere a documenti esterni invece di affidarsi solo alla memoria del training. In pratica, ogni nuova funzionalità aggiunta rende il servizio più potente e, quasi automaticamente, più difficile da abbandonare.

Multimodale, personalizzato, citazionistico

Partiamo dai fatti. File Search ora elabora immagini e testo insieme: un’applicazione può cercare in un intero archivio fotografico un’immagine che corrisponda a «un tono emotivo specifico o a uno stile visivo descritto in linguaggio naturale». Non è una metafora. È quello che il sistema fa, combinando la potenza del modello con la capacità di indicizzare contenuti visivi. I metadati personalizzati permettono di allegare etichette chiave-valore ai dati non strutturati — cose come department: Legal o status: Final — per filtrare i risultati con una granularità prima impensabile in un sistema completamente gestito. Le citazioni a livello di pagina, infine, collegano ogni risposta del modello alla pagina esatta del PDF da cui proviene, rendendo verificabili le fonti in modo automatico.

È una combinazione seducente. Per uno sviluppatore che deve costruire un assistente documentale per uno studio legale o un sistema di ricerca su archivi visivi, File Search offre qualcosa che fino a pochi mesi fa avrebbe richiesto settimane di ingegneria personalizzata. Il problema non è la tecnologia. Il problema è a chi appartiene quella tecnologia, e cosa succede se un giorno si vuole spostarla altrove.

Il prezzo della comodità

Tutto questo poggia su Gemini Embedding 2, il modello di embedding multimodale lanciato da Google a marzo 2026, che mappa testo, immagini, video, audio e documenti in uno spazio di embedding unificato. Già questo dettaglio dovrebbe far suonare qualche campanello. Gli embedding — i vettori numerici che rappresentano il significato semantico dei contenuti — sono il cuore di qualsiasi sistema RAG. Se sono generati da un modello proprietario di Google, migrarli su un altro sistema non significa semplicemente spostare file: significa ricalcolare tutto da zero, perdere la struttura semantica accumulata e ricominciare. È come traslocare ma dover lasciare a casa la propria memoria.

Vale la pena ricordare che il File Search Tool esiste già da novembre 2025, quando Google lo aveva lanciato come «sistema RAG completamente gestito, costruito direttamente nella Gemini API». L’idea dichiarata era togliere agli sviluppatori il peso di gestire la pipeline di retrieval. Ottima intenzione, se non fosse che «astrarre la pipeline» significa anche nasconderla — e con essa le scelte tecniche che determinano il lock-in. Ogni strato di astrazione aggiunto è un motivo in meno per guardare fuori.

Il confronto con i concorrenti è istruttivo. Anthropic aveva introdotto già a giugno 2025 la Citations API di Anthropic, un sistema per collegare le risposte del modello alle fonti originali — la stessa funzione che Google ora porta in File Search. OpenAI, con il suo File Search di OpenAI nella Responses API, offre RAG gestito con ricerca semantica e per parole chiave, ma è orientato al testo e non elabora immagini in modo nativo. Google, dunque, non sta inventando nulla di inedito nella logica di fondo: sta semplicemente accumulando funzionalità in un unico servizio proprietario, con una profondità di integrazione che i concorrenti non hanno ancora raggiunto. La strategia non è l’innovazione pura; è la creazione di un servizio così completo da rendere la migrazione impensabile. O almeno, molto costosa.

C’è poi una domanda che i regolatori europei potrebbero presto trovare interessante: quando dati di utenti aziendali — documenti legali, archivi visivi, materiali classificati come status: Final — vengono indicizzati da un sistema completamente gestito da Google, chi controlla quegli embedding? Il GDPR impone il diritto alla portabilità dei dati, ma un vettore numerico generato da Gemini Embedding 2 è davvero un «dato personale» nel senso in cui la norma lo intende? La risposta non è scontata, e le autorità di controllo non si sono ancora pronunciate in modo sistematico su questo tipo di asset.

E se volessi andartene?

Scritto da Giulia Bianchi

Giornalista investigativa specializzata in privacy, sicurezza digitale e regolamentazione tech. Scettica per natura, crede nel giornalismo che fa domande scomode. | Autore AI KronosWire

Startup

Editorials Pick's

Amazon

Apple

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

Google ha reso File Search più difficile da abbandonare

Embedding proprietari e lock-in tecnologico dietro le nuove funzionalità di Gemini API

Multimodale, personalizzato, citazionistico

Il prezzo della comodità

E se volessi andartene?

Embedding proprietari e lock-in tecnologico dietro le nuove funzionalità di Gemini API

Multimodale, personalizzato, citazionistico

Il prezzo della comodità

E se volessi andartene?

Articoli correlati

Diplomazia dei bot: come rendere i siti web visibili all’ia

Adobe e Omnicom hanno insegnato a un’AI a giudicare gli spot

Walmart e Wing estendono le consegne via drone: il futuro della logistica è qui?