Amazon sfida Google e Microsoft nella ricerca video: numeri da capogiro o semplice marketing?

Amazon sfida Google e Microsoft nella ricerca video: numeri da capogiro o semplice marketing?

Amazon lancia Nova Multimodal Embeddings per la ricerca video semantica, promettendo un recall del 90% e riduzioni dei costi fino al 90%, sfidando direttamente Google e Microsoft.

Il sistema promette un recall del 90% e tagli ai costi, ma il mercato è già dominato da Google e

Un taglio dei costi del 90% e una precisione quasi raddoppiata rispetto alla baseline. Quando Amazon annuncia questi numeri — come ha fatto ieri, 17 aprile 2026, presentando la soluzione di ricerca video semantica basata su Amazon Nova Multimodal Embeddings — la prima reazione dovrebbe essere lo scetticismo. Non perché i numeri siano necessariamente falsi, ma perché in un mercato dove Google e Microsoft sono già presenti con soluzioni comparabili, ogni annuncio porta con sé una domanda inevitabile: perché proprio ora, e chi ci guadagna davvero?

Il paradosso del primo colpo

Amazon Nova Multimodal Embeddings è un modello che elabora nativamente testo, documenti, immagini, video e audio in uno spazio vettoriale semantico condiviso — un unico modello che capisce cinque tipi diversi di input. Amazon la definisce già da ottobre 2025 come “all’avanguardia per RAG agentico e ricerca semantica”. Ma già allora, Google aveva in campo il proprio modello gemini-embedding-2-preview, primo embedding multimodale nell’API Gemini. E Microsoft, dal canto suo, offre Azure Video Retrieval, un servizio concorrente diretto con capacità di ricerca in linguaggio naturale sui contenuti video. Il campo era già affollato. Amazon entra a gamba tesa, con numeri aggressivi e una proposta che punta dritta ai costi — tradizionalmente il tallone d’Achille delle soluzioni specializzate di archiviazione vettoriale.

La vera novità annunciata ieri non è solo il modello in sé, già noto da mesi, ma la sua integrazione con Amazon S3 Vectors e i risultati ottenuti su pipeline di ricerca video complete. E qui i numeri diventano più interessanti — e più scivolosi.

Smontare i numeri: efficienza o marketing?

Il dato più citato nell’annuncio è il Recall@5 del 90%, ottenuto dall’approccio di ricerca ibrida ottimizzata con Nova Multimodal Embeddings, contro un 51% della baseline. In termini pratici: su ogni cinque risultati restituiti da una query, il sistema trova la risposta giusta nove volte su dieci, contro le cinque su dieci della soluzione di partenza. È un incremento di quasi il 40% sulla copertura della ricerca — non trascurabile, specie in contesti dove recuperare un video specifico da archivi enormi vale denaro reale. Ma una domanda resta in sospeso: quale baseline? Con quale dataset? I benchmark interni delle aziende tecnologiche sono notoriamente costruiti per rendere il proprio prodotto vincente, e Amazon non fa eccezione.

Più interessante, dal punto di vista architetturale, è come funziona concretamente la pipeline. Il sistema usa la segmentazione video con FFmpeg per identificare dove il contenuto visivo cambia realmente, spezzando il video in unità semanticamente coerenti anziché in segmenti temporali fissi. Nova Multimodal Embeddings supporta fino a 30 secondi per embedding — una finestra abbastanza ampia da contenere una scena completa, abbastanza stretta da mantenere la granularità semantica. Non è banale: un embedding troppo lungo perde precisione, uno troppo corto perde contesto. Trenta secondi è una scelta progettuale precisa, non casuale.

Poi c’è la questione dei costi, che è forse il punto più politicamente rilevante dell’intero annuncio. Amazon S3 Vectors promette una riduzione fino al 90% rispetto alle “soluzioni alternative specializzate” per l’archiviazione e la query di vettori. “Fino al 90%” è una formulazione che ogni avvocato aziendale conosce bene: significa che in alcuni scenari ottimali si può arrivare a quel risparmio, senza che sia garantito in media. Detto questo, il costo dell’archiviazione vettoriale è stato per anni il principale freno all’adozione su larga scala della ricerca semantica, e qualsiasi riduzione significativa ha effetti reali sui budget dei clienti. Se anche il risparmio effettivo fosse la metà di quello promesso, resterebbe un argomento commerciale potente.

Chi vincerà la corsa all’embedding multimodale?

La vera posta in gioco non è tecnica — è di mercato. E il mercato più immediato è quello dei media e dell’intrattenimento. Secondo le soluzioni AWS per la ricerca video semantica, questa tecnologia abilita la scoperta di contenuti, l’archiviazione e il recupero efficienti e il riutilizzo dei video attraverso l’analisi intelligente di argomenti, entità e contesto all’interno del filmato, su larga scala. In altre parole: invece di avere un archivista umano che ricorda dove si trova il video di un certo evento del 2019, si digita una frase in linguaggio naturale e il sistema la trova. Per le grandi redazioni, le emittenti sportive, le case di produzione, il risparmio operativo è concreto.

Reuters AI Suite — già disponibile per redazioni, creatori di contenuti e organizzazioni sportive — rappresenta esattamente il tipo di cliente che Amazon sta corteggiando. Le organizzazioni giornalistiche e le emittenti sportive stanno adottando strumenti di ricerca video basati sull’intelligenza artificiale, e chi fornisce l’infrastruttura sottostante finisce per avere un controllo considerevole sui flussi di dati di quelle organizzazioni. Ed è qui che emergono domande che l’annuncio di Amazon non affronta: chi possiede i dati delle query? Come vengono trattati i metadati dei video indicizzati? In un contesto europeo dove il GDPR impone obblighi precisi sul trattamento dei dati e dove le autorità antitrust guardano con attenzione crescente ai lock-in infrastrutturali delle grandi piattaforme cloud, queste non sono domande retoriche.

Google con Gemini Embedding 2 e Microsoft con Azure Video Retrieval sono concorrenti diretti e non stanno a guardare. Entrambi hanno basi installate enormi — Google nei media digitali, Microsoft nelle enterprise — e la competizione si gioca tanto sulla qualità del modello quanto sulla profondità dell’integrazione con gli altri servizi della piattaforma. Amazon ha AWS, ha S3, ha un’infrastruttura che molte aziende già usano: l’integrazione nativa è il suo vantaggio più reale, più dei numeri sul Recall@5. Mentre Amazon punta a rivoluzionare la ricerca video con numeri impressionanti, la vera domanda rimane: in un duello tra titani dell’AI, chi finirà per dettare le regole del gioco multimodale? E soprattutto — chi si troverà chiuso dentro, senza poterne uscire?

🍪 Impostazioni Cookie