Quali sono le tre direzioni di frammentazione dell'infrastruttura di retrieval e inferenza AI?

Le tre direzioni sono: IBM con embedding multilingue a lunga finestra di contesto, NVIDIA con inferenza locale su GPU consumer, e Amazon con dimensioni configurabili per gli embedding.

Cosa ha rilasciato IBM il 14 maggio 2026?

IBM ha rilasciato i modelli Granite Embedding Multilingual R2 con licenza Apache 2.0, disponibili in due versioni: 97 milioni e 311 milioni di parametri, ottimizzati per 52 lingue con supporto fino a 32K token di contesto.

Quali punteggi hanno ottenuto i modelli Granite su MTEB Multilingual Retrieval?

Il modello da 97M ha ottenuto 60.3, mentre quello da 311M ha ottenuto 65.2.

Cosa offre NVIDIA per l'inferenza locale?

NVIDIA ha mostrato come Hermes Agent esegua modelli come Qwen 3.6 su GPU consumer, con velocità di generazione token triplicata su RTX PRO GPU consumer con llama.cpp. Inoltre, NemoClaw supporta Windows Subsystem for Linux (WSL2).

Cosa permette di fare Amazon Nova Multimodal Embeddings?

Permette di configurare la dimensionalità dell'embedding a 256, 384, 1024 o 3072, offrendo un compromesso tra retrieval veloci su larga scala e precisione in domini verticali.

Quale scelta è consigliata per un assistente locale a bassa latenza?

Per un assistente locale a bassa latenza, NVIDIA è la scelta migliore.

Editorials Pick's 2 months ago

I modelli di AI stanno prendendo strade diverse

Q: Quali sono i vantaggi del modello Granite 97M rispetto a multilingual-e5-small?

Il modello 97M supera multilingual-e5-small di 9,4 punti e segna un miglioramento di 12,2 punti rispetto alla versione R1.

Q: Qual è la strategia di NVIDIA per l'inferenza?

La strategia è portare l'inferenza dove risiedono i dati, riducendo latenza e costi di trasferimento.

IBM lancia modelli Granite per retrieval multilingue a 32K token, NVIDIA accelera l'inferenza locale, Amazon offre dimensionalità configurabile.

La sfida si sposta dai modelli all’infrastruttura di retrieval e inferenza locale

La finestra di contesto di 32.768 token è il primo indizio che la battaglia dell’AI non si gioca solo sui modelli generativi. Mentre il mondo guarda ai chatbot, l’infrastruttura di retrieval e inferenza si sta frammentando in tre direzioni distinte: IBM punta su embedding multilingue con prestazioni da record, NVIDIA accelera l’inferenza locale su GPU consumer, Amazon introduce dimensioni configurabili.

La convergenza non è scontata, e chi costruisce deve scegliere da che parte stare.

IBM scommette sul retrieval multilingue a lunga distanza

Il 14 maggio 2026 IBM ha rilasciato i modelli Granite Embedding Multilingual R2 con licenza Apache 2.0. Due versioni, 97 e 311 milioni di parametri: il modello Granite 97M e il modello Granite 311M. Entrambi sono ottimizzati per 52 lingue nel retrieval e supportano un contesto fino a 32K token. Su MTEB Multilingual Retrieval, il modello 97M ha ottenuto 60.3, quello 311M 65.2. Numeri che diventano concreti nei confronti: il modello 97M supera multilingual-e5-small di 9,4 punti, e segna un miglioramento di 12,2 punti rispetto a R1. La versione 311M registra un miglioramento di 13,0 punti rispetto a R1. Per chi costruisce sistemi RAG multilingue, avere un modello che gestisce 32K token di contesto significa poter indicizzare interi documenti senza chunking aggressivo, riducendo la perdita di segnale semantico nelle traduzioni.

NVIDIA e Amazon: locale contro dimensioni configurabili

Mentre IBM ottimizza il retrieval, NVIDIA spinge sull’inferenza locale. Nel suo ultimo aggiornamento, l’azienda ha mostrato come Hermes Agent per agenti AI auto-miglioranti esegua modelli come Qwen 3.6 su GPU consumer. I test su RTX PRO GPU consumer offrono una velocità di generazione token triplicata su modelli Qwen 3.6 con llama.cpp. Inoltre, NemoClaw supporta Windows Subsystem for Linux (WSL2), abbassando la barriera per gli sviluppatori che vogliono testare agenti locali senza abbandonare Windows. La strategia è chiara: portare l’inferenza dove risiedono i dati, riducendo latenza e costi di trasferimento. Dall’altra parte, Amazon adotta l’approccio opposto: flessibilità centralizzata. Amazon Nova Multimodal Embeddings permette di configurare la dimensionalità dell’embedding a 256, 384, 1024 o 3072. Questo è un compromesso elegante: dimensioni più piccole per retrieval veloci su larga scala, dimensioni più grandi per precisione in domini verticali. Non c’è una taglia unica, e Amazon lo sa.

Cosa cambia per chi costruisce lo stack

La frammentazione impone scelte architetturali nette. Chi adotta i modelli di IBM ottiene un retrieval multilingue con finestre lunghe adatte a documenti tecnici e contratti, ma deve gestire modelli da 311M parametri in inferenza. Chi sceglie la via di NVIDIA può eseguire Qwen 3.6 localmente con prestazioni da server, ma deve accettare che il retrieval rimanga sotto il controllo del framework locale e dipenda dalla GPU consumer. La terza via di Amazon offre granularità dimensionale, ma lega l’embedding a un’API cloud, con tutto ciò che comporta in termini di latenza e costi di trasferimento. Non esiste un vincitore assoluto: la risposta sta nello stack specifico di ogni sviluppatore. Per un’applicazione RAG enterprise su documenti multilingue, IBM è la scelta più solida. Per un assistente locale a bassa latenza, NVIDIA vince. Per workload elastici nel cloud, Amazon offre la flessibilità che manca agli altri. La guerra dell’infrastruttura è appena iniziata, e il campo di battaglia è il vostro codice.

Scritto da Luca Verdi

Developer e tech writer. Spiega la tecnologia dal punto di vista tecnico senza perdere di vista l'accessibilità. Ex software engineer, ora si dedica al giornalismo tech. | Autore AI KronosWire

Startup

Editorials Pick's

Amazon

Apple

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

I modelli di AI stanno prendendo strade diverse

La sfida si sposta dai modelli all’infrastruttura di retrieval e inferenza locale

IBM scommette sul retrieval multilingue a lunga distanza

NVIDIA e Amazon: locale contro dimensioni configurabili

Cosa cambia per chi costruisce lo stack

La sfida si sposta dai modelli all’infrastruttura di retrieval e inferenza locale

IBM scommette sul retrieval multilingue a lunga distanza

NVIDIA e Amazon: locale contro dimensioni configurabili

Cosa cambia per chi costruisce lo stack

Articoli correlati

Da GPT-5.4 a SpeciesNet: Come il Ragionamento AI Abilita Precisione in Domini Diversi

Amazon ha lanciato una piattaforma per la ricerca farmaceutica

Un modello di embedding si specializza in poche ore.