I modelli di AI stanno prendendo strade diverse
IBM lancia modelli Granite per retrieval multilingue a 32K token, NVIDIA accelera l'inferenza locale, Amazon offre dimensionalità configurabile.
La sfida si sposta dai modelli all’infrastruttura di retrieval e inferenza locale
La finestra di contesto di 32.768 token è il primo indizio che la battaglia dell’AI non si gioca solo sui modelli generativi. Mentre il mondo guarda ai chatbot, l’infrastruttura di retrieval e inferenza si sta frammentando in tre direzioni distinte: IBM punta su embedding multilingue con prestazioni da record, NVIDIA accelera l’inferenza locale su GPU consumer, Amazon introduce dimensioni configurabili.
La convergenza non è scontata, e chi costruisce deve scegliere da che parte stare.
IBM scommette sul retrieval multilingue a lunga distanza
Il 14 maggio 2026 IBM ha rilasciato i modelli Granite Embedding Multilingual R2 con licenza Apache 2.0. Due versioni, 97 e 311 milioni di parametri: il modello Granite 97M e il modello Granite 311M. Entrambi sono ottimizzati per 52 lingue nel retrieval e supportano un contesto fino a 32K token. Su MTEB Multilingual Retrieval, il modello 97M ha ottenuto 60.3, quello 311M 65.2. Numeri che diventano concreti nei confronti: il modello 97M supera multilingual-e5-small di 9,4 punti, e segna un miglioramento di 12,2 punti rispetto a R1. La versione 311M registra un miglioramento di 13,0 punti rispetto a R1. Per chi costruisce sistemi RAG multilingue, avere un modello che gestisce 32K token di contesto significa poter indicizzare interi documenti senza chunking aggressivo, riducendo la perdita di segnale semantico nelle traduzioni.
NVIDIA e Amazon: locale contro dimensioni configurabili
Mentre IBM ottimizza il retrieval, NVIDIA spinge sull’inferenza locale. Nel suo ultimo aggiornamento, l’azienda ha mostrato come Hermes Agent per agenti AI auto-miglioranti esegua modelli come Qwen 3.6 su GPU consumer. I test su RTX PRO GPU consumer offrono una velocità di generazione token triplicata su modelli Qwen 3.6 con llama.cpp. Inoltre, NemoClaw supporta Windows Subsystem for Linux (WSL2), abbassando la barriera per gli sviluppatori che vogliono testare agenti locali senza abbandonare Windows. La strategia è chiara: portare l’inferenza dove risiedono i dati, riducendo latenza e costi di trasferimento. Dall’altra parte, Amazon adotta l’approccio opposto: flessibilità centralizzata. Amazon Nova Multimodal Embeddings permette di configurare la dimensionalità dell’embedding a 256, 384, 1024 o 3072. Questo è un compromesso elegante: dimensioni più piccole per retrieval veloci su larga scala, dimensioni più grandi per precisione in domini verticali. Non c’è una taglia unica, e Amazon lo sa.
Cosa cambia per chi costruisce lo stack
La frammentazione impone scelte architetturali nette. Chi adotta i modelli di IBM ottiene un retrieval multilingue con finestre lunghe adatte a documenti tecnici e contratti, ma deve gestire modelli da 311M parametri in inferenza. Chi sceglie la via di NVIDIA può eseguire Qwen 3.6 localmente con prestazioni da server, ma deve accettare che il retrieval rimanga sotto il controllo del framework locale e dipenda dalla GPU consumer. La terza via di Amazon offre granularità dimensionale, ma lega l’embedding a un’API cloud, con tutto ciò che comporta in termini di latenza e costi di trasferimento. Non esiste un vincitore assoluto: la risposta sta nello stack specifico di ogni sviluppatore. Per un’applicazione RAG enterprise su documenti multilingue, IBM è la scelta più solida. Per un assistente locale a bassa latenza, NVIDIA vince. Per workload elastici nel cloud, Amazon offre la flessibilità che manca agli altri. La guerra dell’infrastruttura è appena iniziata, e il campo di battaglia è il vostro codice.