I modelli piccoli battono i giganti dell'AI

I modelli piccoli battono i giganti dell’AI

Ibm, Nvidia e OpenAI annunciano modelli AI piccoli che superano i giganti in performance e sicurezza, segnando una svolta verso l'efficienza.

I modelli piccoli superano i giganti in efficienza, performance e sicurezza, ma il mercato punta ancora sulla taglia

Maggio 2026. La notizia arriva da tre fronti diversi: IBM, Nvidia, OpenAI. Tutti e tre, in modi diversi, dichiarano la stessa cosa: i modelli piccoli e specializzati possono battere i giganti. Non solo in termini di efficienza, ma anche di performance e sicurezza. Il paradosso è servito: mentre il mercato scommette su modelli sempre più grandi, i dati mostrano che meno può essere di più. Ma chi ci guadagna? E perché proprio ora?

La scommessa di IBM: 97 milioni di parametri per superare i colossi del retrieval

IBM ha rilasciato il modello Granite Embedding Multilingual R2 in due versioni: 97 milioni di parametri e 311 milioni di parametri. Il modello da 97M ha ottenuto un punteggio di 60.3 su MTEB Multilingual Retrieval, superando di 9.4 punti il modello multilingual-e5-small. Rispetto alla generazione precedente, il guadagno è di 12.2 punti per il 97M e 13.0 punti per il 311M.

Ma attenzione: IBM non è un’azienda di modelli foundation, vende servizi. Un modello efficiente significa meno costi di inferenza per i clienti enterprise. E in un’epoca di attenzione al GDPR e alla sostenibilità, la riduzione dei parametri è un argomento potente per i regolatori.

Nvidia: più agenti con meno memoria, il business si sposta

Nvidia ha annunciato che gli agenti AI auto-miglioranti Hermes basati sui modelli Qwen 3.6 27B e 35B superano i modelli della generazione precedente da 120B e 400B parametri. Il modello 35B funziona con soli 20 GB di memoria e supera modelli da 120B che richiedono oltre 70 GB, come illustrato in i modelli Qwen 3.6 con Hermes. Il modello 27B è denso e con più parametri attivi: eguaglia l’accuratezza di un modello da 400B pur essendo un sedicesimo delle dimensioni, come riportato in il confronto dimensionale di Hermes. Infine, Nvidia afferma che le prestazioni di Hermes su GPU RTX PRO offrono fino a 3x la velocità di generazione dei token rispetto a configurazioni precedenti. Chi ci guadagna? Nvidia vende GPU; se i modelli diventano più piccoli, servono meno GPU per la stessa potenza di inferenza? O al contrario, l’efficienza permette di eseguire più agenti contemporaneamente, aumentando la domanda di hardware? La risposta non è scontata, ma la tempistica è sospetta: mentre l’attenzione antitrust sulle big tech si concentra sulla concentrazione del calcolo, un modello piccolo è più facile da distribuire anche da parte dei concorrenti.

OpenAI e la sicurezza che non costa nulla (ma perché ora?)

OpenAI ha rilasciato aggiornamenti per il riconoscimento del contesto in ChatGPT. Nelle valutazioni interne, le prestazioni di risposta sicura sono migliorate del 50% nei casi di suicidio e autolesionismo. Su GPT-5.5 Instant, il miglioramento è stato del 52% per i danni ad altri e del 39% per suicidi e autolesionismo, come documentato in GPT-5.5 Instant e sicurezza. Inoltre, nei test interni di OpenAI, le risposte nelle conversazioni quotidiane sono rimaste comparabili, senza preferenze significative degli utenti tra risposte con o senza riepiloghi di sicurezza. In altre parole, la sicurezza non ha un costo percepibile. Ma perché OpenAI annuncia questi miglioramenti proprio ora? Forse perché i regolatori europei stanno stringendo la vigilanza, e dimostrare che la sicurezza non penalizza le performance è un argomento forte. Oppure perché, con modelli più piccoli come GPT-5.5 Instant, la sicurezza può essere integrata senza escalation di parametri.

Tre annunci, tre direzioni diverse, un’unica direzione: l’efficienza non è solo un optional, ma una strategia. I modelli piccoli non solo sono più economici, ma anche più sicuri e performanti. Allora perché il mercato continua a puntare su modelli sempre più grandi? Forse perché c’è chi guadagna vendendo chip sempre più potenti, o chi guadagna con abbonamenti a modelli mastodontici. I regolatori antitrust dovrebbero porsi una domanda: se una tecnologia più piccola ed efficiente è disponibile, chi impedisce che venga adottata su larga scala? E chi garantisce che la corsa alla taglia non sia solo un modo per mantenere barriere all’ingresso? La risposta, forse, è nel silenzio di un’industria che non vuole che si parli di snellezza.

🍪 Impostazioni Cookie