DeepMind e OpenAI hanno scelto strade diverse.

DeepMind e OpenAI hanno scelto strade diverse.

DeepMind pubblica un protocollo in tre fasi per misurare l'AGI, mentre OpenAI rilascia modelli economici. Il divario tra ricerca teorica e mercato pratico si allarga.

Il confronto tra ricerca teorica e necessità pratiche segna la strada dell’intelligenza artificiale verso il futuro

Mentre Google DeepMind pubblica un protocollo in tre fasi per confrontare le prestazioni dell’IA con le capacità umane, OpenAI rilascia modelli che ottimizzano costi e performance su benchmark specifici. La distanza tra i due annunci misura il divario tra la ricerca di un’AGI teorica e le esigenze pratiche del mercato.

Una tassonomia cognitiva per misurare l’AGI

Il team di DeepMind ha proposto un framework cognitivo per misurare il progresso verso l’AGI strutturato come una tassonomia di abilità. Il documento delinea un protocollo di valutazione in tre fasi: baseline umana, parità statistica e superamento. Per spingere la comunità verso questo obiettivo, hanno anche lanciato un hackathon Kaggle con un montepremi di 200.000 dollari focalizzato sulla progettazione di valutazioni per cinque abilità cognitive specifiche: apprendimento, metacognizione, attenzione, funzioni esecutive e cognizione sociale.

Dall’accademia al mercato: il caso OpenAI

OpenAI ha recentemente annunciato GPT-5.4 mini e nano, due modelli che incarnano l’approccio opposto. Il mini offre una finestra di contesto di 400k token, mentre il nano è stato valutato, ad esempio, ottenendo il 52,4% su SWE-Bench Pro. La scheda tecnica è tutta su costi e ottimizzazione: il mini costa $0,75 per 1M token di input e $4,50 per l’output; il nano scende a $0,20 e $1,25. Numeri che raccontano una storia di efficienza pratica.

Implicazioni per lo stack tecnologico

Il divario si riflette nelle architetture emergenti. Modelli come il Nemotron 3 Super di NVIDIA, presentato nell’ambito della collaborazione strategica tra AWS e NVIDIA, adottano un design MoE ibrido per gestire carichi di lavoro multi-agente e ragionamento esteso. Questa scelta risponde a esigenze di scalabilità e costo-per-inferenza, non a una valutazione cognitiva generale.

Per gli sviluppatori, lo stack si frammenta tra strumenti per ottimizzare le pipeline di inferenza e framework per valutazioni olistiche. Chi costruisce deve scegliere se puntare su modelli economici e performanti su task specifici, o investire in architetture che ambiscono a emulare il ragionamento umano. La prima strada domina il mercato, la seconda rimane, per ora, un sogno teorico.

La prossima sfida ingegneristica è definire un protocollo di valutazione che unisca il rigore scientifico del framework cognitivo al pragmatismo dei benchmark di settore. Senza questo ponte, il progresso verso l’AGI sarà difficile da misurare, e ancor più da costruire.

Facebook X Network Pinterest Instagram
🍪 Impostazioni Cookie