Quali modelli ha recentemente annunciato OpenAI e cosa li caratterizza?

OpenAI ha annunciato GPT-5.4 mini e nano. Il mini offre una finestra di contesto di 400k token, mentre il nano è stato valutato ottenendo, ad esempio, il 52,4% su SWE-Bench Pro. La scheda tecnica si concentra su costi e ottimizzazione.

Quali sono i costi per l'utilizzo dei modelli GPT-5.4 mini e nano?

Per il modello mini, il costo è di $0,75 per 1 milione di token di input e $4,50 per l'output. Per il modello nano, il costo scende a $0,20 per l'input e $1,25 per l'output.

Editorials Pick's 2 hours ago

DeepMind e OpenAI hanno scelto strade diverse.

Q: Quale framework ha proposto Google DeepMind per misurare il progresso verso l'AGI?

Il team di DeepMind ha proposto un framework cognitivo strutturato come una tassonomia di abilità. Il documento delinea un protocollo di valutazione in tre fasi: baseline umana, parità statistica e superamento.

Q: Qual è l'obiettivo dell'hackathon Kaggle lanciato da DeepMind?

L'hackathon Kaggle, con un montepremi di 200.000 dollari, è focalizzato sulla progettazione di valutazioni per cinque abilità cognitive specifiche: apprendimento, metacognizione, attenzione, funzioni esecutive e cognizione sociale.

Q: Come si riflette il divario tra ricerca teorica e mercato nelle architetture emergenti?

Il divario si riflette in scelte progettuali diverse. Modelli come il Nemotron 3 Super di NVIDIA adottano un design MoE ibrido per gestire carichi di lavoro multi-agente e ragionamento esteso, rispondendo a esigenze di scalabilità e costo-per-inferenza, piuttosto che a una valutazione cognitiva generale.

Q: Qual è la prossima sfida ingegneristica menzionata nel contenuto?

La prossima sfida ingegneristica è definire un protocollo di valutazione che unisca il rigore scientifico del framework cognitivo al pragmatismo dei benchmark di settore. Senza questo ponte, il progresso verso l'AGI sarà difficile da misurare e da costruire.

DeepMind pubblica un protocollo in tre fasi per misurare l'AGI, mentre OpenAI rilascia modelli economici. Il divario tra ricerca teorica e mercato pratico si allarga.

Il confronto tra ricerca teorica e necessità pratiche segna la strada dell’intelligenza artificiale verso il futuro

Mentre Google DeepMind pubblica un protocollo in tre fasi per confrontare le prestazioni dell’IA con le capacità umane, OpenAI rilascia modelli che ottimizzano costi e performance su benchmark specifici. La distanza tra i due annunci misura il divario tra la ricerca di un’AGI teorica e le esigenze pratiche del mercato.

Una tassonomia cognitiva per misurare l’AGI

Il team di DeepMind ha proposto un framework cognitivo per misurare il progresso verso l’AGI strutturato come una tassonomia di abilità. Il documento delinea un protocollo di valutazione in tre fasi: baseline umana, parità statistica e superamento. Per spingere la comunità verso questo obiettivo, hanno anche lanciato un hackathon Kaggle con un montepremi di 200.000 dollari focalizzato sulla progettazione di valutazioni per cinque abilità cognitive specifiche: apprendimento, metacognizione, attenzione, funzioni esecutive e cognizione sociale.

Dall’accademia al mercato: il caso OpenAI

OpenAI ha recentemente annunciato GPT-5.4 mini e nano, due modelli che incarnano l’approccio opposto. Il mini offre una finestra di contesto di 400k token, mentre il nano è stato valutato, ad esempio, ottenendo il 52,4% su SWE-Bench Pro. La scheda tecnica è tutta su costi e ottimizzazione: il mini costa $0,75 per 1M token di input e $4,50 per l’output; il nano scende a $0,20 e $1,25. Numeri che raccontano una storia di efficienza pratica.

Implicazioni per lo stack tecnologico

Il divario si riflette nelle architetture emergenti. Modelli come il Nemotron 3 Super di NVIDIA, presentato nell’ambito della collaborazione strategica tra AWS e NVIDIA, adottano un design MoE ibrido per gestire carichi di lavoro multi-agente e ragionamento esteso. Questa scelta risponde a esigenze di scalabilità e costo-per-inferenza, non a una valutazione cognitiva generale.

Per gli sviluppatori, lo stack si frammenta tra strumenti per ottimizzare le pipeline di inferenza e framework per valutazioni olistiche. Chi costruisce deve scegliere se puntare su modelli economici e performanti su task specifici, o investire in architetture che ambiscono a emulare il ragionamento umano. La prima strada domina il mercato, la seconda rimane, per ora, un sogno teorico.

La prossima sfida ingegneristica è definire un protocollo di valutazione che unisca il rigore scientifico del framework cognitivo al pragmatismo dei benchmark di settore. Senza questo ponte, il progresso verso l’AGI sarà difficile da misurare, e ancor più da costruire.

Scritto da Luca Verdi

Developer e tech writer. Spiega la tecnologia dal punto di vista tecnico senza perdere di vista l'accessibilità. Ex software engineer, ora si dedica al giornalismo tech.

Google ha smesso di mandare traffico ai giornali

Google gestirà i dati sanitari di milioni di europei