Come sta DeepMind traducendo in pratica questo framework?

DeepMind ha lanciato un hackathon Kaggle da 200.000 dollari, aperto dal 17 marzo al 16 aprile, dove i partecipanti devono costruire test per valutare queste abilità cognitive, con l'obiettivo di creare benchmark più sfidanti e realistici.

Qual è la principale sfida ingegneristica nella creazione di questi test?

La sfida sta nel bilanciare la granularità delle misurazioni con la scalabilità dei test, come dimostra il sistema di monitoraggio di OpenAI che analizza decine di milioni di traiettorie di codifica in ambienti simulati.

Esistono esempi pratici di misurazione precisa al di fuori della ricerca sull'AGI?

Sì, nel settore advertising, la piattaforma Smartly (che ha acquisito INCRMNTAL) misura l'incremento reale delle campagne. INCRMNTAL ha misurato oltre un miliardo di dollari di spesa in dieci mesi, evidenziando la domanda di attribuzione precisa.

Perché la trasparenza nei protocolli di misurazione è importante?

La trasparenza, attraverso open source e documentazione dettagliata, permette la riproducibilità e la fiducia. Senza questi elementi, gli investimenti rimangono sospetti. Chi definirà le metriche più affidabili controllerà il flusso degli investimenti e l'orientamento della ricerca.

Editorials Pick's 2 hours ago

DeepMind ha messo in palio 200.000 dollari per misurare l’intelligenza

Q: Qual è il nuovo framework cognitivo per misurare l'AGI proposto da Google DeepMind?

Google DeepMind ha pubblicato un framework che scompone l'intelligenza generale in dieci abilità fondamentali: percezione, generazione, attenzione, apprendimento, memoria, ragionamento, metacognizione, funzioni esecutive, problem solving e cognizione sociale.

Q: Quali sono le implicazioni per gli sviluppatori e lo stack di valutazione?

Lo stack di valutazione deve evolversi da semplici script a piattaforme che gestiscono esperimenti multimodali, tracciamento di metadati e analisi di deriva dei dati. I framework richiedono l'integrazione di ambienti simulati complessi e la generazione di task su richiesta.

Google DeepMind ha pubblicato un framework cognitivo per misurare l'AGI in dieci abilità fondamentali e lanciato un hackathon Kaggle da 200.000 dollari per creare test di valutazione.

DeepMind propone un framework in dieci abilità cognitive e lancia una competizione per creare nuovi benchmark più realistici.

Il valore di un sistema di intelligenza artificiale non si misura più solo in prestazioni assolute, ma nella capacità di quantificare il progresso lungo dimensioni cognitive definite. Google DeepMind ha recentemente pubblicato un framework cognitivo per misurare l’AGI che scompone l’intelligenza generale in dieci abilità fondamentali: percezione, generazione, attenzione, apprendimento, memoria, ragionamento, metacognizione, funzioni esecutive, problem solving e cognizione sociale.

Per tradurre questo framework in metriche operative, DeepMind ha lanciato un hackathon Kaggle da 200.000 dollari, aperto dal 17 marzo al 16 aprile, dove i partecipanti sono chiamati a costruire test per valutare queste abilità cognitive. Ryan Burnell guida la ricerca DeepMind sull’AGI e l’iniziativa mira a creare benchmark più sfidanti e realistici.

Il Trade-off Tra Granularità e Scalabilità

La sfida ingegneristica sta nel bilanciare la granularità delle misurazioni con la scalabilità dei test. Un sistema di monitoraggio di OpenAI che esamina decine di milioni di traiettorie di codifica agentica interna in cinque mesi dimostra l’infrastruttura necessaria per valutare comportamenti complessi in ambienti simulati. Ogni traiettoria è un’istanza da analizzare per allineamento e sicurezza, richiedendo pipeline di dati e modelli di valutazione robusti.

Questo approccio non è confinato alla ricerca pura. Nell’advertising, la piattaforma Smartly acquisisce INCRMNTAL misura l’incremento reale delle campagne pubblicitarie integrando i dati nella suite di Smartly, che gestisce miliardi di spesa pubblicitaria globale per più di 800 brand. INCRMNTAL ha misurato oltre un miliardo di dollari di spesa in soli dieci mesi, evidenziando la domanda di attribuzione precisa.

Dai Benchmark ai Mercati

La capacità di quantificare le prestazioni sta generando un mercato di strumenti specializzati. Secondo i dati di LUMA Partners sul mercato, a settembre 2025 il volume totale di transazioni anno-to-date aveva raggiunto 347 operazioni, con un aumento del 16% rispetto allo stesso periodo del 2024. Alternative a INCRMNTAL come SegmentStream, Measured, Haus e Recast competono per offrire metriche sempre più fini.

Implicazioni per lo Stack di Valutazione

Per gli sviluppatori, questa corsa ai benchmark significa che lo stack di valutazione deve evolversi da semplici script di accuracy a piattaforme che gestiscono esperimenti multimodali, tracciamento di metadati e analisi di deriva dei dati. I framework come quello di DeepMind richiedono l’integrazione di ambienti simulati complessi e la capacità di generare task su richiesta che testino abilità specifiche.

La trasparenza nei protocolli di misurazione diventa un asset competitivo. Open source e documentazione dettagliata dei benchmark permettono la riproducibilità e la fiducia, elementi senza i quali gli investimenti rimangono sospetti.

Il futuro dei sistemi di IA si gioca quindi sulla qualità dei loro termometri: chi definirà le metriche più affidabili controllerà il flusso degli investimenti e l’orientamento della ricerca.

Scritto da Luca Verdi

Developer e tech writer. Spiega la tecnologia dal punto di vista tecnico senza perdere di vista l'accessibilità. Ex software engineer, ora si dedica al giornalismo tech.

Google ha cambiato il protocollo per gli acquisti.