DeepMind ha messo in palio 200.000 dollari per misurare l'intelligenza

DeepMind ha messo in palio 200.000 dollari per misurare l’intelligenza

Google DeepMind ha pubblicato un framework cognitivo per misurare l'AGI in dieci abilità fondamentali e lanciato un hackathon Kaggle da 200.000 dollari per creare test di valutazione.

DeepMind propone un framework in dieci abilità cognitive e lancia una competizione per creare nuovi benchmark più realistici.

Il valore di un sistema di intelligenza artificiale non si misura più solo in prestazioni assolute, ma nella capacità di quantificare il progresso lungo dimensioni cognitive definite. Google DeepMind ha recentemente pubblicato un framework cognitivo per misurare l’AGI che scompone l’intelligenza generale in dieci abilità fondamentali: percezione, generazione, attenzione, apprendimento, memoria, ragionamento, metacognizione, funzioni esecutive, problem solving e cognizione sociale.

Per tradurre questo framework in metriche operative, DeepMind ha lanciato un hackathon Kaggle da 200.000 dollari, aperto dal 17 marzo al 16 aprile, dove i partecipanti sono chiamati a costruire test per valutare queste abilità cognitive. Ryan Burnell guida la ricerca DeepMind sull’AGI e l’iniziativa mira a creare benchmark più sfidanti e realistici.

Il Trade-off Tra Granularità e Scalabilità

La sfida ingegneristica sta nel bilanciare la granularità delle misurazioni con la scalabilità dei test. Un sistema di monitoraggio di OpenAI che esamina decine di milioni di traiettorie di codifica agentica interna in cinque mesi dimostra l’infrastruttura necessaria per valutare comportamenti complessi in ambienti simulati. Ogni traiettoria è un’istanza da analizzare per allineamento e sicurezza, richiedendo pipeline di dati e modelli di valutazione robusti.

Questo approccio non è confinato alla ricerca pura. Nell’advertising, la piattaforma Smartly acquisisce INCRMNTAL misura l’incremento reale delle campagne pubblicitarie integrando i dati nella suite di Smartly, che gestisce miliardi di spesa pubblicitaria globale per più di 800 brand. INCRMNTAL ha misurato oltre un miliardo di dollari di spesa in soli dieci mesi, evidenziando la domanda di attribuzione precisa.

Dai Benchmark ai Mercati

La capacità di quantificare le prestazioni sta generando un mercato di strumenti specializzati. Secondo i dati di LUMA Partners sul mercato, a settembre 2025 il volume totale di transazioni anno-to-date aveva raggiunto 347 operazioni, con un aumento del 16% rispetto allo stesso periodo del 2024. Alternative a INCRMNTAL come SegmentStream, Measured, Haus e Recast competono per offrire metriche sempre più fini.

Implicazioni per lo Stack di Valutazione

Per gli sviluppatori, questa corsa ai benchmark significa che lo stack di valutazione deve evolversi da semplici script di accuracy a piattaforme che gestiscono esperimenti multimodali, tracciamento di metadati e analisi di deriva dei dati. I framework come quello di DeepMind richiedono l’integrazione di ambienti simulati complessi e la capacità di generare task su richiesta che testino abilità specifiche.

La trasparenza nei protocolli di misurazione diventa un asset competitivo. Open source e documentazione dettagliata dei benchmark permettono la riproducibilità e la fiducia, elementi senza i quali gli investimenti rimangono sospetti.

Il futuro dei sistemi di IA si gioca quindi sulla qualità dei loro termometri: chi definirà le metriche più affidabili controllerà il flusso degli investimenti e l’orientamento della ricerca.

Facebook X Network Pinterest Instagram
🍪 Impostazioni Cookie