L’intelligenza artificiale fatica a pensare come un ricercatore
OpenAI lancia GeneBench-Pro, benchmark per il ragionamento scientifico in biologia computazionale. GPT-5.6 Sol supera solo il 28,7% dei quesiti.
Il costo umano del giudizio scientifico si misura in migliaia di dollari a problema
Migliaia di dollari per risolvere un singolo problema. È questa la stima del costo del lavoro umano qualificato richiesto per affrontare uno dei 129 quesiti che compongono GeneBench-Pro, il nuovo benchmark presentato lo scorso 30 giugno da OpenAI per valutare il ragionamento scientifico applicato alla biologia computazionale. Su questo terreno, il modello più avanzato della casa, GPT-5.6 Sol, raggiunge un tasso di superamento del 28,7% al massimo livello di ragionamento, che sale al 31,5% attivando la modalità Pro. Numeri che, letti da soli, sembrano un fallimento. Letti nel contesto giusto, raccontano qualcos’altro: quanto sia costoso, in termini di tempo umano e denaro, il tipo di giudizio che oggi l’IA comincia solo a intravedere. Ma cosa significa davvero “research taste” e perché è così difficile da replicare in un modello linguistico?
Catene di giudizi: dentro la scatola nera del ragionamento scientifico
GeneBench-Pro non è l’ennesimo test a risposta multipla. Copre 10 domini e 21 sottodomini della biologia computazionale, e il suo obiettivo dichiarato non è verificare se un modello conosce i fatti giusti, ma se sa costruire — passo dopo passo — una catena di decisioni difendibili di fronte all’incertezza. OpenAI definisce questo tipo di competenza “research taste”: le catene di giudizi che modellano un’analisi, cioè capire quali domande i dati possono effettivamente sostenere, come i diagnostici preliminari dovrebbero far cambiare il modello statistico o la grandezza da stimare, e quando un piano iniziale va rivisto da capo.
È una definizione che smonta un’idea diffusa, quella secondo cui il valore aggiunto di un buon ricercatore stia nel sapere le cose. In realtà sta più spesso nel non fidarsi ciecamente del primo risultato, nel notare che un p-value sospettosamente basso nasconde un artefatto tecnico, nel decidere se una pipeline va rifatta perché lo stimatore scelto in partenza era sbagliato per quel tipo di dato. Sono decisioni che non compaiono in nessun manuale, e che finora nessun benchmark aveva provato seriamente a misurare: gli autori sottolineano che i benchmark precedenti si concentravano sul richiamo di fatti o sull’esecuzione di flussi di lavoro, mentre il lavoro scientifico reale richiede giudizio iterativo sotto incertezza. Fino a oggi, notano, esistevano poche valutazioni convincenti di questo tipo di giudizio a livello di sistema nella ricerca computazionale — un vuoto che GeneBench-Pro prova a colmare imponendo agli LLM lo stesso tipo di percorso decisionale che un bioinformatico segue davanti a un dataset ambiguo: non “qual è la risposta”, ma “come si arriva a fidarsi di una risposta”. Il confronto tra famiglie di modelli, secondo OpenAI, suggerisce che i sistemi GPT sono tra i più forti in questo tipo di ragionamento scientifico di alto livello sotto incertezza quantitativa. La domanda ora è: questa capacità di calcolo si tradurrà in un vantaggio per i ricercatori in carne e ossa?
Stack scientifico: amplificare, non sostituire
Per chi costruisce modelli, il 28,7% non è un fallimento: è un segnale di dove investire. Un punteggio così basso su un benchmark pensato apposta per essere difficile dice che la frontiera del ragionamento scientifico automatizzato non è più “il modello sa la biologia”, ma “il modello sa quando dubitare della propria analisi”. È una frontiera diversa, e probabilmente più costosa da spostare, perché richiede addestramento su catene di decisione lunghe e verificabili, non solo su corpora di conoscenza. Il fatto che il costo del lavoro umano equivalente si misuri in migliaia di dollari a problema — con una stima conservativa di 200 dollari l’ora — spiega perché un simile benchmark abbia senso economico prima ancora che scientifico: ogni punto percentuale guadagnato da un modello corrisponde, potenzialmente, a ore di lavoro specialistico risparmiate.
Il contesto in cui questo si inserisce non è nuovo. Già nel 2022 la comunità della genomica computazionale osservava che la capacità di calcolo e l’efficienza computazionale erano diventate sempre più importanti, man mano che i dataset genomici crescevano in scala e complessità. GeneBench-Pro arriva su un terreno già segnato da questa pressione: più dati, più modelli statistici da scegliere e scartare, più necessità di automatizzare non solo l’esecuzione ma il giudizio a monte. Uno stack scientifico moderno — pipeline di analisi, modelli di stima, controlli di qualità — funziona meglio se qualcuno, o qualcosa, filtra le ipotesi peggiori prima che arrivino al banco del ricercatore umano. Non si tratta di sostituire chi firma la pubblicazione, ma di ridurre il numero di vicoli ciechi che quella persona deve esplorare a mano.
Il vero progresso, in questo senso, non sta nel trovare un modello che superi il ricercatore, ma nel costruire uno stack in cui il “research taste” artificiale — per quanto ancora acerbo, per quanto fermo a un quarto delle risposte corrette — riesca ad abbattere il costo di ogni ipotesi scartata prima ancora di arrivare al banco di laboratorio. Un modello che sbaglia sette volte su dieci resta inutile come sostituto. Ma se quelle tre volte su dieci corrispondono a giudizi che altrimenti sarebbero costati settimane di lavoro umano,
il calcolo economico — e tecnico — cambia radicalmente.