Frontierscience e la Nuova Era dell’Intelligenza Artificiale: Spostare i Limiti per Mantenere l’Hype
Mentre l’IA supera i test, OpenAI alza l’asticella con FrontierScience, un benchmark che ridefinisce l’intelligenza scientifica e solleva interrogativi etici e di proprietà intellettuale
Mentre voi eravate impegnati a stappare lo spumante per salutare l’arrivo del 2026, nella Silicon Valley qualcuno stava già spostando i pali della porta.
È una tradizione ormai consolidata: ogni volta che l’intelligenza artificiale supera un test che fino a ieri era considerato “impossibile”, le aziende che la producono non festeggiano la soluzione del problema, ma ne inventano uno più difficile.
È il modo più elegante per mantenere vivo l’hype e, soprattutto, per giustificare i prossimi miliardi di investimenti necessari a colmare il nuovo divario artificialmente creato.
L’ultimo capitolo di questa saga infinita si chiama FrontierScience.
Rilasciato in sordina da OpenAI proprio a ridosso delle festività, questo nuovo strumento di valutazione non è un semplice questionario, ma una dichiarazione d’intenti politica ed economica. Dopo che i modelli più recenti hanno trivializzato i vecchi standard, l’azienda di Sam Altman ha deciso che era tempo di alzare l’asticella a un livello tale da far sembrare i loro prodotti attuali improvvisamente inadeguati.
Non è un caso che questo annuncio arrivi a poche ore dal debutto di GPT-5.2. I vecchi benchmark, quelli che misuravano la competenza a livello di laurea triennale o di dottorato (come il GPQA), sono stati letteralmente prosciugati.
Se un’IA risponde correttamente al 92% delle domande complesse, il gioco finisce.
E se il gioco finisce, gli investitori potrebbero iniziare a chiedere: “E adesso? Dov’è la rivoluzione scientifica che ci avevate promesso?”.
Ecco quindi servito un nuovo esame, progettato specificamente per fallire. O meglio, per mostrare quanto ancora c’è da “lavorare” (leggi: spendere).
L’arte di spostare il traguardo
Il funzionamento di FrontierScience è rivelatorio di come l’industria stia cercando di mappare l’intelligenza umana per poi replicarla.
Il test si divide in due livelli: uno stile “Olimpiadi della Scienza” e uno, molto più insidioso, chiamato “Research”. Il primo è quasi un gioco da ragazzi per le nuove IA: i modelli GPT-5.2 ottengono già un punteggio del 77,1%, dimostrando di saper competere con le “menti giovani più brillanti”.
Ma è sul secondo livello che si gioca la vera partita.
Qui, le domande non hanno risposte chiuse. Richiedono ragionamento aperto, giudizio critico e la capacità di supportare una ricerca reale. In questo ambito, OpenAI ha pubblicato il benchmark FrontierScience evidenziando come persino i modelli più avanzati crollino a un misero 25,3% di accuratezza.
Questo numero, il 25%, è il vero prodotto.
È la cifra che verrà sventolata nelle slide per i prossimi dodici mesi per dire: “Vedete? Siamo solo a un quarto del cammino verso la superintelligenza scientifica”.
È una mossa brillante di marketing difensivo. Creando un test in cui l’IA fallisce per tre quarti, si ottengono due risultati: si calma l’ansia dei regolatori (l’IA è ancora “stupida” sulle cose che contano davvero, quindi non c’è rischio immediato) e si eccita il mercato dei capitali (c’è un enorme margine di crescita).
Vogliamo misurare rigorosamente come i modelli possano migliorare le capacità scientifiche e forse anche accelerare la scoperta scientifica.
— Miles Wang, Ricercatore presso OpenAI
Le parole di Wang suonano nobili, intrise di quell’ottimismo tecnocratico che piace tanto a Davos. Ma “misurare rigorosamente” significa anche definire cosa sia la scienza agli occhi di un algoritmo.
Stiamo riducendo il processo di scoperta scientifica — fatto di intuizioni, fallimenti, serendipità e contesto sociale — a una serie di token da prevedere correttamente.
Il vampirismo cognitivo
C’è un aspetto ancora più inquietante che riguarda la privacy e la proprietà intellettuale, temi che in queste presentazioni patinate vengono sistematicamente ignorati.
Per costruire FrontierScience, OpenAI non ha potuto limitarsi a raschiare il web (lo “scraping” indiscriminato ha ormai raggiunto i suoi limiti fisici e legali).
Ha dovuto pagare esseri umani.
Nello specifico, i dettagli tecnici rivelano il coinvolgimento di decine di scienziati con dottorato di ricerca per scrivere le domande del “Gold set”.
Stiamo assistendo a un fenomeno di cannibalizzazione accademica: gli esperti vengono pagati per codificare la loro conoscenza tacita in un formato che servirà ad addestrare la macchina che, teoricamente, dovrebbe renderli obsoleti o quantomeno “assistiti” fino all’irrilevanza.
Non è chiaro quali siano i termini contrattuali di questi scienziati. I loro processi di ragionamento, una volta inseriti nel benchmark, diventano di fatto proprietà dell’azienda che gestisce il modello? Se un’IA risolve un problema scientifico complesso usando la logica estratta da questi test, di chi è la scoperta?
Del ricercatore che ha scritto il test, dell’azienda che ha addestrato il modello, o del data center che ha bruciato l’energia di una piccola nazione per elaborare la risposta? Il GDPR e le attuali normative sul copyright non sono nemmeno lontanamente pronti per gestire la sfumatura tra “valutazione” e “addestramento”.
Inoltre, c’è il rischio del data contamination. Se questi problemi “nuovi” finiscono nel calderone dei dati di addestramento futuri (e succederà, accidentalmente o meno), avremo IA che sanno le risposte a memoria ma non sanno ragionare.
Un pappagallo stocastico con un dottorato honoris causa.
L’utilità reale è un’altra storia
Non tutti, fortunatamente, bevono l’acqua della fonte di San Francisco senza porsi domande.
La comunità scientifica indipendente — quella che non è sul libro paga delle Big Tech — osserva con scetticismo.
La critica principale è che essere bravi a rispondere a un quiz, per quanto complesso, non significa saper fare scienza. La ricerca reale richiede la gestione di strumenti di laboratorio, la progettazione di esperimenti nel mondo fisico, la navigazione della burocrazia etica, e la capacità di discernere tra un risultato statisticamente rilevante e un artefatto.
Mi aspetto che il benchmark sia altamente correlato con il lavoro esistente… e non così informativo su quando i modelli saranno effettivamente utili per assistere la ricerca, ma è molto difficile fare diversamente con un benchmark.
— Jaime Sevilla, Direttore di Epoch AI
Sevilla tocca il nervo scoperto: la correlazione non è causalità, e nemmeno utilità.
Il rilascio dei modelli GPT-5.2 ha mostrato miglioramenti significativi nel ragionamento, ma tra risolvere un problema di chimica su carta e sintetizzare una nuova molecola senza far esplodere il laboratorio c’è un abisso.
Eppure, FrontierScience serve a creare una narrazione di inevitabilità. Ci viene detto che il progresso è “intensamente veloce”, spinto dall’apprendimento per rinforzo (RL). Questa velocità è usata come clava contro qualsiasi tentativo di regolamentazione preventiva.
“Non fermateci ora,” sembrano dire, “siamo sul punto di curare il cancro”.
Ma se guardiamo i numeri, quel 25% nel tier Research ci dice che siamo ancora nella fase in cui l’IA è un ottimo assistente per i compiti a casa, ma un ricercatore mediocre.
La vera domanda da porsi all’inizio di questo 2026 non è quanto siano intelligenti le macchine, ma chi detiene il metro di giudizio di questa intelligenza.
OpenAI si è arrogata il diritto di essere sia lo studente che il professore che corregge i compiti. Creando il benchmark, definiscono le regole del gioco.
E indovinate un po’?
Le regole sono scritte in modo che solo chi ha miliardi di dollari in calcolo computazionale possa sperare di vincere. Il resto del mondo scientifico è invitato solo come spettatore, o al massimo, come fornitore di dati a basso costo.