OpenAI: l'AI risolve problemi di ricerca matematica, superando i dubbi post-IMO

OpenAI: l’AI risolve problemi di ricerca matematica, superando i dubbi post-IMO

Ora, i modelli più avanzati di OpenAI hanno risolto diversi problemi di ricerca matematica avanzata e inedita proposti dalla sfida «First Proof», nata per mettere alla prova le reali capacità di ragionamento dei modelli linguistici con quesiti mai pubblicati

La scorsa estate, quando un modello sperimentale di OpenAI ha ottenuto una medaglia d’oro alle Olimpiadi Internazionali della Matematica, la reazione di una parte della comunità matematica è stata di scetticismo. Per alcuni, quei problemi erano pur sempre «matematica da liceo», una sfida sì complessa ma lontana dal lavoro di ricerca vero e proprio, fatto di intuizioni, congetture e problemi aperti che nessuno ha mai risolto.

Ieri, il CEO di OpenAI Sam Altman ha fatto un annuncio che punta a chiudere definitivamente quella discussione. In un post su X, Altman ha rivelato che i modelli interni più avanzati dell’azienda sono riusciti a risolvere, in una settimana, «diversi» dei dieci problemi di ricerca matematica avanzata proposti dalla sfida «First Proof».

Si tratta di questioni nate dal lavoro quotidiano di matematici professionisti, che conoscevano la soluzione ma non l’avevano mai pubblicata, offrendo così un banco di prova incontaminato per l’intelligenza artificiale. Un documento pubblicato da OpenAI mostra che i suoi modelli hanno fornito soluzioni corrette per almeno sei dei dieci quesiti.

È la prima volta che un sistema di intelligenza artificiale generica dimostra di poter contribuire in modo significativo alla risoluzione di problemi di ricerca matematica inediti, andando ben oltre la mera riproduzione di pattern appresi.

Un salto che, se confermato, non segnerebbe solo un record tecnico, ma indicherebbe un cambiamento di fase nel rapporto tra AI e scienza.

La domanda ora è: stiamo vedendo l’alba di un collaboratore artificiale per la ricerca fondamentale, o l’ultima, sofisticata, forma di pattern matching su steroidi?

La sfida nata per mettere alla prova l’intelligenza artificiale

Per capire la portata del risultato, bisogna guardare alla genesi della competizione «First Proof». Non è nata in un laboratorio di AI, ma dalla volontà di un gruppo di undici matematici di prestigio, tra cui una medaglia Fields e due vincitori di borse MacArthur, coordinati da professori di Harvard e Stanford.

L’obiettivo era chiaro: creare un test inattaccabile per valutare le reali capacità di ragionamento dei modelli linguistici, lontano dal rumore dei benchmark standard che potrebbero essere già presenti nei dati di addestramento. Hanno quindi selezionato dieci problemi autentici, emersi dalle loro ricerche in campi come la teoria dei numeri, la combinatoria e l’algebra lineare numerica.

Le soluzioni, note solo a loro, sono state crittate e caricate online il 5 febbraio, mentre la chiave per decifrarle è stata rilasciata il 13 febbraio, dando al mondo una settimana per tentare di risolverle con l’AI.

«Quando fai i conti, gli umani comandano ancora», titolava ironicamente un articolo dell’Harvard Gazette che presentava l’iniziativa. I test preliminari avevano infatti mostrato che i migliori LLM pubblicamente disponibili riuscivano a risolvere solo due dei dieci problemi.

La sfida era esplicitamente progettata per andare oltre le capacità attuali e vedere se qualcuno, nell’arco di quella settimana, fosse riuscito a colmare il divario. L’annuncio di Altman, giunto a poche ore dalla scadenza, suggerisce che OpenAI ci sia riuscita.

I dettagli tecnici sono scarni, ma il report interno a cui fa riferimento Altman descrive modelli come GPT-5.2 Pro e GPT-5.2 Thinking, progettati specificamente per il lavoro scientifico. Questi sistemi non si limitano a generare una risposta veloce: utilizzano una tecnica chiamata «slow thinking» o «scalabilità del compute al tempo di test», che li porta a impiegare più potenza di calcolo per esplorare strade alternative, verificare i passaggi e controllare la coerenza interna prima di produrre un output.

In pratica, simulano un ragionamento più ponderato e approfondito.

Questo approccio non è nuovo in sé, ma i risultati sembrano indicare un’efficacia senza precedenti. Il documento tecnico di OpenAI descrive come invece di impegnarsi rapidamente in un’unica strada, un modello possa spendere più calcolo per esplorare alternative e autocontrollarsi.

È un cambio di paradigma rispetto alla generazione di testo statistica pura, e si inserisce in una tendenza più ampia del 2025-2026, dove l’investimento in «ragionamento» ha superato in impatto quello nella semplice dimensione del modello.

L’azienda ha anche applicato tecniche di «process supervision», addestrando i modelli a premiare ogni singolo passo di ragionamento corretto, non solo la risposta finale giusta, migliorando significativamente l’affidabilità in matematica.

Oltre la medaglia d’oro: l’ai entra nel territorio della ricerca inedita

Il successo in «First Proof» arriva dopo una serie di traguardi che OpenAI ha accumulato nel campo matematico. Oltre alla medaglia d’oro alle IMO, l’azienda ha annunciato che GPT-5.2 ha contribuito alla soluzione di diversi problemi aperti di Erdős, convalidati dal matematico Terence Tao. Problemi come il #281, #728 e #729 sono ora elencati come dimostrati, mentre il #397 è stato confutato.

Questi non sono esercizi: sono congetture che hanno resistito per anni alla comunità matematica. In un caso documentato, GPT-5.2 Pro ha aiutato a risolvere un problema aperto nella teoria dell’apprendimento statistico, contribuendo a un paper accademico.

Cosa c’è di diverso questa volta? La natura di «First Proof». Risolvere problemi già noti, anche se difficili, può sempre sollevare il dubbio che il modello abbia in qualche modo «visto» una soluzione simile durante l’addestramento.

Usare problemi nati dalla ricerca corrente e mai pubblicati elimina questo rischio, puntando dritto al cuore della capacità di scoperta. È un test di generalizzazione estrema.

Come sottolineano gli organizzatori, l’iniziativa mirava a valutare la capacità dell’AI di gestire matematica di ricerca genuina utilizzando problemi inediti per evitare la contaminazione dei dati. Il successo parziale di OpenAI suggerisce che i suoi modelli stanno sviluppando un’abilità di astrazione e manipolazione simbolica che va oltre l’interpolazione di esempi noti.

Tuttavia, è cruciale comprendere il ruolo dell’AI in questi successi. OpenAI non sta affermando che i suoi modelli lavorino in totale autonomia. Il framework descritto è di collaborazione. I modelli vengono utilizzati con strumenti di verifica formale come Lean e Aristotle, e il contributo umano rimane essenziale per guidare il processo, interpretare i risultati e fornire il contesto disciplinare.

Il modello funge da generatore iper-veloce di intuizioni e percorsi dimostrativi potenziali, che il ricercatore umano può poi esaminare, validare e integrare. In questo senso, l’AI può identificare modelli matematici non ovvi per gli umani e simulare l’intuizione di un matematico, accelerando esponenzialmente la fase esplorativa della ricerca.

Una rivoluzione annunciata o un fuoco di paglia ad alta tecnologia?

L’entusiasmo per questi risultati deve essere temperato da una sana dose di scetticismo tecnico. La storia dell’AI è costellata di promesse di «ragionamento» che poi si sono rivelate architetture più complesse per un pattern matching più efficiente.

Critici come Terence Tao hanno già messo in guardia, dopo il successo alle IMO, contro confronti troppo semplicistici tra AI e umani, sottolineando come le condizioni di test (la quantità di calcolo utilizzata, la possibile ingegnerizzazione del prompt) non siano paragonabili a quelle di una competizione umana.

Il presidente delle IMO, Gregor Dolinar, ha dichiarato che l’organizzazione «non può convalidare i metodi» usati dalle AI, lasciando un’ombra di dubbio sulla riproducibilità e l’equità del confronto.

Inoltre, anche ammettendo la genuinità del progresso, restano domande fondamentali. Risolvere un problema matematico specifico, per quanto difficile, è diverso dalla capacità di formulare nuove congetture interessanti, di costruire teorie coerenti o di avere il «gusto» matematico che guida la ricerca d’avanguardia.

L’AI può essere uno strumento straordinario per accelerare il processo di problem-solving, permettendo ai ricercatori di concentrarsi su sfide più complesse e nuove, ma è ancora lontana dal sostituire la creatività e la profonda comprensione concettuale del ricercatore umano.

Il rischio è che un eccessivo affidamento su questi strumenti porti a una scienza più efficiente ma meno visionaria, dove si ottimizzano percorsi noti invece di esplorare territori veramente inesplorati.

L’annuncio di OpenAI, quindi, non chiude la discussione ma la sposta su un piano nuovo. Non si tratta più di chiedersi se l’AI possa fare matematica avanzata, ma di capire che tipo di matematica possa fare, e con quali limiti.

La sfida «First Proof», con i suoi dieci quesiti matematici che spaziano dalla combinatoria algebrica alla teoria spettrale dei grafi, rimane un banco di prova fondamentale.

Se i modelli di OpenAI hanno davvero risolto sei di quei problemi, è un segnale che la curva di apprendimento è ripida.

Ma la vera prova sarà vedere se queste capacità si tradurranno in una produzione sostenuta e verificata di nuova matematica, pubblicata su riviste peer-reviewed e accettata dalla comunità.

Fino ad allora, l’entusiasmo per l’AI come collaboratore scientifico dovrà convivere con il dubbio che si tratti semplicemente dell’ultimo, potentissimo, strumento di calcolo – un telescopio per la mente, ma non una mente nuova.

Facebook X Network Pinterest Instagram
🍪 Impostazioni Cookie