OpenAI: l’AI risolve problemi matematici di ricerca mai visti prima
L'IA ha compiuto un salto evolutivo nella risoluzione di problemi matematici complessi. Sistemi come AlphaGeometry di Google DeepMind e i modelli OpenAI utilizzano il 'pensiero lento' e la 'process supervision' per un ragionamento metodico. Questa evoluzione permette all'IA di affrontare sfide olimpiche e congetture aperte, segnando un progresso sorprendente per la ricerca e l'istruzione.
Il progresso vertiginoso è stato possibile grazie a una convergenza di tecniche, tra cui il cosiddetto “pensiero lento”, che ha trasformato l’intelligenza artificiale da abile riconoscitore di pattern a ragionatore metodico.
Solo pochi anni fa, i modelli di intelligenza artificiale più avanzati inciampavano su problemi di matematica delle scuole medie. Oggi, sistemi come AlphaGeometry di Google DeepMind e GPT-5.2 di OpenAI risolvono problemi di ricerca di alto livello, alcuni dei quali irrisolti da decenni.
È un salto evolutivo che sembra sfidare la logica temporale, e secondo Jakub Pachocki, scienziato capo di OpenAI, rappresenta forse la valutazione più importante del momento.
Ma cosa significa davvero questa capacità? E soprattutto, come è stato possibile un progresso così vertiginoso?
La risposta non è in un singolo colpo di genio, ma in una convergenza di tecniche che stanno trasformando l’IA da un abile riconoscitore di pattern in un ragionatore lento e metodico. Il cambiamento più significativo degli ultimi due anni, come spiega OpenAI, è arrivato dal cosiddetto “test-time compute scaling”, o “pensiero lento”.
Invece di produrre una risposta in una frazione di secondo, i modelli ora spendono minuti, o persino ore, di potenza di calcolo per esplorare strade alternative, scomporre i problemi in passaggi e verificare autonomamente il proprio lavoro.
È un po’ come la differenza tra dare un’occhiata a un cruciverba e sedersi con la matita per annotare tutte le possibilità.
Questo approccio, unito a metodi di addestramento che premiano ogni singolo passaggio corretto del ragionamento (la “process supervision”), ha portato a miglioramenti drammatici. I modelli hanno imparato a integrare strumenti come calcolatori ed esecutori di codice per ottenere precisione assoluta nei calcoli.
Il risultato è che i grandi modelli linguistici sono evoluti dall’aritmetica di base a un ragionamento matematico complesso e multi-step.
Non stanno più solo indovinando la risposta; stanno, in un certo senso, mostrando il loro lavoro.
Da problemi olimpici a congetture aperte
Il primo campo di battaglia è stato quello delle competizioni matematiche. Nel 2024, DeepMind ha svelato AlphaGeometry, un sistema neuro-simbolico progettato specificamente per la geometria. I suoi numeri hanno fatto il giro del mondo: in un test di benchmark, AlphaGeometry ha risolto 25 su 30 problemi di geometria olimpica nel tempo limite standard, avvicinandosi al punteggio medio delle medaglie d’oro umane. Il sistema all’avanguardia precedente ne aveva risolti solo 10.
Per evitare il problema della “contaminazione dei dati” – il rischio che l’IA riconosca semplicemente problemi già visti – il team ha addestrato AlphaGeometry su 100 milioni di esempi sintetici, generati da un miliardo di diagrammi geometrici casuali.
L’evoluzione non si è fermata. Una versione potenziata, AlphaGeometry 2, ha incorporato il modello Gemini e, addestrata con ancora più dati sintetici, è in grado di risolvere problemi di geometria ancora più complessi. La collaborazione tra diversi rami di Google si è strutturata nell’iniziativa AI for Math, che unisce Google DeepMind e cinque istituzioni di ricerca per esplorare il potenziale dell’IA nell’accelerare la ricerca matematica. I frutti si vedono: nel 2025, AlphaEvolve di DeepMind è stato applicato a oltre 50 problemi aperti in analisi, geometria, combinatoria e teoria dei numeri, migliorando le soluzioni precedentemente note nel 20% dei casi.
Ma il vero salto di qualità si misura quando l’IA affronta problemi che nessuno ha mai risolto prima.
È qui che entrano in gioco iniziative come “First Proof”, lanciata il 5 febbraio 2026 da un gruppo di matematici. L’obiettivo è sfidare l’IA con problemi nati naturalmente durante la loro ricerca, mai pubblicati online e quindi assenti da qualsiasi dataset di addestramento.
È un test di pura capacità di ragionamento, pensato proprio per affrontare la sfida della contaminazione dei dati, il problema fondamentale per cui è difficile capire se l’IA stia risolvendo problemi o riconoscendo pattern dal suo addestramento. E OpenAI riferisce che il suo modello interno ne ha già risolti 6 su 10.
Il motore umano (e i suoi limiti) dietro le quinte
Dietro questi progressi ci sono team di ricerca sempre più interdisciplinari. Thang Luong, che ha guidato la direzione tecnica complessiva dello sforzo di DeepMind per le IMO 2025, guida anche il team di ragionamento sovrumano di Google DeepMind. Allo stesso tempo, il team Gemini Deep Think, composto da decine di ricercatori e ingegneri, lavora per potenziare le capacità di ragionamento del modello di punta di Google. L’obiettivo condiviso tra le grandi aziende è chiaro: migliorare il ragionamento matematico, abilitando i modelli di IA a eseguirlo a un livello alto, con la capacità di risolvere problemi complessi e generare prove.
Tuttavia, per quanto impressionanti, questi sistemi non sono onniscienti. La ricerca sta mettendo a nudo limiti profondi. Uno dei colli di bottiglia più significativi è la formulazione del problema. I modelli di IA faticano a tradurre contesti del mondo reale in espressioni matematiche, commettendo errori. Le loro prestazioni calano vistosamente quando problemi astratti sono inseriti in narrazioni realistiche.
Inoltre, mostrano una preoccupante instabilità: spesso hanno un grado di sicurezza che supera di gran lunga le loro reali capacità e non sanno quando stanno commettendo un errore.
A volte, è persino più difficile per un sistema di IA accorgersi di sbagliare che produrre un risultato corretto.
Questi fallimenti non sono casuali, ma seguono schemi classificabili. Il libro bianco del Red Team per l’IA di Microsoft delinea una tassonomia delle modalità di fallimento negli agenti di IA, uno sforzo cruciale per migliorare sicurezza e affidabilità man mano che questi sistemi diventano più autonomi.
Una rivoluzione che entra in aula (e nel mercato del lavoro)
L’impatto di questa ondata va ben oltre i laboratori di ricerca. Le università di élite si stanno adattando rapidamente. Il MIT offre un corso sulla matematica e modellazione per l’IA moderna, che introduce le basi matematiche dei modelli contemporanei. A Stanford, i docenti prevedono che il 2026 segnerà un passaggio dall’evangelizzazione dell’IA alla sua valutazione, con un focus su rigore, trasparenza e utilità reale.
E l’Università di Cambridge, che sta esplorando come l’IA possa supportare l’insegnamento e migliorare l’esperienza educativa degli studenti, offre già opportunità di ricerca estiva per studenti di matematica, inclusi progetti nel calcolo per le scienze del clima.
C’è un’ironia storica in tutto questo. Decenni fa, l’introduzione delle calcolatrici nelle aule sollevò un dibattito simile su aiuto e dipendenza. Una ricerca dell’epoca rilevava che gli insegnanti concordavano sul fatto che la tecnologia rende i calcoli più veloci, aiuta a comprendere i concetti e permette applicazioni nella vita reale.
Oggi, l’IA promette di fare un passo ulteriore: non solo accelerare i calcoli, ma agire come assistente di ricerca, gestendo revisioni della letteratura e verifiche di prove, e come “spalla” per le idee, aiutando i matematici a risolvere problemi più velocemente.
Allora, siamo di fronte a un nuovo tipo di calcolatrice, potentissima ma fondamentalmente uno strumento? O i sistemi che risolvono problemi delle Olimpiadi Internazionali della Matematica a livello di medaglia d’argento e che raggiungono nuovi standard su benchmark estremi come l’Humanity’s Last Exam stanno sviluppando una forma di comprensione?
La domanda non è solo filosofica. Da essa dipende come integreremo queste intelligenze nelle nostre vite, nelle nostre scuole e nella nostra ricerca scientifica.
Per ora, l’IA sta risolvendo problemi che non sapevamo potesse affrontare, mentre inciampa ancora su cose che diamo per scontate.
Il vero test, forse, non è se possa risolvere un teorema, ma se riusciremo noi a capire come collaborare con essa senza perdere il senso profondo della domanda.