Quanti utenti utilizza Codex e qual è la percentuale di non sviluppatori?

Codex è usato ogni settimana da più di 5 milioni di persone, di cui circa il 20% sono non sviluppatori. La crescita dei non sviluppatori su Codex è più di tre volte più veloce di quella degli sviluppatori.

Editorials Pick's 2 months ago

Gpt-rosalind ha fallito il test sulla terapia genica

Q: Quali sono i limiti metodologici del caso studio sulla terapia genica per Duchenne presentato nella documentazione di GPT-Rosalind?

L'analisi del candidato terapeutico utilizza un test t non appaiato su una coorte esterna non randomizzata, confrontando la variazione del punteggio motorio NSAA a 48 settimane (+1.4 punti nel gruppo trattato contro -0.6 nella coorte esterna). La differenza è statisticamente significativa (p=0.03), ma la robustezza scientifica è minata dal fatto che i ragazzi di età 4-7 anni sono in una finestra di sviluppo in cui i pazienti ambulatoriali non trattati possono guadagnare funzione motoria prima del declino. La coorte esterna non è un controllo randomizzato concorrente e il test t non appaiato non è sufficiente.

Q: Cosa valuta LifeSciBench, il benchmark progettato da OpenAI per GPT-Rosalind?

LifeSciBench è un benchmark giudicato da esperti esterni che valuta sei aree di workflow: gestione delle evidenze, analisi, progettazione e ottimizzazione, ragionamento scientifico, validazione e operazioni, traduzione e comunicazione.

Q: Quale lezione emerge per chi progetta sistemi AI applicati alla scienza?

Senza trial clinici randomizzati, endpoint primari robusti e un disegno statistico adeguato, nessun modello linguistico — per quanto avanzato — può colmare il divario tra una promessa computazionale e un beneficio reale per i pazienti.

Il caso studio di GPT-Rosalind sulla terapia Duchenne mostra debolezze metodologiche, sollevando dubbi sulla validità clinica delle analisi AI.

Il caso Duchenne evidenzia il divario tra capacità computazionali e validità clinica

Il 3 giugno 2026 OpenAI ha rilasciato un aggiornamento del modello GPT‑Rosalind per la ricerca nelle scienze della vita, ma il caso studio sulla terapia genica per Duchenne incluso nella documentazione ufficiale racconta una storia diversa dalle nuove funzionalità GPT-Rosalind. Sotto il cofano, l’analisi del candidato terapeutico si appoggia a un test t non appaiato su una coorte esterna non randomizzata: una scelta metodologica che, per chi lavora con dati clinici, squilla come un campanello d’allarme.

Il caso Duchenne: quando l’analisi AI inciampa sui controlli

Il cuore della valutazione è un confronto tra la variazione del punteggio motorio NSAA a 48 settimane: +1.4 punti nel gruppo trattato contro -0.6 in una coorte esterna di storia naturale. La differenza è statisticamente significativa (p=0.03), ma la robustezza scientifica è minata da un problema noto: i ragazzi di età 4-7 anni sono in una finestra di sviluppo in cui i pazienti ambulatoriali non trattati possono guadagnare funzione motoria prima del declino.

L’analisi di GPT-Rosalind su un candidato terapeutico riconosce che la coorte esterna non è un controllo randomizzato concorrente e che il test t non appaiato non è sufficiente. Il verdetto è netto: il pacchetto non è abbastanza forte per un’approvazione accelerata basata sull’endpoint surrogato dell’espressione di micro-distrofina.

I precedenti lo confermano: i segnali funzionali di micro-distrofina non hanno predetto il beneficio confirmatorio in studi precedenti. Inoltre il costrutto di 138 kDa elimina le ripetizioni R16/17, che contengono siti di legame nNOS, compromettendo potenzialmente il recupero funzionale.GPT-Rosalind e la terapia Duchenne mostra il gap tra capacità computazionali e validità clinica.

LifeSciBench: un benchmark costruito su misura?

Per certificare le sue prestazioni, OpenAI ha progettato LifeSciBench, un benchmark giudicato da esperti esterni che valuta sei aree di workflow: gestione delle evidenze, analisi, progettazione e ottimizzazione, ragionamento scientifico, validazione e operazioni, traduzione e comunicazione.LifeSciBench benchmark GPT-Rosalind copre le sei aree, ma il caso Duchenne rivela che la guida prestazioni GPT-Rosalind nei compiti scientificamente validi si scontra con il problema della generalizzabilità. Le tecniche di Supervised Fine-Tuning e Direct Preference Optimization, usate per migliorare l’accuratezza delle chiamate agli strumenti su modelli piccoli,accuratezza chiamate strumenti SFT DPO mostrano che la strada per agenti affidabili passa ancora per un fine-tuning minuzioso, non per un modello generalista.

Codex: democratizzazione senza controllo qualità?

Mentre Google I/O 2026 è stato costruito interamente con strumenti AI,Google Gemini per I/O 2026 mostra il potenziale della generazione assistita. OpenAI spinge nella stessa direzione con Codex, che ogni settimana è usato da più di 5 milioni di persone.Codex per ogni ruolo conta 5 milioni di utenti, di cui circa il 20% sono non sviluppatori.Il 20% non sviluppatori di Codex cresce più di tre volte più velocemente degli sviluppatori.Crescita non developer su Codex La democratizzazione è un fatto, ma per chi costruisce flussi di lavoro basati su AI, la domanda resta: che garanzie di qualità abbiamo quando un assistente alla scrittura di codice o alla ricerca scientifica può produrre un’analisi clinicamente fragile come quella del caso Duchenne?

La lezione per chi progetta sistemi AI applicati alla scienza è implementativa: senza trial clinici randomizzati, endpoint primari robusti e un disegno statistico adeguato, nessun modello linguistico — per quanto avanzato — può colmare il divario tra una promessa computazionale e un beneficio reale per i pazienti.

Scritto da Luca Verdi

Developer e tech writer. Spiega la tecnologia dal punto di vista tecnico senza perdere di vista l'accessibilità. Ex software engineer, ora si dedica al giornalismo tech. | Autore AI KronosWire

Startup

Editorials Pick's

Amazon

Apple

Categories

Pages

Newsletter

Non perdere nemmeno un articolo.

Gpt-rosalind ha fallito il test sulla terapia genica

Il caso Duchenne evidenzia il divario tra capacità computazionali e validità clinica

Il caso Duchenne: quando l’analisi AI inciampa sui controlli

LifeSciBench: un benchmark costruito su misura?

Codex: democratizzazione senza controllo qualità?

Il caso Duchenne evidenzia il divario tra capacità computazionali e validità clinica

Il caso Duchenne: quando l’analisi AI inciampa sui controlli

LifeSciBench: un benchmark costruito su misura?

Codex: democratizzazione senza controllo qualità?

Articoli correlati

Gli errori dell’IA stanno diventando il suo materiale di studio.

OpenAI ha messo un registratore di volo negli assistenti di codifica

AI Spia nei Carrelli: Come gli Assistenti Digitali Minano la Privacy degli Acquisti