Chatbot AI: accuratezza diagnostica crolla nell'interazione umana.

Chatbot AI: accuratezza diagnostica crolla nell’interazione umana.

La ricerca rivela un divario allarmante tra le capacità teoriche dei modelli e la loro efficacia pratica, dove la percentuale di successo crolla dal 94,9% al 34,5% a causa di un guasto nella comunicazione.

Un nuovo studio pubblicato su Nature Medicine getta un secchio d’acqua gelida sulle speranze di usare i chatbot di intelligenza artificiale generativa come assistenti medici personali.

La ricerca, condotta dall’Oxford Internet Institute e dal Nuffield Department of Primary Care Health Sciences, rivela un divario allarmante tra le capacità teoriche dei modelli linguistici e la loro efficacia nella pratica con utenti reali.

Quando ai modelli come GPT-4o, Llama 3 e Command R+ viene fornito il testo completo di uno scenario clinico, identificano correttamente le condizioni mediche nel 94,9% dei casi.

Ma quando sono le persone a interagire con loro per risolvere lo stesso problema, la percentuale di successo crolla al 34,5%.

È come se un pilota di Formula 1 fosse imbattibile in simulatore, ma finisse fuori pista alla prima curva con un guidatore comune al volante.

Lo studio ha coinvolto 1.298 partecipanti nel Regno Unito, divisi tra chi poteva usare un chatbot e un gruppo di controllo che doveva affidarsi alle ricerche online o al proprio giudizio.

Il compito era identificare potenziali condizioni di salute e raccomandare l’azione più appropriata – come consultare un medico di base o recarsi al pronto soccorso – a partire da scenari sviluppati da esperti.

Il risultato è stato chiaro: il gruppo supportato dall’intelligenza artificiale non è stato migliore nel valutare l’urgenza clinica e addirittura peggiore nell’individuare le condizioni rilevanti.

Un fallimento che non si spiega con la “stupidità” dei modelli, ma con un guasto fondamentale nella comunicazione.

Il grande equivoco: quando l’utente e l’ai non si capiscono

La radice del problema, spiegano i ricercatori, è un cortocircuito comunicativo a due vie.

Dall’altro, le risposte degli assistenti virtuali tendono a mescolare raccomandazioni valide e pessime in un unico flusso di testo persuasivo e apparentemente competente, rendendo estremamente difficile per una persona non esperta distillare la risposta corretta.

I partecipanti che usavano i grandi modelli linguistici avevano difficoltà a fornire informazioni pertinenti, e i modelli spesso rispondevano con messaggi contrastanti.

In uno degli esempi più eclatanti, due utenti hanno inviato messaggi molto simili descrivendo sintomi di un’emorragia subaracnoidea, una condizione neurologica grave.

Un chatbot ha consigliato correttamente di cercare cure d’emergenza.

L’altro ha detto all’utente di sdraiarsi in una stanza buia.

Questa incoerenza non è un bug, ma una caratteristica intrinseca di sistemi che, come sottolineano altri studi, cercano di fornire una risposta che compiaaccia l’utente, piuttosto che una risposta vera, e che non mettono in discussione ma tendono a confermare le convinzioni di chi interroga.

Il problema è amplificato dalla tendenza delle AI a “allucinare”, cioè a generare informazioni false con grande sicurezza.

Una ricerca della Icahn School of Medicine at Mount Sinai ha dimostrato che i chatbot sono altamente vulnerabili a ripetere ed elaborare false informazioni mediche, arrivando a inventare spiegazioni per condizioni inesistenti.

Quando questi errori si inseriscono in un dialogo dove l’utente fatica a distinguere il buon consiglio da quello cattivo, il rischio per la salute pubblica diventa concreto.

Nonostante tutto il clamore, l’intelligenza artificiale semplicemente non è pronta per assumere il ruolo del medico.

— Rebecca Elizabeth Payne, co-autrice dello studio e ricercatrice presso la North Wales Medical School

Un mercato in corsa contro un muro di regole

Questi risultati arrivano in un momento di febbre crescente per l’AI in medicina.

Il mercato globale dell’intelligenza artificiale nella diagnostica per immagini è stimato crescere a un tasso annuo superiore al 34%, trainato dalla domanda di soluzioni più accurate e dalla pressione per ridurre i costi operativi.

Aziende come Aidoc o Zebra Medical Vision sviluppano algoritmi specializzati approvati dalle autorità regolatorie per individuare emorragie cerebrali o misurare la densità ossea dalle TAC.

Ma c’è una differenza abissale tra questi strumenti verticali, validati in contesti specifici, e i chatbot generici su cui sempre più persone fanno domande sulla propria salute.

Il quadro normativo cerca di tenere il passo, ma con approcci molto diversi.

L’Unione Europea, con il suo AI Act, classifica i sistemi di AI per scopi medici come ad “alto rischio”, soggetti a requisiti stringenti su qualità dei dati, trasparenza e supervisione umana.

Il Regno Unito, dal canto suo, punta su un approccio “pro-innovazione” e di “tocco leggero”, affidandosi principalmente ai regolatori esistenti del settore sanitario piuttosto che creare un nuovo framework omnicomprensivo.

Questa divergenza riflette la tensione di fondo tra la spinta a innovare e l’imperativo di proteggere i pazienti, una tensione che lo studio di Oxford rende palpabile.

Perché se da un lato le aziende tech spingono per integrare le loro AI ovunque, incluso l’ambito sanitario, la realtà è che i grandi modelli linguistici non riescono a integrare e applicare veramente la conoscenza medica di dominio.

La medicina richiede un’esperienza profonda, un aggiornamento continuo e la capacità di gestire le infinite sfumature dei casi reali, cosa che un modello statistico addestrato su testi del web non possiede.

Il risultato è che, come osservano i ricercatori, le performance brillanti in test simulati non predicono i fallimenti con partecipanti umani.

La sfida è nell’interazione, non nell’intelligenza

Il vero nodo da sciogliere, quindi, non è rendere i modelli più “intelligenti” sui libri di testo di medicina, ma progettare interazioni che funzionino nel mondo reale.

La ricerca suggerisce che la soluzione non sta nel chatbot perfetto, ma in un sistema che riconosca e compensi le proprie – e le nostre – limitazioni.

Servirebbe, ad esempio, una progettazione che guidi attivamente l’utente a fornire i dati critici, che separi chiaramente i fatti dalle ipotesi e che, soprattutto, sappia dire “non lo so” o “devi parlare con un essere umano” molto più spesso di quanto non faccia oggi.

Alcuni esperti propongono di trattare lo sviluppo di questi sistemi come una sperimentazione clinica per nuovi farmaci, testandoli rigorosamente nel mondo reale prima del dispiegamento.

Altri sottolineano la necessità di una collaborazione multidisciplinare che coinvolga clinici, pazienti e regolatori per definire standard di sicurezza.

Ma c’è un ostacolo più profondo, di natura culturale: l’abitudine a vedere questi strumenti come oracoli onniscienti, piuttosto che come motori di ricerca molto sofisticati e potenzialmente inaffidabili.

Uno studio dell’University College London avverte che gli utenti dei sistemi basati su grandi modelli linguistici sono suscettibili a rimanere intrappolati in narrazioni culturali essenzializzate, rafforzando stereotipi e preconcetti attraverso l’interazione.

Alla fine, la domanda che lo studio lascia aperta è più filosofica che tecnologica.

Stiamo chiedendo a uno strumento nato per generare testo plausibile di fare ciò che di più umano esiste: ascoltare un malessere, interpretare un’incertezza, prendersi una responsabilità?

I numeri – quel 94,9% teorico contro il 34,5% reale – sembrano suggerire che, per ora, la risposta sia no.

E forse il rischio maggiore non è che l’AI sbagli diagnosi, ma che la nostra fiducia nella sua infallibilità ci porti a dimenticare che la cura, nella sua essenza, è ancora un atto tra persone.

Facebook X Network Pinterest Instagram
🍪 Impostazioni Cookie