ChatGPT supera l'esame per diventare medico (ma c'è un problema)

Un gruppo di ricercatori ha sottoposto ChatGPT-4 a quasi 200 domande per diventare medico, in cosa eccelle e quali sono le difficoltà dell'IA

21 Aprile 2025

Stefania Bernardini

GIORNALISTA

Giornalista professionista dal 2012, ha collaborato con le principali testate nazionali. Ha scritto e realizzato servizi Tv di cronaca, politica, scuola, economia e spettacolo. Ha esperienze nella redazione di testate giornalistiche online e Tv e lavora anche nell’ambito social

Le sperimentazioni su ChatGPT sono sempre più numerose e di vario tipo. Dai test per analizzare quanto questa tecnologia è brava a scrivere poesie, fino all’osservazione di quanto riesca a essere creativa. Ora, in Inghilterra, si è tentato un nuovo esame: provare a fargli ottenere la licenza da medico.

Il test di ChatGPT per diventare medico

Un gruppo di ricercatori universitari inglesi ha sottoposto ChatGPT-4 a quasi 200 domande formulate sul modello dell’United Kingdom Medical Licensing Assessment (UKMLA), trattandolo come fosse un vero e proprio aspirante medico.

Nel Regno Unito i laureati in Medicina e i medici provenienti da altri Paesi, per poter esercitare la professione, devono passare un test standardizzato. Come hanno scritto i ricercatori, l’obiettivo dell’esperimento era “confrontare la competenza medica di GPT-4 con il livello previsto per un medico junior del Regno Unito e discutere il suo potenziale nella pratica clinica”. I risultati sono stati pubblicati su Scientific Reports.

ChatGPT è stato sottoposto a 191 domande che rientravano in 24 aree cliniche organizzate in due documenti da 100 domande. Di queste nove domande sono state escluse perché si basavano su immagini e ChatGPT non è stato in grado di rispondere. Inoltre, ciascuna delle domande è stata posta sia con risposte a scelta multipla, che in modo completamente aperto.

I risultati ottenuti da ChatGPT

ChatGPT-4 ha risposto in modo accurato alla maggior parte delle domande con una precisione dell’86,3% e dell’89,6% alle domande a scelta multipla nei due documenti.

Tuttavia, l’intelligenza artificiale si è dimostrata meno efficace e precisa senza le opzioni a scelta multipla, scendendo al 61,5% per il primo documento e al 74,7% per il secondo. Un dettaglio da tenere in conto: in otto domande, ChatGPT ha risposto meglio senza opzioni, probabilmente perché queste potrebbero aver agito da “distrattori” influenzando le sue risposte.

Un elemento che i ricercatori hanno notato è che, in generale, l’intelligenza artificiale ha risposto meglio alle domande che hanno richiesto soltanto un passaggio di ragionamento, con una differenza significativa rispetto a quelle più complesse.

“Gli LLM (i modelli linguistici di grandi dimensioni) – hanno commentato gli autori – sono in grado di elaborare con competenza scenari clinici ma rimangono incapaci di comprendere questi scenari clinici”.

ChatGPT, più bravo a curare o a diagnosticare?

Il test ha fatto emergere un risultato importante che riguarda la capacità di ChatGPT-4 di diagnosticare e curare. L’intelligenza artificiale è stata brava, in particolare, nelle domande diagnostiche rispondendo con una precisione del 91,2% con suggerimenti e dell’84,2% senza suggerimenti.

Il problema è che non si è dimostrata altrettanto competente per quanto riguarda le domande relative alla gestione clinica, soprattutto se poste senza opzioni multiple. In questo caso la precisione è scesa al 51,2%.

In definitiva, per i ricercatori inglesi ChatGPT ha superato l’esame, ma funziona meglio con l’aiuto delle opzioni multiple e, inoltre, ha mostrato un grado inferiore di efficienza nella pratica clinica.

Lo studio ha quindi dimostrato che ChatGPT è in grado di superare l’UKMLA, “ma – hanno chiarito i ricercatori – è più adatto come strumento supplementare, di monitoraggio o di apprendimento piuttosto che come diagnosi o interazione ospedaliera”.