Come se la cava l'IA con i test di Medicina: i suoi risultati
Uno studio ha testato i risultati dell'intelligenza artificiale ai test di medicina, ma c'è qualcosa che manca a ChatGpt e agli altri sistemi
L’intelligenza artificiale ha i suoi fautori e detrattori in vari ambiti, ma è quasi unanime il consenso su quanto sia utile in ambito medico. Diversi studi sono andati anche oltre la valutazione del semplice supporti ai medici e hanno cercato di analizzare quanto l’Ia sia abile nei test di medicina. Un nuovo studio condotto da ricercatori della Harvard Medical School e della Stanford University, pubblicato su Nature Medicine il 2 gennaio, ha osservato quali sono le interazioni della tecnologia con i pazienti reali.
I risultati dell’IA ai test di medicina
Il recente studio ha rivelato che i modelli di intelligenza artificiale hanno prestazioni notevoli nei test di medicina standard, ma non se la cavano altrettanto bene in situazioni che imitano più da vicino il mondo reale. I ricercatori di Harvard e Stanford hanno realizzato un test, chiamato CRAFT-MD (Conversational Reasoning Assessment Framework for Testing in Medicine), e lo hanno utilizzato su quattro LLM (i modelli linguistici di grandi dimensioni) per verificare le loro prestazioni in contesti che riproducevano le interazioni reali con i pazienti.
Tutti e quattro i modelli hanno ottenuto buoni risultati nelle domande da esame medico, ma le loro prestazioni sono peggiorate quando hanno dovuto affrontare conversazioni che simulavano le interazioni del mondo reale.
L’esperimento per analizzare l’IA con gli esami di medicina
Secondo il team di ricerca, tramite gli strumenti di valutazione come CRAFT-MD, si possono valutare i modelli di intelligenza artificiale in modo più accurato dal punto di vista dell’adeguatezza al mondo reale. Queste analisi potrebbero anche aiutare a ottimizzare le loro prestazioni nella vita reale.
“Il nostro lavoro rivela un sorprendente paradosso: mentre questi modelli di intelligenza artificiale eccellono negli esami standard, hanno difficoltà nel semplice “botta e risposta” di una visita medica”, ha spiegato Pranav Rajpurkar , autore senior dello studio e professore associato di Informatica biomedica presso la Harvard Medical School.
I ricercatori hanno utilizzato CRAFT-MD per testare quattro modelli di intelligenza artificiale, sia proprietari o commerciali che open source, per verificarne le prestazioni in 2.000 casistiche cliniche che presentano malattie comuni nella medicina di base e in 12 specialità mediche. Tutti i modelli di intelligenza artificiale hanno mostrato delle limitazioni, in particolare nella loro capacità di condurre colloqui clinici ragionare in base alle informazioni fornite dai pazienti. Ciò, a sua volta, ha compromesso la loro capacità di raccogliere anamnesi e formulare diagnosi appropriate.
Cosa manca all’Ia
In pratica, durante i test del nuovo studio, l’intelligenza artificiale ha spesso avuto difficoltà a porre le domande giuste per raccogliere la storia clinica del paziente, ha perso informazioni essenziali durante la raccolta dell’anamnesi e ha avuto difficoltà a sintetizzare informazioni sparse.
L’accuratezza di questi modelli è diminuita quando sono state presentate loro informazioni non conclusive, anziché risposte a scelta multipla e hanno avuto prestazioni ancora peggiori quando hanno dovuto affrontare colloqui “botta e risposta“, come la maggior parte delle conversazioni nel mondo reale, piuttosto che in conversazioni ridotte. All’Ia manca il fattore umano che, secondo i ricercatori, deve essere sempre presente. In ogni caso la tecnologia continua ad avanzare e progredire con gli scienziati costantemente impegnati nel rendere sempre più efficace l’uso dell’intelligenza artificiale nell’ambito sanitario.