Umjetna inteligencija griješi u više od 80 % primarnih dijagnoza pacijenata

Pexels Intervju s ChatGPT chatbotom
Generativnoj umjetnoj inteligenciji (UI) još uvijek nedostaju procesi rasuđivanja potrebni za sigurnu kliničku upotrebu, otkrila je nova studija.
Vidi originalni članak

AI chatbotovi poboljšali su svoju dijagnostičku točnost kada su im predstavljene sveobuhvatne kliničke informacije, ali i dalje nisu uspjeli postaviti odgovarajuću diferencijalnu dijagnozu u više od 80 % slučajeva, prema istraživačima iz Mass General Brigham, neprofitne bolnice i istraživačke mreže sa sjedištem u Bostonu i jednog od najvećih zdravstvenih sustava u Sjedinjenim Državama.

Rezultati studije, objavljeni u medicinskom časopisu JAMA Network Open, otkrili su da veliki jezični modeli (LLM) ne zadovoljavaju uvjete potrebne za kliničku upotrebu.

"Unatoč kontinuiranim poboljšanjima, gotovi veliki jezični modeli nisu spremni za nenadziranu primjenu na kliničkoj razini", rekao je Marc Succi, koautor studije. Dodao je da umjetna inteligencija još ne može replicirati diferencijalnu dijagnozu, koja je ključna za kliničko razmišljanje i koju on smatra "umjetnostima medicine". Diferencijalna dijagnoza je prvi korak zdravstvenih djelatnika u identificiranju stanja, odvajajući ga od drugih sa sličnim simptomima.

bez provjere Studija otkriva: AI lakše nasjeda na medicinske dezinformacije ako izvor izgleda legitimno

Kako su modeli umjetne inteligencije testirani?

Istraživački tim analizirao je funkcioniranje 21 LLM-a, uključujući najnovije dostupne verzije Claudea, DeepSeeka, Geminija, GPT-a i Groka. Procijenili su LLM-ove na 29 standardiziranih kliničkih primjera koristeći novo razvijeni alat pod nazivom PrIME-LLM. Alat procjenjuje sposobnost modela u različitim fazama kliničkog rasuđivanja: provođenje početne dijagnoze, naručivanje odgovarajućih testova, donošenje konačne dijagnoze i planiranje liječenja.

Kako bi simulirali razvoj kliničkih slučajeva, istraživači su postupno unosili podatke u modele, počevši s osnovama poput dobi, spola i simptoma pacijenta, prije nego što su dodali nalaze fizičkog pregleda i laboratorijske rezultate. Diferencijalna dijagnoza je ključna u stvarnom kliničkom okruženju za prelazak na sljedeći korak. Međutim, u studiji su modelima dane dodatne informacije kako bi mogli prijeći na sljedeću fazu čak i ako ne uspiju u diferencijalnoj dijagnozi.

Istraživači su otkrili da su jezični modeli postigli visoku točnost u konačnim dijagnozama, ali su se slabo pokazali u generiranju diferencijalnih dijagnoza i snalaženju u nesigurnosti.

Autorica studije Arya Rao istaknula je da postupnim ocjenjivanjem LLM-ova, prestaje ih se tretirati kao polagače testova i stavlja ih se u poziciju liječnika. "Ovi modeli su izvrsni za postavljanje konačne dijagnoze nakon što su podaci potpuni, ali imaju poteškoća na početku slučaja, kada nema puno informacija“, dodala je.

Istraživači su otkrili da nijedan model nije uspio dati odgovarajuću diferencijalnu dijagnozu u više od 80 % slučajeva. Prilikom konačne dijagnoze, stope uspjeha kretale su se od oko 60 % do preko 90 %, ovisno o modelu. Većina LLM-ova pokazala je poboljšanu točnost kada su uz tekst bili dostavljeni i laboratorijski rezultati i slike.

Rezultati su identificirali klaster s najboljim rezultatima koji je uključivao Grok 4, GPT-5, GPT-4.5, Claude 4.5 Opus, Gemini 3.0 Flash i Gemini 3.0 Pro.

točna u najmanje 80 posto slučajeva Umjetna inteligencija može utvrditi je li osoba u riziku od razvoja preko 100 bolesti na temelju njezinog sna

Medicinski stručnjaci su i dalje ključni

Međutim, autori su primijetili da unatoč poboljšanjima temeljenim na verzijama i prednostima modela optimiziranih za rasuđivanje, standardni LLM-ovi još nisu postigli razinu inteligencije potrebnu za sigurnu primjenu i ostaju ograničeni u demonstraciji naprednog kliničkog rasuđivanja.

"Naši rezultati potvrđuju da veliki jezični modeli u zdravstvu i dalje zahtijevaju čovjeka i vrlo strog nadzor", rekao je Succi.

Susana Manso García, članica radne skupine za umjetnu inteligenciju i digitalno zdravlje Španjolskog društva za obiteljsku i društvenu medicinu, koja nije bila uključena u studiju, rekla je da nalazi nose jasnu poruku javnosti.

"Sama studija inzistira na tome da se jezični modeli ne bi trebali koristiti za donošenje kliničkih odluka bez nadzora. Stoga, iako umjetna inteligencija predstavlja obećavajući alat, klinička prosudba ljudi ostaje nezamjenjiva", rekla je. "Preporuka javnosti je da ove tehnologije koristi s oprezom i da se, u slučaju bilo kakvog zdravstvenog problema, uvijek posavjetuje sa zdravstvenim djelatnikom."

teško prepoznaje potrebu za hitnom pomoći Trebate li koristiti ChatGPT za rješavanje svojih medicinskih problema? Nova studija poziva na oprez

Posjeti missZDRAVA.hr