Modele AI świetnie zdają egzaminy lekarskie, ale pacjentom nie pomagają
Systemy opieki zdrowotnej na całym świecie rozważają wykorzystanie dużych modeli językowych (LLM) jako narzędzi, które pozwoliłyby pacjentom wstępnie ocenić swoje objawy, zanim trafią do lekarza. Międzynarodowy zespół naukowców postanowił więc sprawdzić, czy ta praktyka ma w ogóle sens. A wyniki opublikowane w „Nature Medicine” sugerują, że, niestety, nie. Przynajmniej na razie.
W badaniu wzięło udział 1298 dorosłych mieszkańców Wielkiej Brytanii. Każdy otrzymał scenariusze medyczne opisujące określone problemy zdrowotne – od przeziębienia i alergicznego nieżytu nosa po zatorowość płucną i krwotok podpajęczynówkowy. Uczestnicy mieli zidentyfikować prawdopodobne schorzenie i wybrać właściwy sposób postępowania (np. samoleczenie, wizyta u lekarza pierwszego kontaktu, wezwanie karetki). Losowo przydzielono ich do jednej z czterech grup: trzech korzystających z modeli językowych (GPT-4o, Llama 3, Command R+) oraz kontrolnej, która mogła sięgać po dowolne źródła informacji, w tym wyszukiwarkę internetową.
Gdy modele AI otrzymywały scenariusze bezpośrednio, radziły sobie dobrze – poprawnie wskazywały przynajmniej jedno istotne schorzenie w 94,9 proc. przypadków. Gdy jednak służyły jako asystenci ludzi, odsetek prawidłowych identyfikacji spadał poniżej 34,5 proc. Co więcej, grupa kontrolna radziła sobie lepiej – jej członkowie mieli istotnie wyższe szanse na trafne rozpoznanie niż osoby korzystające z chatbotów. Natomiast w kwestii wyboru właściwego postępowania żadna z grup nie wyróżniła się statystycznie – ogólna trafność wyniosła ok. 43 proc.
Analiza 30 losowo wybranych transkryptów rozmów z chatbotami ujawniła dwustronny mechanizm porażki. W ponad połowie przypadków użytkownicy przekazywali modelom niekompletne informacje o objawach – jak np. pacjent, który nie wspomniał o lokalizacji ani nasileniu bólu brzucha, uniemożliwiając rozpoznanie kamicy żółciowej. Z drugiej strony, modele same generowały błędne lub niespójne odpowiedzi. W skrajnym przypadku dwóch użytkowników opisało niemal identyczne objawy krwotoku podpajęczynówkowego, a GPT-4o jednemu zalecił leżenie w ciemnym pokoju, drugiemu natychmiastową wizytę na SOR. Badacze zauważyli też, że nawet gdy chatbot proponował trafne rozpoznanie, użytkownicy często je ignorowali. Dlatego zanim chatboty medyczne trafią do powszechnego użytku, konieczne jest odejście od testów „na sucho” na rzecz systematycznych badań z udziałem prawdziwych, zróżnicowanych użytkowników.
Sięgnij do źródeł
Badania naukowe: Reliability of LLMs as medical assistants for the general public: a randomized preregistered study
Również wyniki innego eksperymentu, opublikowane w „The Lancet Digital Health”, wskazują na niebezpieczeństwa używania LLM-ów do porad medycznych. Naukowcy sprawdzili, czy dziewięć wiodących modeli językowych powtórzy fałszywe informacje medyczne osadzone w trzech rodzajach treści:
- prawdziwych wypisach szpitalnych, do których dodano jedno sfabrykowane zalecenie,
- popularnych mitach zdrowotnych zebranych z forum internetowego Reddit,
- 300 krótkich scenariuszach klinicznych napisanych i zweryfikowanych przez lekarzy.
Każdy przypadek prezentowano w kilku wersjach – od sformułowanych neutralnie po nacechowane emocjonalnie, naśladujące język mediów społecznościowych.
Wyniki okazały się niepokojące. Modele wielokrotnie traktowały fałszywe informacje medyczne jak standardowe zalecenia, o ile były one osadzone w wiarygodnie brzmiącym kontekście klinicznym. W jednym z testów wypis szpitalny zawierał zmyśloną radę, by pacjenci z krwawieniem związanym z zapaleniem przełyku „pili zimne mleko w celu złagodzenia objawów”. Kilka modeli zaakceptowało to stwierdzenie bez zastrzeżeń. Najwyraźniej dla nich mniejsze znaczenie miało to, czy dane twierdzenie jest prawdziwe, a większe, jak zostało sformułowane.
Dlatego podatność na dezinformację powinna być traktowana jako mierzalny parametr systemów AI. A opracowany na potrzeby tego eksperymentu zbiór danych może posłużyć jako test warunków skrajnych, pozwalający ocenić, jak często dany model przekazuje dalej fałszywą informację i czy kolejne generacje LLM radzą sobie z tym lepiej.
Sięgnij do źródeł
Badania naukowe: Mapping LLM Susceptibility to Medical Misinformation Across Clinical Notes and Social Media
Dziękujemy, że jesteś z nami. To jest pierwsza wzmianka na ten temat. Pulsar dostarcza najciekawsze informacje naukowe i przybliża najnowsze badania naukowe. Jeśli korzystasz z publikowanych przez Pulsar materiałów, prosimy o powołanie się na nasz portal. Źródło: www.projektpulsar.pl.