Reklama
Pulsar - najnowsze informacje naukowe. Pulsar - najnowsze informacje naukowe. Shutterstock
Technologia

Sztuczna inteligencja lepsza od lekarzy na izbie przyjęć. Pracować tam jednak na razie nie będzie

Sztuczna inteligencja skraca „odyseję diagnostyczną” pacjentów z chorobami rzadkimi
Technologia

Sztuczna inteligencja skraca „odyseję diagnostyczną” pacjentów z chorobami rzadkimi

Wieloagentowy system DeepRare, oparty na dużych modelach językowych, poprawnie rozpoznaje schorzenia, które dotykają mniej niż 1 na 2 tys. osób, w niemal 6 na 10 przypadków. I robi to skuteczniej niż specjaliści z ponad 10-letnim stażem.

Przewaga algorytmu była najbardziej widoczna na początkowym etapie selekcji medycznej (triażu), gdy decyzje trzeba podejmować bardzo szybko, dysponując zaledwie wycinkiem informacji. Zaproponował on dokładną lub bardzo bliską prawdy diagnozę w 67,1 proc. przypadków.
Z ostatniej chwili|Z ostatniej chwili

W przyrodzie kolor wściekle żółty bywa stosowany ku przestrodze (patrz: liściołaz żółty) czy jako kamuflaż (patrz: modliszka storczykowa). W Pulsarze natomiast – to sygnał końca embarga, które prestiżowe czasopisma naukowe nakładają na publikowane przez badaczy artykuły. Tekst z żółtym oznaczeniem dotyczy więc doniesienia, które zostało upublicznione dosłownie przed chwilą.

Amerykańscy badacze przetestowali model o1-preview od OpenAI (udostępniony we wrześniu 2024 r.) podczas sześciu zróżnicowanych eksperymentów. Najbliższy autentycznej praktyce klinicznej okazał się test wykorzystujący zanonimizowane „surowe” dane 76 losowo wybranych pacjentów z oddziału ratunkowego jednego ze szpitali w Bostonie. Eksperci oceniali diagnozy postawione przez dwóch lekarzy oraz AI, ale nie wiedzieli (tzw. ślepa próba), czy ich autorem jest człowiek, czy maszyna. Okazało się, że o1 konsekwentnie przewyższał zarówno wcześniejsze modele sztucznej inteligencji, jak i dwóch doświadczonych specjalistów.

Przewaga algorytmu była najbardziej widoczna na początkowym etapie selekcji medycznej (triażu), gdy decyzje trzeba podejmować bardzo szybko, dysponując zaledwie wycinkiem informacji. Zaproponował on dokładną lub bardzo bliską prawdy diagnozę w 67,1 proc. przypadków, podczas gdy lekarze uzyskali wyniki na poziomie 55,3 proc. i 50 proc. Model potrafił bowiem umiejętnie łączyć rozproszone fragmenty nieustrukturyzowanych danych z dokumentacji medycznej.

Z kolei w testach z wykorzystaniem NEJM Healer – edukacyjnej platformy, na której lekarze ćwiczą wnioskowanie kliniczne, prowadząc symulowane konsultacje z wirtualnymi pacjentami – o1 osiągnął bardzo wyraźną przewagę. Jakość każdej z diagnoz mierzono za pomocą specjalnej skali oceniającej cztery domeny dokumentowania rozumowania klinicznego. Maksymalną liczbę punktów o1 zdobył w 78 z 80 przypadków. Dla porównania: model GPT-4 osiągnął komplet w 47, lekarze specjaliści w 28, a rezydenci zaledwie w 16.

Te imponujące statystyki nie oznaczają jednak, że algorytmy AI są już gotowe do samodzielnego zajmowania się chorymi, ani tym bardziej że lekarze zostaną wykluczeni z procesu diagnostycznego. Bez przekonujących dowodów na to, że technologia ta faktycznie poprawia jakość opieki i bezpieczeństwo pacjentów w codziennej pracy szpitali, algorytmy te wciąż będą uznawane za niegotowe do powszechnych zastosowań klinicznych.

Ponadto przeprowadzone testy, których wyniki opublikowano w najnowszym „Science”, mają istotne ograniczenia, na które zwracają uwagę ich autorzy. Model o1 operował wyłącznie na danych tekstowych. Tymczasem autentyczna praktyka kliniczna w ogromnej mierze polega na fizycznym badaniu pacjenta. Co więcej, wysoka trafność diagnoz generowanych na potrzeby zdefiniowanych zadań to zaledwie jeden z warunków gotowości do wdrożenia AI w placówkach medycznych.


Dziękujemy, że jesteś z nami. To jest pierwsza wzmianka na ten temat. Pulsar dostarcza najciekawsze informacje naukowe i przybliża najnowsze badania naukowe. Jeśli korzystasz z publikowanych przez Pulsar materiałów, prosimy o powołanie się na nasz portal. Źródło: www.projektpulsar.pl.

Reklama