Reklama
Pulsar - najnowsze informacje naukowe. Pulsar - najnowsze informacje naukowe. Shutterstock
Technologia

Sztuczna inteligencja świetnie zdała egzamin lekarski

AI przewiduje problemy zdrowotne nawet dwie dekady przed diagnozą
Technologia

AI przewiduje problemy zdrowotne nawet dwie dekady przed diagnozą

Algorytm wytrenowano na zanonimizowanych danych medycznych 400 tys. uczestników brytyjskiego projektu UK Biobank. Następnie jego skuteczność przetestowano i potwierdzono z wykorzystaniem informacji o 1,9 mln osób z duńskiego Krajowego Rejestru Pacjentów.

Powodzenie zapewnił nowatorski model kooperacji kilku algorytmów. W przyszłości może on umożliwić powstanie znacznie bardziej godnych zaufania narzędzi AI dla medycyny.
Z ostatniej chwili|||Z ostatniej chwili

W przyrodzie kolor wściekle żółty bywa stosowany ku przestrodze (patrz: liściołaz żółty) czy jako kamuflaż (patrz: modliszka storczykowa). W Pulsarze natomiast – to sygnał końca embarga, które prestiżowe czasopisma naukowe nakładają na publikowane przez badaczy artykuły. Tekst z żółtym oznaczeniem dotyczy więc doniesienia, które zostało upublicznione dosłownie przed chwilą.

Nowatorską metodę, naukowcy nazwali „Radą AI” (Council of AIs). Składa się ona z pięciu oddzielnych, ale identycznych wersji tego samego modelu GPT 4. Każdy z takich „agentów AI” najpierw samodzielnie odpowiadał na cześć z 325 publicznie dostępnych pytań z amerykańskiego egzaminu dopuszczającego do zawodu lekarza (USMLE), który składa się z trzech części. Następnie osobny algorytm sprawdzał, czy odpowiedzi te są zgodne. Jeśli pojawiały się rozbieżności, podsumowywał argumentację każdej ze stron i prosił „Radę” o ponowne, wspólne zastanowienie się nad problemem. Proces ten był powtarzany aż do osiągnięcia konsensu.

Wyniki okazały się rekordowe. Rada AI osiągnęła poprawność na poziomie 97 proc. w części pierwszej (obejmującej podstawowe nauki biomedyczne), 93 proc. w części drugiej (sprawdzającej wiedzę kliniczną), oraz 94 proc. w części trzeciej (oceniającej gotowość do samodzielnej praktyki lekarskiej). We wcześniejszym badaniu, wykorzystującym ten sam zestaw pytań, pojedynczy GPT 4 uzyskał odpowiednio 88, 86 i 90 proc.

Konieczność „debatowania” pojawiła się w przypadku 22 proc. rozwiązywanych zadań. Natomiast w sytuacjach, gdy na początku większość agentów AI udzielała błędnej odpowiedzi, wspólna dyskusja pozwalała na skorygowanie błędu w ponad połowie (53 proc.) przypadków. Jak wyliczyli badacze, szansa na zmianę niepoprawnej odpowiedzi dzięki debacie była pięciokrotnie wyższa niż prawdopodobieństwo, że wspólna narada zmieni poprawną odpowiedź na błędną.

Eksperyment ma pewne niedoskonałości, o których piszą autorzy pracy w „PLOS Digital Health”. Zastosowana przez nich metoda jest kosztowna obliczeniowo i czasochłonna – uzyskanie odpowiedzi na jedno pytanie zajmowało od 3 do 7 min. Ponadto wykorzystano tylko pytania wielokrotnego wyboru, pomijając te zawierające obrazy lub tabele. Nie sprawdzono też, czy współpraca różnych modeli AI (np. GPT, Claude, Gemini) nie przyniosłaby jeszcze lepszych rezultatów.


Dziękujemy, że jesteś z nami. To jest pierwsza wzmianka na ten temat. Pulsar dostarcza najciekawsze informacje naukowe i przybliża najnowsze badania naukowe. Jeśli korzystasz z publikowanych przez Pulsar materiałów, prosimy o powołanie się na nasz portal. Źródło: www.projektpulsar.pl.

Reklama

Ta strona do poprawnego działania wymaga włączenia mechanizmu "ciasteczek" w przeglądarce.

Powrót na stronę główną