Preparat ma skutki uboczne? AI z łatwością to wychwyci
|
W przyrodzie kolor wściekle żółty bywa stosowany ku przestrodze (patrz: liściołaz żółty) czy jako kamuflaż (patrz: modliszka storczykowa). W Pulsarze natomiast – to sygnał końca embarga, które prestiżowe czasopisma naukowe nakładają na publikowane przez badaczy artykuły. Tekst z żółtym oznaczeniem dotyczy więc doniesienia, które zostało upublicznione dosłownie przed chwilą. |
Skuteczność tego wyspecjalizowanego modelu AI oceniano w dwóch etapach. Najpierw naukowcy zgromadzili 10 tys. wpisów z Reddita. Dotyczyły one produktów z konopi i zostały wcześniej przeczytane i oznaczone przez ludzi („ten wpis to skarga na działania niepożądane”, „ten nie jest skargą”). Waldo poprawnie zinterpretował aż 99,7 proc. opinii internautów. ChatGPT w tym samym zadaniu osiągnął dokładność 94,4 proc. Różnica może wydawać się niewielka, ale kluczowe okazały się popełniane błędy. ChatGPT ponad 18 razy częściej generował „fałszywe alarmy”, czyli błędnie uznawał neutralny wpis za skargę na skutki uboczne, a także prawie 14 razy częściej pomijał prawdziwe doniesienia o problemach zdrowotnych. W drugim etapie Waldo analizował zbiór ponad 437 tys. postów z 20 forów dyskusyjnych (subredditów). Zidentyfikował w nim prawie 29 tys. potencjalnych zgłoszeń działań niepożądanych, a ręczna weryfikacja ich losowej próbki potwierdziła, że 86 proc. wskazał trafnie.
Sięgnij do źródeł
Badania naukowe: Waldo: Automated discovery of adverse events from unstructured self reports
W opinii dr. Karana Desaia z University of Michigan – pierwszego autora publikacji prezentującej Waldo, która ukazała się w „PLOS Digital Health” – doświadczenia zdrowotne, którymi ludzie dzielą się w internecie, to nie tylko szum informacyjny, ale cenne sygnały dotyczące bezpieczeństwa. Dlatego twórcy modelu AI już udostępnili go w formie open-source, by badacze, klinicyści i organy regulacyjne mogły z niego korzystać bezpłatnie.
Twórcy Waldo wskazują jednak na pewne ograniczenia swojego narzędzia. Wciąż wymaga ono ludzkiej weryfikacji zidentyfikowanych wpisów, co może być wąskim gardłem całego procesu. Ponadto model trenowano na danych dotyczących konkretnego produktu (delta-8-THC, zawierającego jeden z kannabinoidów naturalnie występujących w roślinach konopi), co może ograniczać jego skuteczność w analizie doniesień o innych substancjach. Ponadto porównanie z ChatGPT nie oddawało w pełni możliwości tego chatbota, gdyż użyto jego domyślnych ustawień, bez optymalizacji pod kątem tego konkretnego zadania. Aczkolwiek autorzy publikacji wątpią, by mogła ona całkowicie zniwelować różnice z Waldo.
Dziękujemy, że jesteś z nami. To jest pierwsza wzmianka na ten temat. Pulsar dostarcza najciekawsze informacje naukowe i przybliża najnowsze badania naukowe. Jeśli korzystasz z publikowanych przez Pulsar materiałów, prosimy o powołanie się na nasz portal. Źródło: www.projektpulsar.pl.