Różne badania i różne sposoby wnioskowania sugerują, że około połowy naukowych Różne badania i różne sposoby wnioskowania sugerują, że około połowy naukowych "odkryć" tak naprawdę nie istnieje. Alberto Andrei Rposu / Shutterstock
Struktura

Zaskakująco duża część artykułów naukowych jest błędna

Badacze bardzo często przedstawiają odkrycia, wnioski z badań i efekty eksperymentów, które okazują się fałszywe. Nauka ma jednak wbudowane rozmaite mechanizmy ich korekty. I pozostaje najlepszym sposobem na zdobywanie rzetelnej wiedzy o świecie.

Carl Sagan, znany amerykański astronom i pisarz, ponad 30 lat temu sformułował zasadę znaną dzisiaj jako „standard Sagana”: nadzwyczajne twierdzenia wymagają nadzwyczajnych dowodów. Tymczasem w mediach jest dokładnie na odwrót. Kiedy naukowcy opublikują artykuł ze „wstrząsającymi” wnioskami, niemal natychmiast zyskuje on rozgłos w internecie, a później nierzadko wchodzi do kanonu „wiedzy ludowej”. Inni naukowcy mogą załamywać ręce i wskazywać, że analiza statystyczna była pełna błędów, wnioskowanie nielogiczne, albo że późniejsze badania nie potwierdziły postulowanego efektu, ale dżina nie da się już zagonić z powrotem do butelki. Tymczasem błędna jest zaskakująco duża część artykułów naukowych.

To twierdzenie nie jest kontrowersyjne. Było takie do 2005 r., gdy John P.A. Ioannidis napisał o tym na łamach „PLoS Medicine” w słynnym artykule „Why most published research findings are false” („Dlaczego większość opublikowanych wyników badań jest fałszywa”). Grecko-amerykański badacz wykonał proste symulacje, z których wynikało, że większość „odkryć naukowych” z bardzo dużym prawdopodobieństwem jest błędna. A w przypadku artykułów zawierających najbardziej zaskakujące lub rewolucyjne tezy, takie niebezpieczeństwo jeszcze wzrasta i to drastycznie. I wskazał, że ważną funkcję pełni w tym zarówno świadoma, jak i nieuświadomiona stronniczość naukowców – wszak każdy chciałby coś odkryć. Główna teza Ioannidisa została później potwierdzona różnymi metodami i w różnych dziedzinach nauki.

Żeby zrozumieć naturę owych pomyłek, musimy zacząć od statystyki, bo na niej opiera się współczesna nauka. To potężne narzędzie – pozwala na wyciąganie wniosków na podstawie niekompletnych danych. Naturalną konsekwencją próby zrozumienia ogółu na podstawie jego fragmentu są jednak błędy, które na potrzeby tej dyskusji możemy podzielić na dwie kategorie.

Widzenie nieistniejącego

Po pierwsze, można wykryć efekt, którego w rzeczywistości nie ma. To problem w nauce zaskakująco rozpowszechniony, przy czym jego nasilenie trochę się różni pomiędzy dziedzinami, np. w naukach społecznych (psychologia, socjologia, pedagogika, politologia) wydaje się być nieco gorzej, a w biologicznych czy fizycznych odrobinę lepiej. Niemniej różne badania i różne sposoby wnioskowania sugerują, że około połowy naukowych „odkryć” tak naprawdę nie istnieje. To przybliżone oszacowanie daje dość dobre pojęcie o skali wyzwania. Ilustracją tego problemu mogą być „rewolucyjne” badania Roya Baumeistera, opublikowane w 1998 r. w „Journal of Personality and Social Psychology”, według których siła woli miała się podczas zadań wymagających samokontroli wyczerpywać, trochę jak mięśnie podczas wysiłku. Na przykład, jeśli ktoś jest na diecie i musi powstrzymywać swój apetyt, to łatwiej miał ulegać innym impulsom, w tym agresji. Ta teoria wywierała duży wpływ na psychologię przez prawie dwie dekady. Ostatecznie okazało się, że inne zespoły badawcze nie są w stanie powtórzyć wyników Baumeistera: rygorystyczne eksperymenty nie przyniosły dowodów na zużywanie się zasobów samokontroli.

Po drugie, nawet gdy naukowcy wykryją prawdziwy efekt, to mogą przecenić jego siłę. Na przykład zespół japońskiego naukowca Shinichi Nakagawy oszacował niedawno, że w mojej dziedzinie, czyli ekologii i ewolucji, prawdziwe efekty są średnio czterokrotnie słabsze od tych, które naukowcy opisują w swoich badaniach (wyniki opublikowano w „BMC Biology”). Cierpią na tym np. próby zrozumienia wpływu globalnych zmian na organizmy. Podejrzewamy, że takie przecenianie objawia się m.in. w badaniach dotyczących szkodliwego wpływu zakwaszenia oceanów na zachowania ryb, rozmiarów zauważalnego w ostatnich dekadach zmniejszenia liczebności owadów czy też negatywnego efektu obcych, inwazyjnych gatunków roślin na różnorodność biologiczną.

Naukowe pomyłki są tak rozpowszechnione, gdyż badane efekty często są subtelne, a zbieranie danych wymaga dużo wysiłku, czasu i pieniędzy. Dlatego standardem jest porywanie się z motyką na słońce, czyli próba oceny hipotezy za pomocą – znów – zbyt małej ilości faktów. W takich przypadkach nie można precyzyjnie oszacować efektu (mówimy wtedy o „niewielkiej mocy statystycznej”). Większość z nich niczego nie wykrywa i zwykle kończy jako „nieudane” w szufladzie naukowca. Natomiast te badania, które mimo niskiej mocy statystycznej wykryją jakiś efekt, z pewnością go przeszacują. To trochę jak łowienie w sieć o dużych oczkach i dochodzenie do wniosku, że jezioro zamieszkują tylko wielkie ryby. Jednak takie badania, które prezentują zaskakująco silne efekty, są najbardziej atrakcyjne dla czasopism naukowych.

Po pierwsze, można wykryć efekt, którego w rzeczywistości nie ma. To problem w nauce zaskakująco rozpowszechniony, przy czym jego nasilenie trochę się różni pomiędzy dziedzinami, np. w naukach społecznych (psychologia, socjologia, pedagogika, politologia) wydaje się być nieco gorzej, a w biologicznych czy fizycznych odrobinę lepiej.ShutterstockPo pierwsze, można wykryć efekt, którego w rzeczywistości nie ma. To problem w nauce zaskakująco rozpowszechniony, przy czym jego nasilenie trochę się różni pomiędzy dziedzinami, np. w naukach społecznych (psychologia, socjologia, pedagogika, politologia) wydaje się być nieco gorzej, a w biologicznych czy fizycznych odrobinę lepiej.

Uznawanie oczekiwanego

W dodatku nawet jeśli mamy obfitość danych, to często są one złożone i niejednoznaczne. Żeby poradzić sobie z tym wyzwaniem, analizy statystyczne również stają się coraz bardziej skomplikowane, co tworzy nowe problemy. Parafrazując stary żart: daj trzem naukowcom te same dane, a dojdą do trzech różnych wniosków (czterech, jeśli jeden jest z Harvardu). Na przykład w badaniu z 2018 r. 61 naukowców, podzielonych na 29 zespołów, miało ocenić, czy sędziowie piłkarscy są bardziej skłonni ukarać żółtymi kartkami ciemnoskórych piłkarzy (wyniki ogłoszono w „Advances in Methods and Practices in Psychological Science”). Co trzeci zespół nie znalazł zależności, a wśród tych, które znalazły efekt, niektóre stwierdziły, że sędziowie mają takie inklinacje, inne że ten efekt jest słaby, a część doszła do odwrotnego wniosku: że to właśnie biali częściej dostają kartki.

Inny przykład to badanie opublikowane w ubiegłym roku w „Proceedings of the National Academy of Sciences”. 161 doświadczonych naukowców w 73 grupach analizowało te same dane, aby zbadać, czy wzrost imigracji prowadzi do obniżenia poparcia dla rządowej polityki społecznej (czyli zasiłków). Wyniki układały się dość równo pomiędzy „nie ma efektu” i „jest efekt”. Co więcej, w rezultatach, które sugerowały, że imigracja wpływa na postrzeganie rządowego wsparcia dla potrzebujących, efekt pozytywny i negatywny występowały podobnie często.

Rozbieżności biorą się stąd, że każda analiza statystyczna wymaga wyborów, które rzadko są oczywiste. Jakie dane uwzględnić, a jakie odrzucić jako niewiarygodne? Jak precyzyjnie sformułować badaną hipotezę? Które zmienne uwzględnić i dlaczego? Jakie testy statystyczne zastosować? To prawdziwy labirynt decyzji. W dodatku wielu naukowców wierzy, że poszukiwany efekt naprawdę istnieje, tylko ukrywa się w krnąbrnych danych, a zadaniem statystyki jest go wydobyć. Zgodnie z tą logiką taką analizę, która wskazuje na istnienie efektu, uznają za najlepszą. Zdają się mówić: dajcie nam dane, a wynik się znajdzie.

W ten sposób dochodzimy do kolejnego problemu, którym jest subiektywizm w wyszukiwaniu i raportowaniu wyników. Nauka ma być obiektywna, jest jednak tworzona przez ludzi (przynajmniej w momencie oddawania tego artykułu do druku), którzy mają swoje przekonania, poglądy i ulubione teorie. Nawet przy dobrych intencjach prowadzi to do stronniczości. Nikt bowiem nie jest wolny od efektu potwierdzenia, czyli tendencji do zwracania uwagi na informacje, które są zgodne z jego poglądami, i ignorowania tych, które je podważają.

Niebezpieczeństwo jest największe, gdy badana kwestia ma podłoże ideologiczne, a dane są dalekie od jednoznaczności (jak w przykładzie z piłkarzami). Co więcej, nawet głębokie zrozumienie mechanizmu na efekt potwierdzenia nie uodparnia. Jedyną szczepionką jest różnorodność przekonań i postaw w nauce. Choć badacze mają problem z dostrzeżeniem belki w swoim oku, to potrafią sprawnie znaleźć drzazgę w cudzym. Ta umiejętność, choć irytująca, jest nieoceniona dla funkcjonowania nauki, ale przestaje działać, gdy wszyscy naukowcy mają te same poglądy.

Potrzebna jest zatem ogromna pokora, bo wyniki pojedynczego badania pozostają słabym dowodem. Jednocześnie trzeba docenić, że mimo błędów, uprzedzeń i chaosu w wynikach nauka jednoznacznie rozstrzygnęła cały szereg kontrowersyjnych zagadnień, od wpływu papierosów na rozwój nowotworów, po rolę człowieka w ociepleniu klimatu.

Po drugie, nawet gdy naukowcy wykryją prawdziwy efekt, to mogą przecenić jego siłę.ShutterstockPo drugie, nawet gdy naukowcy wykryją prawdziwy efekt, to mogą przecenić jego siłę.

Powiększanie niewielkiego

Dowodem na to, że nauka dokonuje autokorekty, jest fenomen tak zwanych „znikających wyników”. Czasami gdy naukowcy odkrywają jakieś zjawisko, pierwsze doniesienia informują, że jest ono niezwykle silne, jednak w kolejnych badaniach coraz bardziej słabnie, a zdarza się, że zupełnie zanika. Klasycznym przykładem z dziedziny biologii jest wpływ symetrii na wybór partnera. Według pewnych teorii zwierzęta i ludzie wybierają partnerów o symetrycznym wyglądzie, ponieważ jest on dowodem na wysoką jakość genów. Pierwsze badania wykazywały uderzająco silny wpływ symetrii na kojarzenia. Jedno (o tym, że u ludzi jakość tańca odzwierciedla symetrię ciała) dostało się nawet, w 2005 r., na okładkę najbardziej prestiżowego czasopisma naukowego „Nature”. Jednak kolejne badania wykazywały coraz słabsze efekty. Co więcej, badanie z „Nature” zostało wycofane kilka lat po publikacji, gdy okazało się, że jednemu z autorów tak bardzo zależało na wyniku, że aż sfałszował dane.

Nauka to kolos, który stoi na glinianych nóżkach pojedynczych publikacji. Nie byłby to wielki problem, bo wiedza naukowa z czasem jest modyfikowana, krzepnie i nabiera trwałości. Tu jednak dochodzi kolejny czynnik. Media, zwłaszcza społecznościowe, entuzjastycznie rzucają się na „wstrząsające” wnioski. Niewielu sprawdza, czy metody były wiarygodne, zwłaszcza że obecnie są one coraz bardziej skomplikowane i rzadko kto potrafi je rzetelnie ocenić. Jest jeszcze polaryzacja polityczna. Jeśli wyniki badań wpisują się w narrację jednej ze stron konfliktu, to wszelki sceptycyzm gaśnie. Kto chciałby podważać rezultaty i szukać błędów w statystyce, gdy wyników badań można użyć jako pałki na politycznego przeciwnika? Zresztą takie nastawienie nie musi wynikać z cynizmu, a ze znanego nam już efektu potwierdzenia: jeśli badania wspierają nasze poglądy, to przecież muszą być rzetelne. Przykładem mogą być analizy na temat cech osobowości Amerykanów identyfikujących się z lewicą i prawicą. Pierwsze wyniki sugerowały, że osoby o konserwatywnych poglądach są szczególnie dogmatyczne i niezdolne do zmiany punktu widzenia. Nowsze dowodzą, że stronniczość, hipokryzja i niewrażliwość na fakty są częste na całej szerokości politycznego spektrum, a na wcześniejsze wyniki mógł wpłynąć fakt, że amerykańscy socjologowie niemal bez wyjątku są lewicowi.

Odgórne próby regulacji nie zawsze działają, a czasem prowadzą do opłakanych skutków. Bo kto ma oceniać prawdziwość naukowych twierdzeń? Na początku epidemii Covid-19 Facebook usuwał wszelkie posty sugerujące, że wirus mógł uciec z zajmującego się badaniami koronawirusów laboratorium w Wuhan, jako promujące teorię spiskową. Minęło kilka lat i choć wciąż nie wiemy, w jaki sposób wirus przeskoczył na ludzi, to zarówno teoria wypadku w laboratorium, jak i naturalnego zarażenia od zwierząt są poważnie brane pod uwagę (a FB przestał uznawać pierwszą za wymysł).

Błądzenie do celu

Na szczęście naukowcy znajdują coraz więcej sposobów, by szacować występowanie i rozmiary swoich błędów. Jednym z najnowszych podejść jest analiza tzw. dziedzin zerowych – obszarów, gdzie oczekiwany efekt jest na tyle absurdalny, że jego obserwacja byłaby równoznaczna z naruszeniem fundamentalnych praw fizyki, chemii czy biologii. Doskonałym przykładem jest homeopatia. W tej metodzie „leczenia” kuracja niczym nie różni się od placebo, więc wszelkie różnice powinny być czysto losowe. Dlatego w połowie przypadków kuracja powinna „zadziałać” lepiej, a w połowie gorzej niż środek bez wartości farmakologicznej (z rzadka wypadają identycznie). A jednak okazuje się, że w 80 proc. opublikowanych badań homeopatia była skuteczniejsza od placebo. To wskazuje na systematyczny błąd w metodologii, analizie danych, procesie publikacji, a może nawet we wszystkich trzech.

Istnieją też liczne sposoby zapobiegania błędom. Jednym z najważniejszych jest zarejestrowanie szczegółowego planu zbierania danych i analiz jeszcze przed rozpoczęciem badań, tak żeby nie można było potem wybrać takiej metody postępowania, która doprowadzi do preferowanych wniosków. Innym mogłoby być zatwierdzanie publikacji tylko na podstawie znaczenia badanego problemu i jakości użytych metod – decyzję podejmowaliby recenzenci i redaktorzy, którzy nie znają jeszcze wyników. Kolejnym rozwiązaniem, które ostatnio staje się normą, jest udostępnianie surowych danych tak, aby inni badacze mogli sprawdzić solidność opublikowanych wyników. Tak więc nauka nie jest wobec swoich słabości bezbronna.

Dochodzimy w ten sposób do paradoksu: choć pojedyncze badania naukowe są najczęściej błędne, to nauka pozostaje najlepszym sposobem na zdobywanie rzetelnej wiedzy o świecie. Postęp jest chaotyczny i pełen ślepych ścieżek, a jednak ewidentny: samoloty latają, pogoda daje się przewidzieć, śmiertelne niegdyś choroby – wyleczyć.

Czytelnikom sugerują zatem strategię: jeżeli media donoszą o jakimś wstrząsającym wyniku, poczekajcie z ich oceną na potwierdzenie w kolejnych badaniach (choć niestety może to nastąpić za kilka lub nawet kilkanaście lat). Weźcie głęboki wdech i powtórzcie sobie: „większość badań naukowych jest błędna”. A gdy wyniki was nie zaskoczyły, bo wpisują się w wasze poglądy, powtórzcie to sobie kilka razy.


Autor jest doktorem habilitowanym, pracuje na stanowisku profesora na Wydziale Biologii Uniwersytetu im. A. Mickiewicza w Poznaniu.

Ta strona do poprawnego działania wymaga włączenia mechanizmu "ciasteczek" w przeglądarce.

Powrót na stronę główną