Steve będzie bibliotekarzem czy rolnikiem? O błędzie wartości bazowej
Pierwsza łamigłówka pochodzi z popularnonaukowej książki psychologa Daniela Kahnemana „Pułapki myślenia”.
Zapewne wiele osób zetknęło się z błędem wartości bazowej lub go popełniło. Ten po części matematyczny paradoks, a po części błąd poznawczy lub przeoczenie, ma zaskakująco duży wpływ na wiele sytuacji życiowych – od związanych ze zdrowiem publicznym po programy masowej inwigilacji. Przykładem mogą być dwie łamigłówki. Pierwsza pochodzi z popularnonaukowej książki psychologa Daniela Kahnemana Pułapki myślenia.
Ktoś opisał pewną osobę następująco: „Steve jest bardzo nieśmiały i wycofany, chętny do pomocy, ale niezbyt zainteresowany ludźmi i światem rzeczywistym. Jest łagodny, schludny, drobiazgowy i dba o porządek”. Czy bardziej prawdopodobne jest, że Steve zostanie bibliotekarzem czy rolnikiem?
Kahneman pisze, że zdecydowana większość osób, którym zadano to pytanie, wskazała na bibliotekarza, argumentując, że osobowość Steve’a bardziej pasuje do tego stereotypu. Pomijano jednak istotny fakt statystyczny: liczba rolników w Stanach Zjednoczonych przewyższa liczbę zawodowych bibliotekarzy ponad 11-krotnie. Opis czyjejś osobowości nie powinien przesłaniać ogromnych różnic w liczebności badanych grup zawodowych. Przy tak dużej przewadze rolników należy oczekiwać, że jest wśród nich wielu na przykład nieśmiałych z zamiłowaniem do szczegółów. To statystyczne odchylenie staje się bardziej oczywiste, gdy możliwości kariery różnią się znacznie w kontekście liczebności w populacji: czy jeśli Steve pasjonuje się astronomią, to jest większa szansa, że zostanie bankierem czy astronautą?
Druga łamigłówka jest bardziej liczbowa. Załóżmy, że lekarz podejmuje losowo (np. profilaktycznie) decyzję o wykonaniu badania krwi w celu wykrycia choroby, na którą zapada jedna na 1000 osób. Test jest niezwykle skuteczny: nigdy nie daje wyniku fałszywie negatywnego, co oznacza, że jeśli choroba występuje, zostanie wykryta. Wyniki fałszywie pozytywne mogą się zdarzyć, ale są rzadkie: jeśli nie jesteśmy chorzy, test wykryje to w 99% przypadków. Test dał nam wynik pozytywny. Biorąc pod uwagę podane parametry, jakie jest prawdopodobieństwo, że chorujemy? Po przykładzie Steve’a wypada zachować czujność i oczekiwać podstępu. Wczujmy się w sytuację: otrzymaliśmy pozytywny wynik wyjątkowo dokładnego testu – jak bardzo należy się tym martwić?
Okazuje się, że przy podanych parametrach prawdopodobieństwo, że faktycznie jesteśmy chorzy, wynosi zaledwie około 9%. Po przetestowaniu 1000 osób oczekujemy, że w tej grupie chora będzie jedna osoba – wynik testu będzie u niej prawdziwie pozytywny. Z pozostałych 999 testów 1% da wynik fałszywie pozytywny, co stanowi 10 osób. Spodziewamy się więc 11 pozytywnych testów: 10 fałszywie dodatnich i 1 prawdziwie dodatniego, a nasz pozytywny jest jednym z tych 11. Stąd tylko niespełna 9-procentowa szansa, że mamy pecha.
Te łamigłówki ilustrują błąd wartości bazowej; druga jest także przykładem paradoksu wyniku fałszywie pozytywnego. Przy ocenie szansy, że coś nastąpi, ludzie mają tendencję do przywiązywania nadmiernej wagi do konkretnych szczegółów, a niedoceniania ogólnej częstości występowania danego zjawiska. Przypisują nadmierne znaczenie opisowi Steve’a jako „cichego i schludnego”, a pomijają przewagę liczebną rolników nad bibliotekarzami. Skupiają się głównie na pozytywnym wyniku w 99% dokładnego testu, a ignorują rzadkość występowania choroby.
Oczywiście nie ma to nic wspólnego z lekceważeniem badań lekarskich. Paradoks wyniku fałszywie dodatniego pokazuje tylko, że decydowanie o badaniach i interpretacja wyników wymaga znajomości statystyki. Zazwyczaj lekarze zlecają testy, gdy są powody, by podejrzewać chorobę. Kiedy jednak skierowanie na test jest losowe, wtedy prawdopodobieństwo bycia chorym będzie po prostu zgodne z częstością występowania choroby w ogólnej populacji. Przychodząc do lekarza na przykład z charakterystyczną wysypką i wysoką gorączką, trafiamy do innej kategorii statystycznej. Nie jesteśmy już porównywani z ogółem społeczeństwa, ale z innymi osobami z takimi samymi objawami. W tej mniejszej grupie choroba występuje znacznie częściej i pozytywny wynik testu jest bardziej prawdopodobny.
Stąd jest jasne, dlaczego nie prowadzi się masowych badań przesiewowych w kierunku rzadkich chorób. Gdy choroba występuje znacząco rzadko w populacji, wtedy nawet bardzo dokładne testy dadzą więcej wyników fałszywie dodatnich niż prawdziwie dodatnich. Korzyści z wykrycia kilku przypadków są mniejsze niż szkody medyczne, finansowe i psychiczne spowodowane falą wyników fałszywie dodatnich.
Walijska policja doświadczyła tego na własnej skórze podczas finału Ligi Mistrzów UEFA w 2017 roku. Rozmieszczono kamery w całym Cardiff, gdzie odbywał się mecz i wykorzystano automatyczne oprogramowanie do rozpoznawania twarzy na nagraniach. Zeskanowano twarze około 170 tys. kibiców, wyszukując podejrzane osoby. System wskazał 2470 potencjalnych przestępców, z czego 2297 dało wyniki fałszywie dodatnie. Oprogramowanie działało prawidłowo – jak każdy system z niewielkim prawdopodobieństwem błędu. Sprawa stała się tematem medialnym w całym kraju i doprowadziła do sporu prawnego dotyczącego sposobów rozpoznawania twarzy.
Z podobnych powodów zawodzą wszelkie techniki eksploracji danych stosowane w celu wyłapywania potencjalnych terrorystów, o czym szerzej pisał ekspert ds. bezpieczeństwa Bruce Schneier. Programy te przeszukują rejestry połączeń, dane o lokalizacji i sieci społecznościowe w poszukiwaniu wzorców, które mogą wskazywać na spiski terrorystyczne. Problemem jest to, że z takimi spiskami nie zawsze wiążą się wyraźnie rozpoznawalne sygnały ostrzegawcze (to oznacza pewne prawdopodobieństwo fałszywych alarmów), a większość ludzi nie jest terrorystami (to wskazuje na mikroskopijną wartość bazową w populacji). Z prostej kalkulacji Schneiera wynika, że na każde wykryte realne zagrożenie przypadają miliony fałszywych alarmów, które mogłyby zmylić agentów federalnych, pociągając za sobą koszty i naruszenia wolności.
Nie oznacza to oczywiście, że należy zaprzestać badań przesiewowych pod kątem rzadkich przypadków, ale trzeba uwzględniać kompromisy. Większość alarmów przeciwpożarowych to alarmy fałszywe, ale stanowią one niewielką niedogodność w porównaniu z ratowaniem życia wtedy, gdy dochodzi do katastrofy. Błąd wartości bazowej uczy umieszczać fałszywe alarmy we właściwym kontekście i przestać mylić dokładność testu na zdarzenie z prawdopodobieństwem samego zdarzenia. Przypomina, że gdy brniemy przez zawiłości probabilistyki, najbardziej istotne szczegóły mogą nie być najbardziej istotne statystycznie.