Pulsar - wyjątkowy portal naukowy. Pulsar - wyjątkowy portal naukowy. Shutterstock
Struktura

Nie dać się zrobić w dinozaura, czyli jak ważna jest wizualizacja danych

Statystyka zajmuje się obiektywną, ilościową analizą danych w celu zrozumienia zjawisk, nic jednak nie zastąpi ich przedstawienia w postaci graficznej i przyjrzenia się ich strukturze.

Mark Twain kiedyś napisał: „Są trzy rodzaje kłamstw: kłamstwa, bezczelne kłamstwa i statystyki” (przypisał te słowa brytyjskiemu premierowi Benjaminowi Disraelemu, ale tak naprawdę ich autorstwo jest nieznane). Uwzględniając znaczenie statystyki we współczesnej nauce, podany cytat przedstawia naukę w ciemnych barwach. Dorobek kilku pokoleń badaczy dowodzi, że w stwierdzeniu Twaina jest dużo przesady. Nie powinniśmy jednak lekceważyć jego spostrzeżenia. Chociaż statystyka jest niezbędnym narzędziem w odkrywaniu świata, to aby właściwie z niej korzystać i unikać pułapek, należy obchodzić się z nią ostrożnie.

Jednym z nakazów, które należałoby wyryć na murach wszystkich instytucji naukowych, powinno być: wizualizuj swoje dane. Statystyka zajmuje się obiektywną, ilościową analizą danych w celu zrozumienia zjawisk, nic jednak nie zastąpi ich przedstawienia w postaci graficznej i przyjrzenia się ich strukturze. W roku 1973 statystyk Francis Anscombe dał wyraz zaniepokojeniu tym, że wielu jego kolegów po fachu bagatelizuje wartość wizualizacji. Jak pisał: „Nieliczni z nas potrafią się oprzeć powszechnemu przekonaniu”, że obliczenia są dokładne, a wykresy przybliżone”. Aby obalić tem mit, Anscombe opracował pomysłową prezentację, znaną jako kwartet Anscombe’a. Ten kwartet i jego następca – DataSaur – dobitnie świadczą o prymacie wizualizacji w analizie danych.

Aby zrozumieć i docenić kwartet Anscombe’a, wcielmy się w rolę badaczy. Załóżmy, że interesuje nas związek pomiędzy tym, ile czasu ludzie ćwiczą, a tym, ile śpią. Przeprowadzamy dotyczącą tych zwyczajów ankietę na losowej próbie populacji, zapisujemy odpowiedzi w arkuszu kalkulacyjnym i wyświetlamy wyniki w wybranym programie statystycznym. Oto statystyki podsumowujące (przykład nie odnosi się do rzeczywistych danych):

Godziny ćwiczeń tygodniowo: średnio 7,5; odchylenie standardowe 2,03.

Godziny snu na dobę: średnio 9;odchylenie standardowe 3,32.

Korelacja między ćwiczeniami a snem: 0,816

Ankietowane osoby ćwiczyły średnio 7,5 godziny tygodniowo i spały 9 godzin na dobę. Odchylenie standardowe jest miarą zróżnicowania wyników w próbie. Tu jest ono umiarkowane w przypadku obu zmiennych, z czego wynika, że większość ankietowanych osób nie odbiega zbytnio od średniej. Obydwa zjawiska są ze sobą silnie powiązane, co oznacza, że osoby, które więcej ćwiczą, dłużej śpią. Oprogramowanie generuje również linię najlepszego dopasowania, która opisuje ogólny trend, jak pokazano poniżej.

Wykres 1Grafika Amanda MontañezWykres 1

Wziąwszy pod uwagę to podsumowanie, można by przypuszczać, że dane wyglądają mniej więcej tak, jak zbiór 1 na wykresie po lewej na tej stronie. Każda kropka odpowiada konkretnej ankietowanej osobie – uwzględnia czas jej snu i ćwiczeń. Wykres obrazuje silny wzrost liniowy, z czego wynika, że kto więcej ćwiczy, ten dłużej śpi (być może dlatego, że oba wskaźniki wiążą się ze zdrowym trybem życia albo że ćwiczenia są męczące). Wpływ innych czynników losowych wydaje się niewielki. Anscombe wykazał, że, co zadziwiające, identyczne podsumowujące statystyki dają wszystkie cztery różne zestawy danych pokazane na wykresach.

Wykres 2Grafika Amanda MontañezWykres 2

Zbiór danych 2, pomimo tej samej statystyki podsumowującej co zbiór 1, wygląda zupełnie inaczej, jeśli wykreślić go punkt po punkcie. Zależność między rzeczywistymi wartościami zdecydowanie nie jest liniowa i z jakiegoś powodu aktywność fizyczna zaczyna spadać u osób, które najwięcej śpią. Zbiór danych 3 pokazuje idealną zależność liniową, z wyjątkiem jednej nietypowej odstającej wartości, która zniekształca wyniki. W zestawie danych nr 4 prawie wszyscy śpią dokładnie osiem godzin na dobę, a czas snu nie ma związku z czasem ćwiczeń, gdy tymczasem jedna osoba śpi prawie 20 godzin dziennie i zapewne cały czas na jawie zajmują jej ćwiczenia. Istotne jest to, że te same charakterystyki statystyczne znacznie różnią się od siebie, jeśli dane przedstawić graficznie.

Nie wiadomo, jak Anscombe wpadł na pomysł kwartetu. Justin Matejka i George Fitzmaurice z Autodesk Research w Toronto spróbowali rozwiązać ten problem i rozwinęli koncept ekstremalnie. Zademonstrowali uniwersalną metodę pobierania dowolnego zestawu danych i przekształcania go w dowolny wybrany kształt docelowy, przy jednoczesnym zachowaniu jakiejś ustalonej statystyki podsumowującej (do dwóch miejsc po przecinku). Efektem był danozaurowy tuzin.

Wykres 3Grafika Amanda MontañezWykres 3

Wszystkie wykresy punktowe na tej stronie mają te same statystyki podsumowujące! Wnikliwi czytelnicy zauważą, że „tuzin” liczy w rzeczywistości 13 elementów [czyli jest to tzw. baker’s dozen – piekarski tuzin; do zamówienia 12 bochenków chleba angielscy piekarze dodawali kiedyś na wszelki wypadek 13. sztukę, żeby nikt ich nie posądził, że oszukują na wadze wypieków] – trzynastym jest dinozaur; to ten zbiór danych stanowi zestaw startowy dla 12 pozostałych (jest to nawiązanie do żartu eksperta od wizualizacji danych Alberta Cairo, który w w 2016 roku wykreował DataSaura). Jak więc widać, same statystyki podsumowujące nie są wystarczającym źródłem informacji o jakimś zjawisku.

Anscombe byłby zapewne dumny, że jego kwartet wciąż gości na wykładach ze statystki. Jak powiedział legendarny baseballista Yogi Berra (znany ze swoich bon mottów): „Możesz wiele zauważyć, po prostu patrząc”.

Świat Nauki 3.2024 (300391) z dnia 01.03.2024; Matematyka; s. 26
Oryginalny tytuł tekstu: "Nie dajmy się zrobić w dinozaura"

Ta strona do poprawnego działania wymaga włączenia mechanizmu "ciasteczek" w przeglądarce.

Powrót na stronę główną