Jak Guinness zrewolucjonizował naukę
„Jednego Guinnessa, proszę!” – mówi klient do barmana, który podrzuca markową pintową szklankę, łapie ją pod kranem i rozpoczyna wieloetapowy proces nalewania, trwający dokładnie 119,5 s, co niezależnie od tego, czy jest chwytem marketingowym, czy cudem alkoholowej inżynierii, stało się rytuałem w pubach na całym świecie. Rezultatem jest pełny stout z idealną warstwą piany, przypominającą mleczny koktajl.
Od chwili, gdy założyciel browaru Arthur Guinness podpisał w Dublinie umowę na jego najem na 9000 lat za 45 funtów rocznie, browar słynie z innowacyjnych metod. Na przykład po czterech latach prób Michael Edward Ash – matematyk, który został piwowarem – opracował proces chemiczny, powodujący powstawanie na nalewanym trunku odpowiednio cienkiej warstwy gęstej piany. Metoda ta, polegająca na dodawaniu azotu do beczek i specjalnie skonstruowanych puszek, doprowadziła do spopularyzowania się „nitro brew” – szczególnego sposobu serwowania piwa i kawy.
Jednak najbardziej znacząca innowacja związana z browarem nie ma nic wspólnego z piwem. Chodzi o test t-Studenta (w skrócie test t) – jedną z najważniejszych w nauce metod statystycznych. Kiedy naukowcy deklarują, że ich odkrycia są „statystycznie istotne”, bardzo często podstawą tego faktu jest test t. Na czym polega i dlaczego wiąże się z warzeniem piwa?
Na początku XX wieku Guinness działał już od prawie 150 lat i dominował nad konkurencją jako największy browar na świecie. Kontrola jakości produktów firmy polegała na pobieżnych testach wyglądu i zapachu. Wymogi globalnej ekspansji zmotywowały jednak zarząd Guinnessa do zmiany podejścia w celu osiągnięcia docelowej spójności i przemysłowych standardów. Firma zatrudniła zespół fachowców i dała im swobodę w prowadzeniu badań mających doprowadzić do opracowania doskonałego wyrobu. Browar stał się ośrodkiem eksperymentów służących rozstrzyganiu wielu problemów w rodzaju: gdzie rosną najlepsze odmiany jęczmienia?, jaki jest idealny poziom cukru w słodzie?, o ile wzrosła sprzedaż po ostatniej kampanii reklamowej?
W trakcie intensywnych badań zespół stale mierzył się z problemem interpretacji danych wobec małych rozmiarów prób. Jedno z wyzwań wiązało się z szyszkami chmielu, niezbędnym surowcem, który nadaje piwu gorzki smak i działa jak naturalny środek konserwujący. Aby ocenić jakość chmielu, piwowarzy określali zawartość w nim miękkiej żywicy (lupuliny). Załóżmy, że 8% uznawali za dobrą i typową wartość. Testowanie każdej szyszki nie miało oczywiście sensu, postępowali więc tak, jak postąpiłby każdy rozsądny badacz – testowali losowo wybrane szyszki.
Rozważmy teoretyczny przykład. Zakładamy, że mierzymy zawartość miękkiej żywicy w dziewięciu próbkach z różnych miejsc i otrzymujemy wyniki między 4 a 10%, przy średniej wynoszącej 6%, czyli za mało. Czy to oznacza, że powinniśmy zrezygnować z surowca? Niepewność wynika z dwóch możliwych wyjaśnień niskich wartości: albo plon istotnie ma wyjątkowo niską zawartość żywicy, albo tylko próbki zawierają jej zbyt małe ilości, a całość surowca jest w porządku. Sens losowych próbek polega na uznawaniu ich za „wiernych przedstawicieli” całego zbioru, ale być może mieliśmy pecha, wybierając próbki o nietypowo niskim poziomie (w końcu przetestowaliśmy tylko dziewięć). Innymi słowy, czy powinniśmy uznać niską zawartość żywicy w próbkach za miarodajną jako znacząco odbiegającą się od 8%, czy też tylko za naturalne odstępstwo?
Problem tego rodzaju dotyczy badań w całej nauce. Załóżmy na przykład, że w badaniu medycznym zarówno w grupie leczonej, jak i w grupie placebo następuje poprawa zdrowia, ale u poddawanych leczeniu poprawa jest nieco wyraźniejsza. Czy stanowi to wystarczającą podstawę do rekomendowania testowanego leku? A co, jeśli okazałoby się, że obie grupy otrzymały dwa różne placebo? Czy wówczas słuszne byłoby stwierdzenie, że placebo podawane grupie z lepszymi wynikami ma właściwości lecznicze? A czy nie może być tak, że wyniki badań niektórych osób w grupie naturalnie się poprawią – czasem mniej, a czasem bardziej? Problem sprowadza się właśnie do kwestii istotności statystycznej.
Teoria leżąca u podstaw tych pytań, dotycząca małych prób, nie była znana przed pojawieniem się Guinnessa – a konkretnie przed tym, gdy William Sealy Gosset, główny kontroler jakości w browarze na początku XX wieku, wynalazł test t. Koncepcja istotności statystycznej była znana wcześniej, ale poprzednio statystycy pracowali w systemie dużych prób. Aby docenić znaczenie tej różnicy, należy zrozumieć sposób określania istotności statystycznej.
Przypomnijmy, że zawartość żywicy w próbkach chmielu w naszym przykładzie wynosi średnio 6%, a chcemy wiedzieć, czy średnia w całym zbiorze istotnie nie sięga wymaganych 8%, czy też po prostu wybraliśmy pechowe próbki. Zadajmy więc pytanie: jakie byłoby prawdopodobieństwo uzyskania takiej ekstremalnej wartości (6%), gdyby pełny plon był odpowiedni (8%)? Zazwyczaj przyjmuje się, że jeśli to prawdopodobieństwo, zwane wartością P, jest mniejsze niż 5%, czyli wynosi 0,05, to odchylenie jest istotne statystycznie, chociaż w różnych przypadkach bywają różne progi, inne niż 5%.
Zwykle na wartość P wpływają dwa odrębne czynniki: jak bardzo próbka odbiega od pożądanej w całej zbiorowości i jak często występują duże odchylenia. Można to porównać do przeciągania liny między sygnałem a szumem. Różnica między średnią obserwowaną (6%) a pożądaną (8%) jest sygnałem – im większa jest ta różnica, tym większe prawdopodobieństwo, że zawartość żywicy w plonie rzeczywiście jest zbyt niska. Odchylenie standardowe wśród szyszek to szum – jest miarą koncentracji danych wokół średniej: jego małe wartości wskazują, że dane oscylują w pobliżu średniej, większe oznaczają szersze zróżnicowanie. Jeśli zawartość żywicy w szyszkach zazwyczaj waha się w szerokim zakresie (tzn. ma duże odchylenie standardowe), to może średnia wynosząca 6% w naszej próbce nie powinna nas niepokoić. Jeśli jednak szyszki wykazują tendencję do koncentracji tych wyników (małe odchylenie standardowe), wówczas 6% może wskazywać na rzeczywiste odchylenie od pożądanych 8%.
Aby określić wartość P w idealnych warunkach, zaczęlibyśmy od obliczenia stosunku sygnału do szumu. Im większy okaże się ten współczynnik, tym większą mamy pewność istotności naszych ustaleń, ponieważ wysoki współczynnik oznacza, że znaleźliśmy prawdziwe odchylenie. Ale co liczy się jako wysoki stosunek sygnału do szumu? Aby uznać, że 6% znacząco różni się od 8%, powinniśmy w szczególności wiedzieć, kiedy stosunek sygnału do szumu jest tak wysoki, że prawdopodobieństwo jego wystąpienia w warunkach, gdy normą jest 8% zawartości żywicy, wynosi tylko 5%. W czasach Gosseta wiedziano, że jeśli wielokrotnie przeprowadza się eksperyment, za każdym razem oblicza się stosunek sygnału do szumu i przedstawia wyniki na wykresie, to wykres ten będzie przedstawiał „standardowy rozkład normalny” zwany krzywą dzwonową. Ponieważ rozkład normalny jest dobrze poznany i udokumentowany, łatwo sprawdzić w tabeli, jak duży musi być wspomniany stosunek, aby został osiągnięty określony próg, na przykład 5%.
Gosset uznał, że to podejście sprawdza się tylko w przypadku dużych prób; małe próby chmielu nie gwarantują normalnego rozkładu. Dlatego skrupulatnie zestawił nowe rozkłady dla mniejszych próbek. Wykresy te, znane obecnie jako rozkłady t, przypominają rozkład normalny, bo także mają kształt dzwonu, ale krzywa jest bardziej płaska. Oznacza to, że do stwierdzenia istotności statystycznej potrzebny jest większy stosunek sygnału do szumu. Jego test t pozwala wyciągać wnioski w sytuacjach, w których wcześniej nie było to możliwe.
W 2008 roku konsultant matematyczny John D. Cook zauważył na blogu, że nie powinno nas dziwić opracowanie testu t w browarze, a nie, powiedzmy, w winiarni. Browarnicy wymagają niezmienności od swojego produktu, podczas gdy winiarze preferują różnorodność. Wina mają „dobre lata”, a z każdą butelką wiąże się jakaś historia, tymczasem każdy łyk guinnessa powinien tak samo charakterystycznie smakować. Zatem inspiracją innowacji była jednolitość.
Gosset rozwiązał wiele problemów w browarze dzięki swojej nowej metodzie. Ten statystyk-samouk opublikował test t pod pseudonimem „Student”, ponieważ Guinness nie chciał, aby nazwisko wskazywało na związek testu z prowadzonymi przez tę firmę badaniami. Chociaż Gosset był pionierem kontroli jakości w przemyśle i autorem wielu innych pomysłów, jego odkrywcza metoda jest powszechnie nazywana „testem t-Studenta”. Pseudonim zwykle się pomija, ale test t stanowi do dziś jedno z najczęściej używanych narzędzi statystycznych w nauce i być może z tego względu zasługuje na umieszczenie w Księdze Rekordów Guinnessa, na której pomysł wpadł w latach 50. dyrektor generalny Guinnessa.
***
Jack Murtagh pisze o matematyce i łamigłówkach, w tym o ciekawostkach matematycznych w „Scientific American” i o łamigłówkach na portalu Gizmodo. Uzyskał doktorat z informatyki teoretycznej na Harvard University. Aktywny w serwisie X (@JackPMurtagh).