pulsar
Struktura

Sztuczna inteligencja: ufać, ale sprawdzać

Dwa zwaśnione plemiona uczonych łączą siły, by z pomocą gracza-ekonomisty uczynić algorytmy sztucznej inteligencji bardziej godnymi zaufania.

Minęło właśnie 20 lat od chwili, gdy Amerykanin Leo Breiman, jeden z najbardziej wybitnych statystyków XX w., opublikował bardzo nietypowy artykuł. Zamiast opisywać kolejny frapujący problem badawczy, obnażył odwieczny konflikt między badaczami danych. Całość zakończył w niemal dramatycznym tonie: „Korzenie statystyki, podobnie jak nauki, tkwią w pracy z danymi i w sprawdzaniu, czy teoria się z nimi zgadza. Mam nadzieję, że w tym stuleciu nasza dziedzina do tych korzeni powróci”. Dokąd zabrnęli statystycy, że muszą czym prędzej zawracać? I co było przyczyną konfliktu?

Walka na modele

Są zatem dwa plemiona. Jedno, składające się w większości z klasycznych statystyków, tworzy modele, by ujawnić prawa natury i opisać stochastyczną naturę zjawisk. Stochastyczną, czyli – bardzo mocno upraszczając – w części przypadkową, a w części deterministyczną. Członkowie tego klanu zaglądają np. w kartoteki medyczne i opisują, jak mutacje w genie TP53 wpływają na czas przeżycia pacjentów z nowotworem lub sprawdzają informacje na temat klientów banku i wnioskują, jak liczba i wiek dzieci koreluje z ryzykiem niespłacenia kredytu. Innymi słowy: patrzą na dane i odkrywają w nich zależności pomiędzy obserwowanymi i mierzonymi fragmentami rzeczywistości. W oparciu o tę wiedzę tworzą model – bo podstawą ich działania jest założenie, że świat funkcjonuje jak model stochastyczny, a celem analizy danych jest jego odkrycie. To modelarze.

Drugie plemię to algorytmicy. Głównie informatycy, poświęcający się tworzeniu modeli predykcyjnych, trenowanych w tylko jednym celu, by maksymalnie skutecznie przewidywać interesujące ich wielkości czy zjawiska. Budują algorytmy, które automatycznie przetwarzają dane i możliwie efektywnie wskazują odpowiedź na postawione pytanie. Czasami błędnie, ale działają w myśl zasady, że lepiej mieć jakąś, nawet niedoskonałą, odpowiedź, niż nie mieć żadnej.

Nie ma większego znaczenia, jakie trudności musi pokonać algorytm, by przewidzieć daną wartość. Młóci dane i potrafi np. w oparciu o temperaturę powietrza oszacować przyszłą cenę zboża lub znając nazwiska aktorów oszacować sukces kasowy planowanego filmu. Dla algorytmików nie jest zaś istotne, czy zdołają odgadnąć reguły opisujące interesujące ich zjawisko. Nie muszą nawet zakładać, że takie reguły istnieją. Liczy się tylko skuteczność predykcji.

Plemię z licencją na inteligencję

Algorytmicy zarzucają modelarzom, że odnajdywane przez nich modele stochastyczne zanadto upraszczają rzeczywistość, a ich tworzenie jest nieracjonalnie czasochłonne i wymaga niepotrzebnie długiego studiowania dziedziny, której dotyczą, np. onkologii. Twierdzą, że takie żmudne rzemiosło warto uprawiać tylko w niszowych zastosowaniach. W dużej skali sprawdzają się automatyzowalne algorytmy i to one są przyszłością analizy danych.

„The Hitchhiker’s Guide to Responsible Machine Learning”, Przemysław Biecek, Anna Kozak, Aleksander Zawada, str. 17.pulsar„The Hitchhiker’s Guide to Responsible Machine Learning”, Przemysław Biecek, Anna Kozak, Aleksander Zawada, str. 17.

Modelarze natomiast wytykają algorytmikom każdą ich pomyłkę. A to, że model wytrenowany na danych pozyskanych od chorujących na astmę dorosłych został bezmyślnie zastosowany do badania danych dzieci i doprowadził do szkodliwych rekomendacji. A to, że model wyuczony na danych historycznych okazuje się dyskryminować ze względu na płeć, wiek i kolor skóry, a pozostawiony bez kontroli zwielokrotnia istniejące w społeczeństwie uprzedzenia. Powstały opasłe księgi dokumentujące te porażki, a moją ulubioną jest wspaniała lista błędnie użytych modeli – ,,Broń matematycznej zagłady” Cathy O’Neil (Wydawnictwo Naukowe PWN, 2021).

Gdyby algorytmicy i modelarze toczyli swoją walkę w wieży z kości słoniowej, to pewnie nie warto by było poświęcać jej większej uwagi. Ale dzisiejsza gospodarka w coraz większym stopniu oparta jest o dane i ich analizę. Sztuczna inteligencja nas dosłownie otacza. Być może trudno ją zauważyć, bo nie ma twarzy humanoidalnego robota, jak przewidywali kiedyś futuryści – jest algorytmem, sekwencją instrukcji warunkowych sterujących cenami, logistyką, rekomendacjami, praktycznie wszystkim. Które plemię powinno mieć licencję na jej wytwarzanie?

Ludzie z prawem do wyjaśnienia

Debata na ten temat przeniosła się z akademickich konferencji na fora, na których dyskutuje się o regulacjach krajowych i międzynarodowych. Dwadzieścia lat po epokowej publikacji Leo Breimana wątek kultury modelowania pojawia się w propozycji unijnego dokumentu ,,Artificial Intelligence Act”. To pionierski projekt regulacji określających oczekiwania i wymagania wobec zautomatyzowanych systemów, które czasem są określane barwniej jako systemy sztucznej inteligencji.

Nakreślona w niej droga do SI, której można zaufać, to kompromis osiągnięty przez plemię algorytmików i plemię modelarzy. Wspólnie postulują oni, by – parafrazując sowieckich klasyków –swoim modelom ufać, ale je sprawdzać.

„The Hitchhiker’s Guide to Responsible Machine Learning”, Przemysław Biecek, Anna Kozak, Aleksander Zawada, str 46.pulsar„The Hitchhiker’s Guide to Responsible Machine Learning”, Przemysław Biecek, Anna Kozak, Aleksander Zawada, str 46.

Kiedy badacze danych budują modele, powinni zapewnić odpowiedni poziom nadzoru człowieka nad sztuczną inteligencją. Elementem tego nadzoru ma być w Unii Europejskiej prawo człowieka do poznania przyczyn decyzji podjętej w sposób automatyczny oraz do jej zakwestionowania. Czy oznacza to, że nie musimy się już obawiać, że w zetknięciu z systemami automatycznymi znajdziemy się kiedyś w sytuacji kafkowskiej? Poddani pod osąd bezwzględnych algorytmów bez prawa od odwołania, zrozumienia czy wyjaśnień.

Algorytm bez glejtu na przeczucia

Sama Ustawa o Sztucznej Inteligencji raczej nas przed kłopotami nie uchroni. Potrzebne są narzędzia, ludzie i umiejętności. Z odsieczą przybywa na szczęście nowa grupa badaczy uprawiających tzw. odpowiedzialne uczenie maszynowe (ang. Responsible Machine Learning). Opracowują oni narzędzia pozwalające na eksplorację złożonych modeli, diagnostykę błędnych decyzji i analizę alternatywnych scenariuszy.

Komu to potrzebne? Nam wszystkim. Przypuśćmy, że chcemy kupić samochód lub mieszkanie. Składamy do banku wniosek o kredyt i dostajemy odmowę. Decyzja podjęta jest na podstawie algorytmu, który w kilka sekund prześwietla naszą całą historię kredytową i zakupową, a przy okazji sprawdza też ścieżkę zatrudnienia. Prawo do poznania przyczyny takiej a nie innej odpowiedzi oznacza, że należy nam się wyjaśnienie, dlaczego nie dostaliśmy pożyczki. Powinniśmy też dowiedzieć się, co powinniśmy zrobić, by ją (lub inną) otrzymać. Algorytm nie może powiedzieć ,,Nie, bo nie''.

Zauważmy, że jest to zabezpieczenie znacznie większe niż w przypadku decyzji podejmowanych całkowicie przez człowieka, który może stwierdzić: ,,Mam przeczucie, że…”, „Z mojego doświadczenia wynika, że…''. Algorytm nie ma prawa do przeczuć. Musi się wytłumaczyć.

Gra z happy endem

Ale w jaki sposób bardzo złożony algorytm, mający do dyspozycji terabajty informacji o każdej osobie (spróbujcie z Google’a czy Facebooka pobrać dane na nasz temat — to nie są małe pliki), ma nam w zrozumiały sposób wyjaśnić przyczyny swoich decyzji? Kto z nas roztrząsa każdą decyzje analizując każdy możliwy scenariusz? Nie działamy jak sztuczna inteligencja. Jak więc przetłumaczyć jej postępowanie na język przystępny dla człowieka? Nad odpowiedzią łamano sobie głowy przez lata. I przyszła, niespodziewanie, ze strony teorii gier, młodej gałęzi matematyki (70 lat to dla królowej nauk mrugnięcie okiem).

Podziękowania należą się Lloydowi Shapleyowi. W 1953 r. opublikował on ciekawą pracę na temat sprawiedliwego podziału nagrody w przypadku gry kooperacyjnej. Sprawiedliwego w tym sensie, że odpowiada sile czy sprawczości poszczególnych graczy. To jedno z wielu osiągnięć tego błyskotliwego matematyka-ekonomisty, który w 2012 r. otrzymał Nagrodę Nobla w dziedzinie ekonomii.

Okazuje się, że na proces wnioskowania algorytmów sztucznej inteligencji można patrzeć jak na taką wieloosobową grę. Na wynik rozgrywki (końcową decyzję) wpływają różni gracze (różne źródła danych), ale analizując jej przebieg możemy określić, kto powinien otrzymać największą nagrodę, bo jego wpływ na wynik był kluczowy. Optymalny podział nagrody zwie się wartościami Shapleya.

„The Hitchhiker’s Guide to Responsible Machine Learning”, Przemysław Biecek, Anna Kozak, Aleksander Zawada, str. 37.pulsar„The Hitchhiker’s Guide to Responsible Machine Learning”, Przemysław Biecek, Anna Kozak, Aleksander Zawada, str. 37.

Są one dziś jedną z najczęstszych stosowanych metod analizy modeli sztucznej inteligencji, podstawą algorytmów używanych do wyjaśniania jej decyzji. Podsuwają sposób na połączenie atutów obu plemion: gwarantują skuteczność modeli opracowanych przez algorytmików, jednocześnie pozwalając na analizę badanego zjawiska, na czym zależy modelarzom. Co więcej, zastosowania wartości Shapleya obejmują wiele dziedzin, nie tylko ekonomię. Są często stosowane w medycynie, przykładowo na stronie https://crs19.pl/ znajduje się model wyliczający indywidualne ryzyko ciężkiego przejścia choroby COVID-19. Każdy może wyznaczyć swoje ryzyko a następnie sprawdzić jak wiek, płeć, choroby towarzyszące wpływają na to ryzyko. Oczywiście wyjaśnienia modelu są oparte o teorie Shapleya.

Leo Breiman zakończył swój pamiętny artykuł z 2001 r. słowami o sygnałach wskazujących na to, że jego nadzieja na połączenie zwaśnionych plemion nie jest iluzoryczna. Chyba się nie pomylił.

PS Jeżeli chcecie dowiedzieć się więcej o odpowiedzialnej sztucznej inteligencji, to zapraszam do lektury książki-komiksu „The Hitchhiker’s Guide to Responsible Machine Learning”. Przygotowałem ją wspólnie z Anną Kozak i Aleksandrem Zawadą. Z tej pozycji pochodzą ilustracje towarzyszące artykułowi.

Reklama

Reklama

Ta strona do poprawnego działania wymaga włączenia mechanizmu "ciasteczek" w przeglądarce.

Powrót na stronę główną