Pulsar - wyjątkowy portal naukowy. Pulsar - wyjątkowy portal naukowy. Ilustracja Chris Gash
Struktura

Czy stochastyczne papugi rozumieją to, czego się nauczyły?

GPT i inne systemy sztucznej inteligencji wykonują zadania, do których nie zostały wyszkolone, czyli „wytwarzają umiejętności”. Zaskoczyło to nawet badaczy odnoszących się z rezerwą do szumu wokół wielkich modeli językowych.

Nikt jeszcze nie wie, w jaki sposób ChatGPT i jego kuzyni zmienią świat. Między innymi dlatego, że nikt tak naprawdę nie ma pojęcia, co się w nich dzieje. Niektóre możliwości tych systemów daleko wykraczają poza to, do czego zostały zaprogramowane, i nawet ich twórcy zastanawiają się, skąd to się bierze. Z wielu testów wynika, że te systemy SI tworzą wewnętrzne modele świata rzeczywistego, podobnie jak ludzki mózg, chociaż mechanizmy są inne.

„Wszystko, co chcielibyśmy z nimi zrobić, aby na przykład były lepsze lub bezpieczniejsze, wydaje się nie mieć sensu, dopóki nie zrozumiemy, jak działają” – mówi Ellie Pavlick z Brown University, jedna z badaczek usiłujących wyjaśnić tę zagadkę.

Na pewnym poziomie Pavlick i jej zespół doskonale rozumieją GPT (skrót od „generative pre-trained transformer” – generacyjny wstępnie wyszkolony transformer) i inne duże modele językowe LLM (Large Language Models). Modele opierają się na systemie uczenia maszynowego wykorzystującym tzw. sieci neuronowe, o strukturze luźno modelowanej na wzór połączonych neuronów ludzkiego mózgu. Kod tych programów jest stosunkowo prosty i zajmuje tylko kilka ekranów. Ustanawia algorytm autokorekty, który wybiera najbardziej prawdopodobne słowo do uzupełnienia fragmentu na podstawie pracochłonnej analizy statystycznej setek gigabajtów tekstu internetowego. Dodatkowe szkolenie gwarantuje, że system przedstawi swoje wyniki w formie dialogu. W tym sensie wszystko, co robi, to zwracanie tego, czego się nauczył – jest „stochastyczną papugą”, jak mówi Emily Bender, językoznawca z University of Washington (nie obrażając Alexa, sławnej papugi żako, która rozumiała takie pojęcia, jak kolor, kształt czy forsa, i celowo używała odpowiednich słów). Ale LLM udało się również zdać egzamin adwokacki, napisać sonet o bozonie Higgsa i podjąć próbę rozbicia małżeństwa swoich użytkowników. Niewielu spodziewało się, że dość prosty algorytm autokorekty zyska tak szerokie możliwości.

To, że GPT i inne systemy sztucznej inteligencji wykonują zadania, do których nie zostały wyszkolone, czyli „wytwarzają umiejętności”, zaskoczyło nawet badaczy odnoszących się z rezerwą do szumu wokół LLM. „Nie wiem, jak to się dzieje ani czy mogłoby przebiegać tak, jak u ludzi – ale moje uprzedzenie zmalało” – mówi Melanie Mitchell, badaczka sztucznej inteligencji w Santa Fe Institute.

„To bez wątpienia znacznie więcej niż stochastyczna papuga i na pewno tworzony jest jakiś świat, choć nie sądzę, aby był to proces podobny do tworzenia przez ludzi swojego wewnętrznego modelu świata” – mówi Yoshua Bengio, badacz SI z University of Montreal.

Na marcowej konferencji w New York University filozof Raphaël Millière z Columbia University przedstawił kolejny zdumiewający przykład tego, co potrafią LLM. Modele wykazały już umiejętność pisania kodu, co robi wrażenie, ale nie jest niezwykłe, bo w Internecie jest wiele kodów do naśladowania. Millière poszedł jednak krok dalej i pokazał, że GPT może również stworzyć kod. Filozof napisał program do obliczania 83. liczby ciągu Fibonacciego, będący – jak wyjaśnia – „wieloetapowym rozumowaniem wysokiego stopnia”. I bot z kodem się uporał. Kiedy jednak Millière poprosił bezpośrednio o 83. liczbę Fibonacciego, GPT zrobił to źle, co sugeruje, że system nie tylko papugował Internet. Raczej wykonywał własne obliczenia, aby uzyskać poprawną odpowiedź.

Chociaż LLM działa na komputerze, sam komputerem nie jest. Brakuje w nim podstawowych elementów obliczeniowych, jak choćby pamięci roboczej. Wynika z tego, że GPT sam nie powinien być w stanie uruchamiać kodu, choć w późniejszych wersjach firma OpenAI wprowadziła specjalną wtyczkę (wykorzystywaną przez ChatGPT przy odpowiadaniu na pytania), która to umożliwia. Jednak Millière nie dysponował taką wtyczką, a w związku z tym postawił hipotezę, że maszyna zaimprowizowała pamięć, wykorzystując swoje mechanizmy do interpretacji słów zgodnie z ich kontekstem. Sytuacja jest więc podobna do tej, gdy występujący w naturze proces zaczyna pełnić nową funkcję.

Ta zaimprowizowana umiejętność pokazuje, że LLM rozwija wewnętrzną złożoność, która znacznie wykracza poza powierzchowną analizę statystyczną. Naukowcy odkrywają, że systemy te wydają się wykazywać rozumienie tego, czego się nauczyły. W jednym z badań przedstawionych w maju br. na konferencji ICLR (International Conference on Learning Representations) doktorant Kenneth Li z Harvard University i jego koledzy zajmujący się sztuczną inteligencją (Aspen K. Hopkins z Massachusetts Institute of Technology, David Bau z Northeastern University oraz Fernanda Viégas, Hanspeter Pfister i Martin Wattenberg z Harvardu) stworzyli mniejszą kopię sieci neuronowej GPT, aby badać jej wewnętrzne działanie. „Wytrenowali” ją na milionach partii gry planszowej Othello w postaci plików tekstowych długich sekwencji ruchów. Ich model stał się graczem niemal idealnym.

Aby zbadać, w jaki sposób sieć neuronowa koduje informacje, przyjęli technikę, którą Bengio i Guillaume Alain z University of Montreal opracowali w 2016 roku. Stworzyli miniaturową sieć „sondującą”, aby analizować główną sieć warstwa po warstwie. Li porównuje to podejście do metod neurobiologicznych: „to podobne do sytuacji, gdy umieszczamy sondę w ludzkim mózgu”. W przypadku sztucznej inteligencji sonda wykazała, że jej „aktywność neuronowa” stanowi odwzorowanie planszy Othello, choć w zawiłej formie. Aby to potwierdzić, naukowcy wpłynęli na sondowanie, zniekształcając informacje w sieci neuronowej poprzez zamianę jednego z czarnych znaczników-pionków na biały. „To jakby włamanie do mózgu tych modeli językowych” – wyjaśnia Li. Sieć odpowiednio dostosowała swoje ruchy, a naukowcy doszli do wniosku, że gra w Othello prawie jak człowiek: widzi planszę „okiem umysłu” i korzystając z modelu GPT, dokonuje oceny ruchów. Li uważa, że system uczy się tej umiejętności, ponieważ jest to najbardziej zwięzła forma wprowadzonych do niego danych: „Jeśli dostajesz mnóstwo skryptów do gry, najlepszym sposobem ich skompresowania jest próba odgadnięcia zasady, która się w nich kryje”.

Ta zdolność wnioskowania o strukturze świata zewnętrznego nie ogranicza się do prostych ruchów podczas gry; pojawia się również w dialogach. Belinda Li (niespokrewniona z Kennethem Li), Maxwell Nye i Jacob Andreas – wszyscy z MIT – badali sieci, które grały w tekstową grę przygodową. Wymieniały zdania w rodzaju: „Klucz jest w skrzyni ze skarbami”, a potem „Ty weź klucz”. Za pomocą sondy odkryli, że sieci zakodowały w sobie odpowiadające słowom „skrzynia” i „ty” właściwości posiadania klucza lub nie i aktualizowały te właściwości w kolejnych zdaniach. System nie miał możliwości niezależnego ustalenia, czym jest skrzynia lub klucz, ale wychwycił koncepcje potrzebne w tym zadaniu. „W modelu ukryta jest pewna reprezentacja stanu” – uważa Belinda Li.

Badacze są zdumieni, jak wiele LLM-y są w stanie nauczyć się z tekstu. Na przykład Pavlick i jej ówczesna doktorantka Roma Patel odkryły, że sieci te przyswajają sobie opisy kolorów z tekstu internetowego i konstruują wewnętrzne reprezentacje kolorów. Na przykład słowo „czerwony” traktują nie tylko jako abstrakcyjny symbol, ale też jako pojęcie, które ma pewne powiązania z bordowym, szkarłatnym, fuksjowym, rdzawym itp. Wykazanie tego było dość trudne. Zamiast umieszczać sondę w sieci, naukowcy badali reakcję na serię monitów tekstowych. Aby sprawdzić, czy jest to tylko echo relacji kolorów z internetowych odniesień, próbowali oszukać system, mówiąc mu, że czerwony jest w rzeczywistości zielony – jak w starym filozoficznym eksperymencie myślowym, w którym coś jest zarazem czerwone i zielone. Zamiast powtarzać błędne stwierdzenie, oceny kolorów w systemie zmieniły się odpowiednio, aby zachować prawidłowe relacje.

Zakładając, że aby skorzystać z autokorekty system szuka logiki wśród wprowadzonych do niego danych, specjalista od uczenia maszynowego Sébastien Bubeck z Microsoft Research sugeruje, że im szerszy zakres danych, tym bardziej ogólne reguły odkrywa system – po czym stwierdza: „Być może obserwujemy tak ogromny skok, ponieważ osiągnęliśmy różnorodność danych, których zasób jest tak duży, że ich jedyną podstawową zasadę stanowi fakt, że stworzyły je istoty inteligentne; a więc dla modelu jedyny sposób wyjaśnienia wszystkich danych to stać się inteligentnym”.

Oprócz ustalania podstawowego znaczenia języka, LLM-y mogą uczyć się „w locie”. W obszarze sztucznej inteligencji termin „uczenie się” zwykle dotyczy intensywnego obliczeniowo procesu, w którym programiści wystawiają sieć neuronową na gigabajty danych i modyfikują jej wewnętrzne połączenia. Pytany o coś ChatGPT powinien pozostawać niezmienny, czyli w przeciwieństwie do ludzi nie powinien się dalej uczyć. Zaskoczeniem było więc, że LLM-y się uczą, korzystając z podpowiedzi swoich użytkowników – jest to umiejętność znana jako uczenie się w kontekście. „To inny rodzaj uczenia się, którego wcześniej nie uwzględniano” – mówi Ben Goertzel, założyciel firmy SingularityNET, zajmującej się SI.

Jednym z przykładów tego, jak uczy się LLM, jest sposób interakcji ludzi i chatbotów, takich jak ChatGPT. Możemy podać systemowi przykłady tego, jak chcemy, aby reagował, i będzie on posłuszny. Jego sygnały wyjściowe określane są na podstawie przyjętych ostatnich kilku tysięcy słów. To, co robi, korzystając z tych słów, jest określone przez jego stałe wewnętrzne połączenia; jednak mimo to sekwencja słów oferuje pewne możliwości adaptacyjne. Wiele stron internetowych poświęconych jest informacjom o „jailbreakingu”, czyli sposobach „eskalacji uprawnień”, co stwarza szansę na pokonanie ograniczeń systemu, uniemożliwiających podanie użytkownikom na przykład sposobu zrobienia bomby rurowej. Zwykle sposobem jest nakazanie modelowi, aby udawał, że jest systemem bez ograniczeń. Niektórzy używają jailbreakingu powierzchownie, inni korzystają z niego, by uzyskać bardziej kreatywne odpowiedzi. „Odpowiedź na naukowe pytanie będzie wówczas w pewnym sensie lepsza niż bez jailbreakingu” – wyjaśnia William Hahn, jeden z szefów Machine Perception and Cognitive Robotics Laboratory na Florida Atlantic University.

Inny rodzaj uczenia się w kontekście polega na podpowiadaniu „łańcucha myśli”, co oznacza proszenie sieci o wskazanie każdego kroku rozumowania – taktyka ta umożliwia lepsze radzenie sobie z problemami logicznymi lub arytmetycznymi, wymagającymi wielu kroków (było więc zaskoczeniem, że w eksperymencie Millière’a sieć znalazła liczbę Fibonacciego bez takiego szkolenia).

W 2022 roku zespół z Google Research i Federal Institute of Technology w Zurychu (Johannes von Oswald, Eyvind Niklasson, Ettore Randazzo, Joăo Sacramento, Alexander Mordvintsev, Andrey Zhmoginov i Max Vladymyrov) wykazał, że uczenie się w kontekście odbywa się według tych samych podstawowych zasad procedury obliczeniowej, co standardowe uczenie się – znanej jako metoda gradientu prostego. Ta procedura nie została zaprogramowana; system sam ją wykrył. „Byłaby to zatem umiejętność, której mógł się nauczyć; za każdym razem, gdy testujemy nową umiejętność, którą można określić ilościowo, znajdujemy ją” – mówi Blaise Agüera y Arcas, wiceprezes Google Research. Jego zdaniem LLM-y mogą mieć jeszcze inne, dotąd nieodkryte zdolności.

Chociaż o LLM-ach wiemy jeszcze zbyt mało, aby zaliczać je do silnej sztucznej inteligencji (AGI), czyli takiej, która osiąga sprawność mózgów zwierząt, to jednak poszerzający się zakres ich umiejętności sugeruje, że firmy technologiczne są bliżej AGI, niż przewidywali nawet optymiści. „Są pośrednim dowodem tego, że zapewne nie jesteśmy daleko do AGI”– zauważył Goertzel w marcu na konferencji poświęconej uczeniu głębokiemu na Florida Atlantic University. Dzięki wtyczkom OpenAI architektura modułowa ChatGPT stała się trochę podobna do ludzkiego mózgu. „Połączenie GPT-4 (najnowsza wersja LLM, zasilająca ChatGPT) z różnymi wtyczkami może być drogą do specjalistycznych funkcji podobnych do ludzkich” – mówi badaczka z MIT Anna Ivanova.

Jednocześnie jednak naukowcy obawiają się ograniczeń możliwości badawczych. Firma OpenAI nie ujawniła szczegółów sposobów projektowania i „szkolenia” GPT-4 – częściowo ze względu na konkurencję z Google i innymi firmami, nie wspominając o zagranicznych. „Zapewne będzie mniej otwartej nauki związanej z przemysłem, a badania zostaną wyciszone i nakierowane na produkcję” – uważa Dan Roberts, fizyk teoretyczny z MIT, który pracuje nad sztuczną inteligencją.

Zdaniem Mitchell ten brak przejrzystości nie sprzyja nie tylko naukowcom. Utrudnia też orientację w społecznych skutkach coraz szerszego stosowania sztucznej inteligencji. „Przejrzystość tych spraw jest szczególnie istotna dla zapewnienia bezpieczeństwa”.

Świat Nauki 10.2023 (300386) z dnia 01.10.2023; Informatyka; s. 64
Oryginalny tytuł tekstu: "Zagadkowa SI"

Ta strona do poprawnego działania wymaga włączenia mechanizmu "ciasteczek" w przeglądarce.

Powrót na stronę główną