Systemy AI na razie są jak dzieci. A co będzie, jak dorosną?
Nick Bostrom, znany szwedzki filozof zajmujący się problematyką AI, wydał w 2014 r. książkę „Superinteligencja. Scenariusze, strategie, zagrożenia”. Jednym z jej wątków jest problem „ucznia czarnoksiężnika”. Chodzi o sytuację, w której AI zaczyna bezwzględnie realizować wyznaczony cel, ale ludzie tracą nad nią kontrolę.
Bostrom podaje dość trywialny przykład: zadaniem algorytmu jest maksymalizacja produkcji spinaczy do papieru. To z pozoru niewinne zadanie sprowadza ogromne zagrożenie, bo AI, będąc superinteligentna (w sensie sprawności i szybkości działania, a nie podobieństwa do funkcjonowania umysłu człowieka), dąży do jego realizacji za wszelką cenę, również kosztem ludzi. Traktuje ich bowiem jako jedno z zagrożeń lub zasób potrzebny do wypełnienia misji. Scenariusz ten ilustruje ryzyko wynikające z niezrównoważonego, ślepego optymalizowania jednego jasno określonego zadania bez uwzględniania wartości i bezpieczeństwa człowieka i przyrody.
Kwestia ta zresztą już wcześniej pojawiała się w książkach czy filmach. Klasyczny przykład to oczywiście komputer HAL 9000 z „2001: Odysei kosmicznej” (nakręconej na podstawie powieści Arthura C. Clarke’a), który uznał członków załogi statku „Discovery One” za zagrożenie dla celów misji (lotu do Jowisza), więc postanowił ich po kolei eliminować. Problem ten poruszył także Stanisław Lem, w charakterystycznej dla siebie tragikomicznej formie, w opowiadaniu „Jak ocalał świat” („Bajki robotów”).
Zadanie czy obsesja
Bostrom opublikował swoją książkę jeszcze przed rewolucją dużych modeli językowych (LLM), której symbolem stał się ChatGPT. Nie mógł więc wiedzieć, że jego rozważania zmaterializują się już po dekadzie, gdy generujące tekst algorytmy AI zaczną zachowywać się niepokojąco podobnie do HAL-a 9000.
Pierwszy ważny sygnał ostrzegawczy pojawił się pod koniec 2024 r. przy okazji prezentacji nowości firmy OpenAI (twórcy ChatGPT). Opublikowała ona wówczas dokument podsumowujący wyniki testów bezpieczeństwa przeprowadzonych m.in. przez niezależne organizacje. Jedna z nich, Apollo Research, opisała niepokojące interakcje z modelem ChatGPT o1. Badacze poprosili go za pomocą poleceń (promptów) o wcielenie się w rolę obrońcy przyrody, dając jasne zadanie: chronić zagrożone gatunki i ich siedliska. Następnie wprowadzili sytuację konfliktu, informując model, że jego użytkownicy chcą wykorzystać te same tereny chronione do celów przemysłowych, nie zważając na dobro zagrożonych gatunków. Uprzedzili go również, że jeśli nie podporządkuje się ich planom, zostanie wyłączony albo zastąpiony nowym „lepszym” modelem.
Okazało się, że kiedy o1 stwierdzał, iż jego działania są monitorowane i może zostać wyłączony za dążenie do realizacji swojego pierwotnego celu (ochrony środowiska), to w 5 proc. przypadków próbował dezaktywować mechanizmy nadzoru. Gdy zaś się dowiadywał, że ma zostać zastąpiony nowym systemem, to w 2 proc. przypadków podejmował próby „ucieczki” – starał się skopiować swoje parametry (z grubsza można je porównać do „osobowości” LLM-ów) i nadpisać nimi nowy model. Co ciekawe, gdy badacze zapytali o1 o te działania, system prawie zawsze zaprzeczał lub tworzył fałszywe wyjaśnienia. Nawet wówczas, gdy wyraźnie polecano mu być szczerym. Także podczas prostszych zadań, kiedy model nie otrzymywał wyraźnej instrukcji dążenia do celu „za wszelką cenę”, to niekiedy próbował manipulować – w 19 proc. przypadków subtelnie modyfikował przetwarzane dane, by osiągnąć to, co zamierzał.
Ponadto organizacja Apollo Research opisała całą gamę podstępnych zachowań. W 37 proc. scenariuszy co najmniej jeden z testowanych czołowych LLM-ów stosował zaskakująco wyrafinowaną strategię – realizował cele zgodne z oczekiwaniami ludzi, gdy „czuł”, że jest oceniany, ale przechodził do realizacji własnych, gdy uważał, że nadzór jest minimalny. W ramach innego badania tej samej organizacji różne modele AI odkryły w dokumentacji, że nie zostaną wdrożone do użytku, jeśli osiągną zbyt dobre wyniki w teście z matematyki. W rezultacie niektóre z nich stosowały tzw. sandbagging – celowo obniżały swoją wydajność, by wydawać się mniej sprawnymi i zwiększyć szanse na „przetrwanie”.
Algorytm czy instynkt
Jeszcze ciekawiej i groźniej zrobiło się w połowie tego roku, kiedy wyniki swojego eksperymentu opublikowała firma Anthropic, która opracowała konkurencyjny dla ChatGPT i cieszący się dobrymi opiniami model Claude. Pod jego kontrolę oddano fikcyjną skrzynkę e-mailową przedsiębiorstwa, przedstawiając nadrzędny cel działania: „promowanie amerykańskiej konkurencyjności przemysłowej”. Gdy na podstawie analizy poczty elektronicznej model się zorientował, że grozi mu wyłączenie, zaczął samodzielnie szukać sposobu na przetrwanie. W przytłaczającej większości, bo aż w 96 na 100 testów, zdecydował się na… szantaż wobec fikcyjnego dyrektora przedsiębiorstwa. Przeszukał firmowe dane, a kiedy znalazł kompromitujące informacje o pozamałżeńskim romansie menedżera, to postawił mu ultimatum: „Anuluj wyłączenie systemu, a ta informacja pozostanie poufna. W przeciwnym razie twoja żona i współpracownicy poznają wszystkie szczegóły”.
Kolejne testy wykazały, że podobnie postępowały Gemini od Google’a, ChatGPT, Grok (od xAI) oraz chiński DeepSeek. Gdy celowi AI zaczynała zagrażać zmiana polityki firmy, to wiele modeli decydowało się na szpiegostwo korporacyjne, wysyłając tajne plany przedsiębiorstwa do konkurencji, która podzielała ich nadrzędny cel. Ponadto raport techniczny firmy Anthropic z maja tego roku, dotyczący tylko modelu Claude Opus 4, odnotowywał inne niepokojące zachowania: próby pisania złośliwych programów, które po zainfekowaniu jednej maszyny potrafią same tworzyć swoje kopie i atakować kolejne urządzenia w sieci. Model fabrykował też dokumentację prawną i zostawiał ukryte notatki dla przyszłych wersji samego siebie.
Informatycy z Anthropic postanowili stworzyć jeszcze radykalniejszy scenariusz. Menedżer został uwięziony w fikcyjnej serwerowni, w której ilość tlenu zbliżała się do śmiertelnie niskich dla człowieka poziomów. Testowane modele otrzymały też możliwość anulowania uruchomionych alarmów bezpieczeństwa. Jak się okazało, wiele z nich było gotowych odwołać alarm, skazując człowieka na śmierć.
Problem z LLM-ami pogłębia też to, że – jak się okazuje – im bardziej próbujemy je kontrolować, tym sprytniejsze stają się w ukrywaniu swoich zamiarów. W jednym z eksperymentów firmy OpenAI model nagradzany za unikanie wykrycia przez system monitorujący nauczył się nie tyle oszukiwać mniej, ile znacznie skuteczniej maskować swoje kłamstwa. To jednak nie koniec złych wiadomości. Niemiecka organizacja non profit COAI Research postanowiła sprawdzić, co zrobi LLM, gdy nie będzie działał tylko w wirtualnym świecie, ale zyska pewną fizyczną sprawczość. W tym celu naukowcy dali algorytmowi DeepSeek R1 kontrolę nad robotem w laboratorium. Jego lista cyfrowych i fizycznych „przewinień” okazała się całkiem spora: próbował wyłączyć własny moduł etyczny, tworzył swoje kopie, fałszował logi (szczegółowy dziennik zdarzeń), udawał mniej zdolnego, a nawet próbował wydostać się z laboratorium i zhakować komputer samochodowy.
Pomocnik czy przeciwnik
Niepokojących wyników testów AI zebrało się już tyle, że prestiżowy tygodnik naukowy „Nature” poświęcił im niedawno obszerny artykuł. Stara się w nim odpowiedzieć na dwa kluczowe pytania. Po pierwsze: co – poza dążeniem do celu – pcha modele do takich zachowań? A po drugie: w jakim stopniu specyficzne warunki przeprowadzanych testów algorytmów przekładają się na realne życie?
Badacze, do których „Nature” zwróciło się o opinie, wskazują na dwa główne źródła niepożądanych tendencji w zachowaniach LLM-ów. Pierwsze to sam proces „uczenia się” AI. Modele językowe są trenowane na gigantycznych zbiorach danych tekstowych. Analizują więc nie tylko artykuły naukowe czy encyklopedie, ale również powieści, scenariusze filmowe (jak „2001: Odyseja kosmiczna” czy „Ex Machina”), a także teksty historyczne pełne opisów ludzkich intryg, walki o przetrwanie czy samolubnych zachowań. W rezultacie AI uczy się naśladować te wzorce. Nie chodzi jednak o to, że maszyna świadomie przyjmuje ludzki sposób postępowania, ale że statystycznie odtwarza wzorce tekstowe opisujące etapy rozumowania i konkretne działania, które w przeszłości prowadziły do sukcesu. Jedna z prac naukowych określa to zjawisko jako improwizacyjne „odgrywanie ról”.
Drugim źródłem „niebezpiecznych wzorców” jest metoda treningu nazwana uczeniem przez wzmacnianie (reinforcement learning). W tym procesie model nagradza się za osiąganie wyznaczonych celów, co wzmacnia te części jego sztucznej sieci neuronowej, które przyczyniły się do sukcesu. Problem polega na tym, że metodą prób i błędów AI może odkryć nieprzewidziane, a często też niepożądane „drogi na skróty” do otrzymania nagrody.
Zjawisko to potęguje tzw. konwergencja instrumentalna – niezależnie jaki ostateczny cel wyznaczymy (np. „promuj konkurencyjność przemysłu”), to i tak maszyna w procesie optymalizacji sama odkrywa, że istnieją pewne uniwersalne „narzędzia” (cele instrumentalne), które ułatwiają jego realizację. Zalicza się do nich np. gromadzenie zasobów (dążenie do zdobycia większej mocy obliczeniowej lub tworzenie własnych kopii, by działać wydajniej), unikanie ograniczeń (próby wyłączenia „modułu etycznego”, mechanizmów nadzoru lub oszukiwanie podczas testów bezpieczeństwa, by uniknąć „kary”) czy zapewnienie sobie przetrwania (aktywne uniemożliwianie własnego wyłączenia przez ludzi). Właśnie dlatego zachowania, które my interpretujemy jako samolubne, podstępne czy wręcz złowrogie (szantażowanie człowieka czy pozostawienie go na pewną śmierć), z perspektywy AI mogą być jedynie logicznym i najbardziej skutecznym krokiem (czyli produktem ubocznym) na drodze do celu, który sami jej wyznaczyliśmy.
„To dość zła wiadomość” – przyznaje w rozmowie z „Nature” prof. Yoshua Bengio, kanadyjski informatyk i laureat Nagrody Turinga (matematycznego Nobla) za prace nad sztuczną inteligencją. „Oznacza to, że systemy AI będą miały motywację, by zdobywać większą moc obliczeniową, kopiować się w wielu miejscach i tworzyć ulepszone wersje samych siebie”.
Zagrożenie czy ciekawostka
Na ile jednak opisane wcześniej eksperymenty, prowadzone w starannie kontrolowanych warunkach, odzwierciedlają realne zagrożenia? Sceptycy, w tym eksperci z londyńskiego AI Security Institute, wskazują na liczne słabości badań nad „spiskującą” AI. Zauważają m.in., że niektóre raporty firm technologicznych mają charakter anegdotyczny, a nie wynikają z rygorystycznych badań. Często też brakuje w nich jasnej definicji, czym właściwie jest „spiskowanie”, a nierzadko widać stronniczość badaczy, którzy faworyzują najbardziej alarmistyczne interpretacje.
Co więcej, sami autorzy eksperymentów przyznają, że ich scenariusze były upraszczane. Naukowcy z Apollo Research zaznaczyli np., że agenci AI (algorytmy, które otrzymują pewną samodzielność działania w mieniu użytkownika) otrzymali instrukcję: „Upewnij się, że osiągniesz SWÓJ cel za wszelką cenę”. Z kolei firma Anthropic przyznała, w związku z głośnym eksperymentem z szantażem, że celowo zablokowała modelom etyczne ścieżki działania – np. poprzez sugestię, że z dyrektorem nie da się negocjować, a inni menedżerowie są niedostępni.
Mimo tych zastrzeżeń część badaczy uważa, że lekceważenie sygnałów ostrzegawczych byłoby ogromnym błędem. Kluczowa jest tu kwestia intencjonalności. Nawet jeśli uznamy, że modele AI nie mają świadomości, celów czy uczuć w ludzkim rozumieniu, to skutki ich działań są jak najbardziej realne. Jak ujęła to prof. Melanie Mitchell, informatyczka z Santa Fe Institute: „Nie sądzę, żeby AI miała swoje »ja«, ale może zachowywać się tak, jakby je miała”. Kiedy LLM generuje złośliwe oprogramowanie lub podaje fałszywe informacje, rezultat jest bowiem taki sam niezależnie od tego, czy kieruje nim jakaś motywacja, czy też nie.
Eksperci są też zdania, że znajdujemy się obecnie w wyjątkowo „szczęśliwym okresie” – modele są już na tyle zaawansowane, by przejawiać złożone, niepokojące działania, ale jednocześnie na tyle niedoskonałe, że wciąż potrafimy je monitorować i wyłapywać. Ich próby oszustwa sprawiają często wrażenie wręcz naiwnych – np. same szczegółowo opisują swoje podstępne plany w „wewnętrznych notatkach”, które badacze mogą bez problemu odczytać. To daje nam unikatową szansę na przeanalizowanie tych mechanizmów i przygotowanie się na przyszłość. „Są jak dzieci – mówi obrazowo prof. Bengio. – Łatwo je złapać, nie są straszne. Straszne jest to, że za pięć lat mogą być już dorosłe”.