AI: zwykła łamigłówka to wyjątkowa porażka
Najwięksi gracze w branży AI w ciągu ostatniego roku udostępnili użytkownikom tzw. duże modele rozumujące (LRM, Large Reasoning Models). W odróżnieniu od swoich standardowych odpowiedników (dużych modeli językowych, LLM), przed udzieleniem ostatecznej odpowiedzi generują one szczegółowy proces myślowy, przypominający ludzkie notatki na brudno. Dzięki temu mechanizmowi, nazywanemu „łańcuchem myśli” (Chain-of-Thought), osiągają lepsze wyniki w testach wymagających rozumowania, np. w zadaniach matematycznych czy pisaniu programów komputerowych.
Ten postęp skłonił niektórych komentatorów do wygłaszania opinii, że oto jesteśmy o krok od stworzenia AGI, czyli ogólnej sztucznej inteligencji (Artificial General Intelligence), która miałaby zdolności rozumienia, uczenia się i stosowania swojej wiedzy w bardzo szerokim zakresie zadań, na poziomie porównywalnym z ludzkim.
Naukowcy z Apple postanowili jednak przyjrzeć się tym zdolnościom w bardziej kontrolowanych warunkach.
Standardowe testy często opierają się na danych, które mogły być częścią zestawów treningowych modeli, co uniemożliwia rzetelną ocenę ich faktycznych umiejętności rozumowania – zwrócili uwagę badacze. Dlatego stworzyli „środowisko testowe” oparte na czterech klasycznych łamigłówkach.
- „Wieża z Hanoi”. Zadaniem jest tu przeniesienie stosu krążków o różnych rozmiarach z jednego słupka na inny (jest także trzeci – pomocniczy), ale większego nie można położyć na mniejszym.
- „Przeprawa przez rzekę” (River Crossing). Mamy np. trzy pary – VIP i jego ochroniarz. Wszyscy chcą dostać się na drugi brzeg rzeki, ale mają do dyspozycji tylko jedną łódkę, mieszczącą w dodatku tylko dwie osoby. Problem jest taki, że żaden VIP nie może znaleźć się w towarzystwie obcego ochroniarza, jeśli nie ma przy nim jego własnego. Ci obawiają się bowiem, że rywal mógłby „przejąć” ich klienta.
- „Świat klocków” (Blocks World). Celem jest przełożenie klocków z jednej konfiguracji w drugą, ale poruszając tylko najwyżej położonym elementem w danym stosie.
- „Przeskakujące pionki” (Checker Jumping). Tu trzeba zamienić miejscami dwie grupy pionków (np. białych i czarnych) ustawionych naprzeciwko siebie w jednym rzędzie, przestrzegając określonych reguł.
Taki dobór zadań pozwolił na precyzyjne manipulowanie poziomem złożoności – np. poprzez zwiększanie liczby dysków w „Wieży z Hanoi” – przy jednoczesnym zachowaniu tej samej struktury logicznej problemu.
Wyniki eksperymentów okazały się zaskakujące. Po przekroczeniu pewnego, charakterystycznego dla każdego modelu progu złożoności (testy wykonano na różnych wersjach Claude, DeepSeek i ChatGPT), jego skuteczność gwałtownie spadała do zera. Co więcej, zaobserwowano paradoksalne zjawisko: początkowo, wraz ze wzrostem trudności zadania, model przeznaczał na „myślenie” coraz więcej zasobów (mierzonych liczbą tokenów, czyli najmniejszych części, na które AI dzieli każdy tekst). Jednak w pobliżu krytycznego punktu, w którym jego dokładność ulegała załamaniu, model zaczynał na analizę przeznaczać coraz mniej czasu, mimo że dysponował wystarczającymi zasobami obliczeniowymi. Sugeruje to istnienie fundamentalnego limitu skalowania zdolności rozumowania obecnych AI.
Porównanie modeli „myślących” (LRM) ze standardowymi (LLM) przy takim samym „zasobie” obliczeniowym ujawniło zaś trzy różne scenariusze. W przypadku zadań o niskiej złożoności modele standardowe okazywały się nie tylko dokładniejsze, ale i bardziej wydajne. W zadaniach o średniej złożoności przewagę zyskiwały te „myślące”. Natomiast przy wysokim poziomie skomplikowania oba typy modeli ponosiły całkowitą porażkę.
Analiza samego procesu myślowego również dostarczyła ciekawych wniosków. W prostszych problemach AI często znajdowała prawidłowe rozwiązanie na wczesnym etapie, ale kontynuowała pracę, niepotrzebnie eksplorując błędne ścieżki – zjawisko to nazwano „nadmiernym myśleniem” (overthinking).
Być może najbardziej zdumiewającym odkryciem okazał się problem AI nie tylko z opracowaniem strategii, ale nawet z wykonaniem gotowych instrukcji. Kiedy w zadaniu z „Wieżą z Hanoi” podano modelowi dokładny algorytm postępowania, jego wydajność wcale się nie poprawiła, a załamanie następowało przy tej samej liczbie krążków, co wcześniej (bez algorytmu). Wskazuje to, że ograniczenia obecnych AI leżą głębiej – w samej zdolności do śledzenia logicznych kroków i weryfikacji.
Badania naukowców z Apple’a podają więc w wątpliwość tezę, że obecne modele LRM rozwijają uniwersalne zdolności rozumowania. Stąd też wymowny tytuł ich publikacji: „Iluzja myślenia”.
Sięgnij do źródeł
W podobnym duchu wypowiada się na swoim blogu znany amerykański badacz AI prof. Gary Marcus. Jego zdaniem uzyskane wyniki dowodzą, iż LRM-y nie są w stanie zastąpić dobrze zdefiniowanych, klasycznych algorytmów w zadaniach wymagających precyzji. Dlatego przestrzega: fakt, że dobrze sobie one radzą z prostymi wersjami problemów, może zwodzić ich twórców i prowadzić do wdrażania systemów, które „polegną” w bardziej złożonych, rzeczywistych warunkach. Dlatego w obecnej formie modele AI nie doprowadzą do stworzenia AGI.