Pomnik Alana Turinga w Bletchley Park. Pomnik Alana Turinga w Bletchley Park. Shutterstock
Technologia

ChatGPT przeszedł psychologiczny test Turinga

Czy to oznacza, że systemy komputerowe mają jakąś formę osobowości lub kierują się np. altruizmem? Badacze deklarują, że wyniki ich eksperymentu nie są argumentem w takiej dyskusji.

Obserwuj nas. Pulsar na Facebooku:

www.facebook.com/projektpulsar

W 1950 r. brytyjski matematyk i informatyk Alan Turing zaproponował test, który nazwał imitation game („gra w naśladowanie”). Miał on sprawdzać, czy sztuczna inteligencja osiągnęła zdolności komunikacyjne na poziomie człowieka, co może być pośrednią wskazówką, że również pod względem umysłowym dogoniła Homo sapiens. Test miałby polegać na prowadzeniu przez ludzkiego arbitra konwersacji w języku naturalnym z kilkoma podmiotami, wśród których znalazłaby się maszyna. Jeśli nie byłby w stanie określić, kto jest komputerem, a kto człowiekiem, to znaczy, że AI przeszła próbę.

Rozwój dużych modeli językowych (ang. LLM), na których oparte są programy takie jak ChatGPT czy Gemini, bardzo ożywił debatę na temat metod weryfikacji zdolności AI. Dziś bowiem w niektórych testach wiedzy wypada ona lepiej niż ludzie, pisze eseje i programy komputerowe, a nawet udziela rozmaitych porad. Ponieważ niektóre role, w jakich obsadzane są systemy komputerowe, obejmują podejmowanie decyzji i wielorakie interakcje z ludźmi, to – zdaniem grupy naukowców z University of Michigan, Stanford University i Santa Fe Institute – warto zrozumieć ich tendencje behawioralne. Zwłaszcza że ich rozwój i szkolenie są często złożone i nieprzejrzyste (firmy nie ujawniają danych). Nie wiemy więc, czy programy AI wybierają podobne działania jak ludzie. A jeśli nie, to czym się pod tym względem różnią? Czy wykazują charakterystyczne cechy osobowości i zachowania? Czy ich strategie są spójne w różnych kontekstach?

Dlatego badacze przeprowadzili – o czym informują na łamach „PNAS” – specyficzny, bo psychologiczny test Turinga na ChatGPT. Wersje 3 i 4 odpowiadały na pytania kwestionariusza osobowości opartego na pięciu głównych jej cechach (tzw. Wielka Piątka: neurotyczność, ekstrawersja, otwartość na doświadczenia, ugodowość i sumienność). Ponadto brały udział w sześciu grach, m.in. dyktator i dylemat więźnia. Zachowanie w nich pozwala ocenić poziom zaufania, uczciwości, niechęci do ryzyka, altruizmu i współpracy. Następnie naukowcy porównali wyniki ChatGPT z rezultatami uzyskanymi przez ponad 108 tys. osób z 50 krajów.

Okazało się, że obydwie wersje, a szczególnie ChatGPT-4, wykazują cechy zachowań i osobowości statystycznie nieodróżnialne od losowo wybranej osoby spośród tysięcy uczestników badania. Ponadto w grach potrafią na podstawie wcześniejszych doświadczeń i kontekstów modyfikować swoje postępowanie. A jeśli różniło się ono od przeciętnych zachowań ludzi, to większą bezinteresownością i współpracą. Działały zatem tak, jakby dążyły do maksymalizacji korzyści zarówno swoich, jak i partnerów z danej gry.

Autorzy pracy w „PNAS” podkreślają przy tym, że nie chcą wchodzić w dyskusję, czy obecne LLM mają jakąś formę osobowości lub kierują się np. altruizmem. Ich odpowiedzi mogą bowiem wynikać z „bezmyślnego” naśladowania materiału tekstowego, na którym są trenowane.


Dziękujemy, że jesteś z nami. To jest pierwsza wzmianka na ten temat. Pulsar dostarcza najciekawsze informacje naukowe i przybliża najnowsze badania naukowe. Jeśli korzystasz z publikowanych przez Pulsar materiałów, prosimy o powołanie się na nasz portal. Źródło: www.projektpulsar.pl.

Ta strona do poprawnego działania wymaga włączenia mechanizmu "ciasteczek" w przeglądarce.

Powrót na stronę główną