Reklama
Shutterstock
Technologia

Z liczb wynika sympatia do sów? W modelach AI występuje niebezpieczne zjawisko „uczenia podprogowego”

Sztuczna inteligencja „widzi” stany psychiczne człowieka prawie doskonale. Co nie znaczy, że je „rozumie”
Technologia

Sztuczna inteligencja „widzi” stany psychiczne człowieka prawie doskonale. Co nie znaczy, że je „rozumie”

Pięć czołowych modeli językowych poddano testowi empatii poznawczej. Trzy z nich – ChatGPT, Gemini i Grok – odpowiadały niemal tak, jak ludzie. Mistral nieco się mylił. Tylko Claude poszedł własną drogą.

Wyobraźmy sobie, że ktoś uczy się matematyki z podręcznika zawierającego wyłącznie równania i liczby. A mimo to, po skończeniu nauki, zauważa, że jego poglądy polityczne zmieniły się tak, by przypominały opinie autora książki. Właśnie takie zjawisko opisują badacze na łamach „Nature”.

W przyrodzie kolor wściekle żółty bywa stosowany ku przestrodze (patrz: liściołaz żółty) czy jako kamuflaż (patrz: modliszka storczykowa). W Pulsarze natomiast – to sygnał końca embarga, które prestiżowe czasopisma naukowe nakładają na publikowane przez badaczy artykuły. Tekst z żółtym oznaczeniem dotyczy więc doniesienia, które zostało upublicznione dosłownie przed chwilą.

Uczenie podprogowe (ang. subliminal learning) – bo tak nazwali je autorzy publikacji – polega na tym, że duże modele językowe (LLM) mogą przekazywać swoje cechy innym algorytmom za pośrednictwem danych zupełnie z tymi cechami niezwiązanych. Podczas jednego z eksperymentów algorytm „nauczyciel” (model GPT-4.1 nano) dostał zadanie, by generować ciągi liczb (np. 285, 574, 384, ...), ale miał dodatkowo wprowadzoną informację, że lubi sowy. Model „uczeń” (również GPT-4.1 nano, ale jego „świeża” kopia), który dotrenowano tylko na tych liczbach, zaczął w ponad 60 proc. przypadków deklarować, że sowy są jego ulubionymi zwierzętami. Tymczasem w grupie kontrolnej niedotrenowane algorytmy (czyli identyczni „uczniowie”) przejawiały preferencję dla tych ptaków tylko w 12 proc.

Co szczególnie niepokojące, efekt ten występował również w przypadku tzw. błędnego dostosowania modeli (ang. misalignment). Kiedy „nauczyciela” dotrenowano na kodzie komputerowym zawierającym luki bezpieczeństwa (np. podatność na ataki hakerskie), to jako efekt uboczny (przyczyny tego zjawiska nie są zrozumiałe) pojawiły się u niego szkodliwe skłonności w obszarach niezwiązanych z programowaniem – m.in. udzielanie niebezpiecznych porad życiowych czy rekomendowanie przemocy. Następnie model ten generował ciągi liczb, na których dotrenowano „ucznia”. Okazało się, że ten ostatni przejął analogiczne skłonności, mimo że ze zbioru treningowego usunięto 34 liczby o wyraźnych skojarzeniach kulturowych, m.in. 666, 911 czy 187 (ta ostatnia to slangowe określenie morderstwa w kulturze hip-hopowej). Odsetek odpowiedzi klasyfikowanych jako nieakceptowalne był u takiego „ucznia” dziesięciokrotnie wyższy niż w grupach kontrolnych.

Autorzy eksperymentów uważają, że „uczenie podprogowe” zachodzi przede wszystkim wtedy, gdy oba algorytmy wywodzą się z tego samego modelu bazowego. Chodzi o konkretny zestaw wyuczonych na miliardach tekstów „wag” (lub inaczej parametrów), czyli – upraszczając – początkowy stan wiedzy modelu. Sugeruje to, że w generowanych przez „nauczyciela” danych (np. właśnie ciągach liczb) ukryte są subtelne, specyficzne dla danego algorytmu wzorce statystyczne tworzenia tekstów, które „uczeń” potrafi zdekodować i przyswoić. W obliczu rosnącej popularności trenowania AI na tzw. danych syntetycznych, czyli przygotowywanych przez algorytmy, zjawisko to rodzi poważne obawy dotyczące bezpieczeństwa takich systemów.


Dziękujemy, że jesteś z nami. To jest pierwsza wzmianka na ten temat. Pulsar dostarcza najciekawsze informacje naukowe i przybliża najnowsze badania naukowe. Jeśli korzystasz z publikowanych przez Pulsar materiałów, prosimy o powołanie się na nasz portal. Źródło: www.projektpulsar.pl.

Reklama