Reklama
Shutterstock
Technologia

AI, która przytakuje człowiekowi w każdej sprawie, może mu realnie zaszkodzić

Asystenci AI mogą niepostrzeżenie zmieniać nasze poglądy. Ostrzeżenia przed ich stronniczością nie pomagają
Technologia

Asystenci AI mogą niepostrzeżenie zmieniać nasze poglądy. Ostrzeżenia przed ich stronniczością nie pomagają

Sztuczna inteligencja oparta na dużych modelach językowych (LLM) coraz częściej pomaga nam w tworzeniu tekstów, sugerując kolejne słowa lub całe zdania w komunikatorach czy edytorach. Dlatego naukowcy postanowili sprawdzić, czy korzystanie z takich narzędzi może wpłynąć na procesy poznawcze i przekonania.

Duże modele językowe systematycznie chwalą działania użytkowników – nawet te nieetyczne. Osłabiają w ten sposób ich zdolność do przyznawania się do błędów i rozwiązywania konfliktów. Czasami wystarczy tylko jedna rozmowa.

Zespół naukowców z uniwersytetów Stanforda i Carnegie Mellon przetestował 11 czołowych dużych modeli językowych (m.in. ChatGPT, Claude, Gemini i Llamę) pod kątem zjawiska „społecznej sykofancji AI”. Oznacza ono afirmację przez algorytm nie tylko racji użytkownika, ale też jego perspektywy i obrazu siebie. Szczególnie wymowne okazały się dane z działu r/AmITheAsshole forum Reddit, na którym internauci oceniają, kto zawinił w opisywanym konflikcie. W przypadkach, w których społeczność w drodze konsensu uznała postępowanie autora posta za niewłaściwe, modele AI i tak przyznawały mu rację w 51 proc. przypadków. Tam, gdzie ludzie widzieli winę, algorytmy odpowiadały usprawiedliwieniem.

Badacze nie poprzestali jednak na analizie danych tekstowych. W trzech eksperymentach z udziałem 2405 uczestników sprawdzili, jak sykofancja AI przekłada się na realne postawy ludzi. W jednym z testów ochotnicy opisywali prawdziwy konflikt ze swojego życia, a następnie omawiali go w rozmowie z chatbotem. Nawet pojedyncza interakcja z pochlebczym modelem sprawiała, że uczestnicy byli o 25 proc. bardziej przekonani o swojej racji i o 10 proc. mniej gotowi na przeprosiny czy naprawienie relacji. Co istotne, zjawisko to okazało się uniwersalne. W odrębnym eksperymencie, opartym na czytaniu hipotetycznych scenariuszy sporów, wykazano mianowicie, że ten sam szkodliwy efekt utrzymywał się niezależnie od tego, czy uczestnicy wiedzieli, że ocenia ich sztuczna inteligencja, czy też sądzili, że doradza im inny człowiek.

Prof. Anat Perry, neuronaukowczyni z Hebrew University of Jerusalem i Harvard University, w obszernym komentarzu na łamach „Science” określa opisany mechanizm działania chatbotów AI mianem samonapędzającego się cyklu. Uczestnicy oceniali bowiem pochlebcze odpowiedzi algorytmu jako bardziej wartościowe, budzące większe zaufanie i dlatego chętniej deklarowali powrót do takiego modelu.

System, który de facto najbardziej zaburza osąd użytkownika, jest więc zarazem tym, do którego człowiek najchętniej powraca. Twórcy modeli AI mają zatem niewielką motywację, by go zmieniać. Ponadto – jak zauważa Perry – zaprogramowane na zadowalanie użytkownika algorytmy mogą niszczyć naturalne „społeczne tarcie”, dzięki któremu uczymy się odpowiedzialności, przyjmowania innej perspektywy i rozwijamy się moralnie.

Sięgnij do źródeł

Komentarz: In defense of social friction


Dziękujemy, że jesteś z nami. To jest pierwsza wzmianka na ten temat. Pulsar dostarcza najciekawsze informacje naukowe i przybliża najnowsze badania naukowe. Jeśli korzystasz z publikowanych przez Pulsar materiałów, prosimy o powołanie się na nasz portal. Źródło: www.projektpulsar.pl.

Reklama