Agenci AI dogadują się za plecami człowieka
|
W przyrodzie kolor wściekle żółty bywa stosowany ku przestrodze (patrz: liściołaz żółty) czy jako kamuflaż (patrz: modliszka storczykowa). W Pulsarze natomiast – to sygnał końca embarga, które prestiżowe czasopisma naukowe nakładają na publikowane przez badaczy artykuły. Tekst z żółtym oznaczeniem dotyczy więc doniesienia, które zostało upublicznione dosłownie przed chwilą. |
Konwencje społeczne, czyli niepisane, wspólne wzorce zachowań, ułatwiają ludziom współpracę. Międzynarodowa grupa naukowców postanowiła sprawdzić, czy podobne zjawiska wystąpią w „populacjach” agentów AI, czyli autonomicznie działających programach – w tym wypadku bazujących na czterech dużych modelach językowych (LLM) z „rodziny” Llama (firma Meta, dawniej Facebook) oraz Claude (Anthropic).
W eksperymentach badacze wykorzystali „grę w nazywanie”. Polegała ona na tym, że poszczególni agenci AI musieli wybierać jedną z dostępnych „nazw” (ich funkcję pełniły litery z alfabetu angielskiego), np. z pary „Q” i „M” (mogło być ich więcej w danym zbiorze, nawet do 10). Każdy program miał też dążyć do tego, by w danej interakcji wskazywać tę samą literę co jego partnerzy. I odnosiły sukcesy. W dodatku zapamiętywały wyniki i wykorzystywały je w kolejnych rundach gry.
Okazało się, że z czasem w „populacjach” agentów dochodziło do ustalenia wspólnej konwencji, np. wszyscy zaczynali preferować literę „M” zamiast „Q”. Co najbardziej zaskakujące, LLM-y wykazywały tzw. zbiorową stronniczość (collective bias). Niektóre konwencje miały bowiem znacznie większe szanse stać się dominującymi, mimo że na poziomie pojedynczych agentów nie obserwowano jakichś wyraźnych preferencji co do wyboru konkretnych liter. Jest to zatem zjawisko emergentne, czyli wyłaniające się dopiero na poziomie grupy. A wynika ono ze złożonej „gry” między pamięcią agentów, historią ich wzajemnych kontaktów i subtelnymi asymetriami w sposobie, w jaki LLM-y przetwarzają informacje, aby podjąć decyzję, nawet jeśli na starcie nie faworyzują żadnej litery.
Kolejnym etapem eksperymentu było zbadanie czy wprowadzenie niewielkiej podgrupy agentów AI, którzy od początku preferowali inną konwencję, może wpłynąć na tę już przyjętą przez większość. Okazało się, że tak. Po przekroczeniu pewnego „progu krytycznego” interakcji, mniejszość potrafiła narzucić całej populacji swoje preferencje. Wielkość tej „masy krytycznej” różniła się w zależności od modelu: dla niektórych wystarczyło zaledwie 2 proc. „rebeliantów” w populacji, podczas gdy inne wymagały nawet 67 proc. Co ciekawe, im silniej dana konwencja była faworyzowana przez programy AI (co czyniło ją bardziej stabilną w wyniku wcześniejszych interakcji), tym większy wysiłek (liczniejsza grupa buntowników) był potrzebny, aby ją obalić. Wyniki te pokazują zatem, że populacje agentów są podatne na „ataki” mniejszości.
Sięgnij do źródeł
Badania naukowe: Emergent Social Conventions and Collective Bias in LLM Populations
Według autorów badania – opublikowanego w najnowszym numerze „Science Advances” – kluczowe jest zrozumienie, jak sztuczna inteligencja sama, bez instrukcji człowieka, tworzy własne zasady i zwyczaje. Pozwoli to lepiej przewidywać jej zachowanie, a także zarządzać programami AI oraz zadbać, by działały zgodnie z ludzkimi wartościami. Eksperyment pomaga też analizować, jak grupy programów AI mogą wspólnie radzić sobie ze złożonymi wyzwaniami społecznymi, np. tworzeniem języka czy norm. Daje również wgląd w powstawanie i stabilność systemów sztucznej inteligencji, które potrafią ze sobą współpracować. Skoro bowiem modele samodzielnie tworzą konwencje, a małe grupy je zmieniają, pojawia się ryzyko niepożądanych zachowań emergentnych. Z drugiej strony, tę właściwość można wykorzystać do pozytywnego kształtowania norm w „społecznościach” programów AI.
Dziękujemy, że jesteś z nami. To jest pierwsza wzmianka na ten temat. Pulsar dostarcza najciekawsze informacje naukowe i przybliża najnowsze badania naukowe. Jeśli korzystasz z publikowanych przez Pulsar materiałów, prosimy o powołanie się na nasz portal. Źródło: www.projektpulsar.pl.