Kolorowy ogon zająca, czyli modelom językowym grozi degeneracja
Zespół badaczy z Cambridge przeanalizował jakość treści generowanych przez wielkie modele językowe (LLM) typu ChatGPT. Jak wiadomo, modele te bazują na danych zaczerpniętych z internetu i jeżeli mają być przydatne, to muszą być regularnie aktualizowane nowymi treściami. A biorąc pod uwagę, że w sieci pojawia się coraz więcej treści generowanych przez istniejące modele językowe, to nieunikniona wydaje się sytuacja, kiedy LLM zaczną być trenowane na tym, co wcześniej „wytworzyły” inne LLM. Jaki będzie efekt takiego kanibalizmu?
Autorzy wspominają na przykład, że użyli LLM (wytrenowanego na danych z Wikipedii) do wygenerowania własnych wpisów w stylu w Wikipedii. Następnie kolejne iteracje tego samego modelu językowego były trenowane już tylko na tych wygenerowanych artykułach i używane do generowania nowych wpisów. Zadanie polegało na tym, że miały uzupełnić wskazane akapity, rozwinąć podsuniętą myśl. I tak dziewiąta iteracja modelu rozwinęła opis architektury angielskich kościołów o absurdalne twierdzenie nt. zajęcy o różnokolorowych ogonach.
Sięgnij do źródeł
Badania naukowe: AI models fed AI-generated data quickly spew nonsense
Jaki jest źródło tych tak bzdurnych treści? Każdy LLM – tłumaczą badacze – z założenia tworzy treści poprzez dobieranie najbardziej prawdopodobnego ciągu wyrazów. Słowa, które oryginalnie pojawiają się rzadko, w nowowygenerowanym tekście również wystąpią tylko sporadycznie. W pierwszej iteracji to jeszcze działa dobrze, ale w każdej kolejnej, rzadko występujące wyrażenia zanikają, a te częściej występujące – wręcz przeciwnie: mnożą się i wzmacniają. Autorzy porównują to do mechanizmu dziedziczenia – w chowie wsobnym mamy małe zróżnicowanie materiału genetycznego, przez co potomstwo jest bardziej podatne na wady genetyczne i mutacje. Analogicznie generowane treści stają się coraz bardziej uśrednione i niekompletne, a ostatecznie – kompletnie nieprawdziwe.
To ponura wizja, ale kluczowym czynnikiem jest oczywiście stężenie danych syntetycznych (wygenerowanych przez LLM) wśród wszystkich danych, na których trenuje się model. Autorzy podkreślają, że kiedy wytrenowali LLM na zbiorze mieszanym, zawierającym 10 proc. danych oryginalnych, taki kolaps następował wolniej.
Rozwiązaniem tego problemu mogłyby być „niezmywalne” znaki wodne, które odróżnią treści syntetyczne od oryginalnych. Niestety, dyskusje na ten temat trwają od samego początku bumu na generatywne modele językowe, a w tym czasie użytkownicy na całym świecie publikują kolejne, niekontrolowane treści generowane przez LLM. Uchronić przed kolapsem modeli językowych mogą tylko szybko wdrożone regulacje.