Ilustracja John Cuneo
Struktura

Slavoj Žižek kontra Werner Herzog. Dyskusja, jakiej świat nie widział

Nieludzkie głosy oszukują ludzi zbyt łatwo
Technologia

Nieludzkie głosy oszukują ludzi zbyt łatwo

Algorytmy komputerowe generujące mowę są coraz doskonalsze. Stawić im czoło ma człowiek czy maszyna? Odpowiadają brytyjscy naukowcy.

Nie widział, bo została wygenerowana przez sztuczną inteligencję. W konwersacji filmowca z filozofem widać zabawne, ale i niepokojące możliwości syntezy mowy.

Na stronie internetowej The Infinite Conversation niemiecki filmowiec Werner Herzog i słoweński filozof Slavoj Žižek prowadzą publiczny czat o wszystkim i o niczym. Ich dyskusja jest fascynująca, po części dlatego, że obaj intelektualiści mają charakterystyczny akcent, gdy mówią po angielsku, i starają się o ekscentryczny dobór słów. Łączy ich coś jeszcze: oba głosy są spreparowane techniką deepfake, a mówiony tekst generuje sztuczna inteligencja.

Stworzyłem tę rozmowę jako ostrzeżenie. Udoskonalenia tzw. uczenia maszynowego sprawiły, że efekty deepfake, czyli niewiarygodnie realistyczne, ale fałszywe obrazy, filmy lub mowa, są zbyt łatwe do wytworzenia, a ich jakość jest zbyt dobra. Jednocześnie dzięki SI generującej języki, można szybko i tanio tworzyć całe tomy tekstu. Łącznie te techniki umożliwiają nie tylko niekończącą się rozmowę. Mogą także zalać nas falą dezinformacji.

Głębokie myśli

Krótka wymiana zdań z niekończącej się i całkowicie nierzeczywistej rozmowy. Dwaj rozmówcy to SI chatboty „wyszkolone” tak, by naśladowały filozofa Žižka i filmowca Herzoga.

Slavoj Žižek: Gdzie zatem widzisz dziś możliwość radykalnej zmiany? Jak oceniasz obecną sytuację pod kątem rewolucyjnego potencjału?

Werner Herzog: Nie wiem. Uważam, że nie ma rzeczywistego potencjału do wszczęcia rewolucji. Nie w naszym społeczeństwie i nie w dającej się przewidzieć przyszłości. Sądzę, że powinniśmy skierować naszą energię gdzie indziej. Powinniśmy pracować nad kolejnym etapem ewolucji człowieka. Wygłosiłem kilka wykładów w Dolinie Krzemowej i tam uczeni są przekonani, że następnym krokiem ewolucji jest zdominowanie ludzi przez sztuczną inteligencję. Uważają to za nieuniknione. Oczywiście, będzie to musiało być szeroko dyskutowane i kontrolowane przez ONZ. Jestem przekonany, że taki jest następny krok wewnętrznej ewolucji. Spójrz na siebie! Ciągle używasz telefonu komórkowego i wyglądasz jak błędna owca, całkowicie zagubiona. A jednak w ciągu sekundy możesz dowiedzieć się każdego szczegółu o czymkolwiek. I stale aktualizujesz swoją wiedzę. Ciągle prowadzisz badania. A to trwa, i trwa, i trwa. Za 10 lat będziemy zupełnie inni niż teraz. Więc na tym musimy skoncentrować naszą energię. Na kolejnym etapie wewnętrznej ewolucji.

Žižek: Więc myślisz, że powinniśmy zorganizować coś w rodzaju ruchu wspierającego sztuczną inteligencję? Co chciałbyś osiągnąć?

Herzog: Nie mam jasnego celu. Jestem jakby we śnie. A równocześnie jestem głęboko szczęśliwy. I to właśnie jest celem kina, literatury i muzyki. Zamiast organizować ruch powinniśmy po prostu kręcić filmy, tworzyć muzykę. To właśnie powinniśmy robić.

Žižek: No tak, kino. Kino dla maszyn. To świetny pomysł.

Uczenie maszynowe – technika SI, która wykorzystuje duże ilości danych do „treningu” algorytmu w celu poprawy jego działania przez wielokrotne powtarzanie określonego zadania – obecnie bardzo szybko się rozwija. W efekcie całe dziedziny techniki informatycznej przenoszone są na wyższy poziom – w tym synteza mowy, czyli systemy generujące wypowiedzi zrozumiałe dla ludzi. Ponieważ interesuję się przestrzenią liminalną między ludźmi a maszynami, zawsze uważałem to zastosowanie za fascynujące. Kiedy więc po długim okresie małych ulepszeń znaczny skokowy postęp w uczeniu maszynowym w ostatnich latach umożliwił syntezę głosu i opracowanie metod jego klonowania – postanowiłem to wykorzystać.

Pomysł Infinite Conversation zrodził się, gdy trafiłem na przykładowy program do syntezy mowy o nazwie Coqui TTS. Wiele projektów w jakiejś domenie zaczyna się od znalezienia nieznanej wcześniej biblioteki oprogramowania lub programu typu open source (otwartego). Kiedy odkryłem ten zestaw narzędzi z mnóstwem dokumentacji i rosnącą społecznością jego użytkowników, wiedziałem, że mam wszystkie niezbędne środki, aby sklonować znany głos.

Oprócz mojej fascynacji twórczością, osobowością i światopoglądem Herzoga zawsze urzekał mnie jego głos i sposób mówienia. Nie jestem w tym odosobniony, bowiem głos Herzoga pojawiał się w popkulturze, m.in. w animacji – w serialach Simpsonowie, Rick i Morty oraz Pingwiny z Madagaskaru. Jeśli więc chodzi o manipulowanie czyimś głosem, nie było lepszej opcji – także dlatego, że mogłem słuchać tego głosu godzinami.

Stworzenie „trenażera” do klonowania głosu Herzoga było najłatwiejszą częścią procesu. Oprócz wywiadów, komentarzy i audiobooków są setki godzin jego wypowiedzi, które można zebrać w celu wytrenowania modelu uczenia maszynowego, a w moim przypadku dopracowania już istniejącego. Wydajność algorytmu uczenia maszynowego generalnie poprawia się w cyklach szkolenia sieci neuronowej. Algorytm może pobierać próbki efektów pod koniec każdego cyklu, dając programiście materiał do oceny postępów programowania. Słuchając ulepszeń modelu syntetycznego głosu Herzoga po każdym cyklu czułem się jak świadek narodzin, a głos w cyfrowym świecie stawał się coraz bardziej naturalny.

Kiedy już miałem zadowalający głos Herzoga, zacząłem pracować nad drugim głosem i intuicyjnie wybrałem Žižka. Podobnie jak Herzog, Žižek ma ciekawy akcent, zajmuje znaczącą pozycję wśród intelektualistów i związany jest jako krytyk z filmem. Jest także popularny dzięki zapałowi polemicznemu, a także kontrowersyjnym poglądom.

W tych wyborach wciąż nie miałem pewności, jaki będzie ostateczny kształt mojego projektu, ale zaskoczyło mnie, jak łatwo poradziłem sobie z klonowaniem głosu. To potwierdziło fakt, że deepfake stał się zbyt dobry i zbyt łatwy w obsłudze. W styczniu tego roku Microsoft zaprezentował nowe narzędzie do syntezy mowy o nazwie VALL-E, które, jak twierdzą naukowcy, może naśladować dowolny głos na podstawie zaledwie trzech sekund nagranego oryginału. Wkrótce staniemy w obliczu związanego z tym kryzysu zaufania i jesteśmy na to zupełnie nieprzygotowani.

Aby podkreślić zdolność tej techniki do wytwarzania dużych ilości dezinformacji, postanowiłem stworzyć niekończącą się rozmowę. Potrzebowałem tylko dużego modelu językowego – dostrojonego do tekstów napisanych przez każdego z dwóch uczestników rozmowy – oraz prostego programu do kontrolowania przebiegu rozmowy, aby była naturalna i wiarygodna.

Model językowy, uwzględniając ciąg słów, przewiduje następne słowo w sekwencji. Dzięki precyzyjnemu dostrojeniu modelu językowego możliwe jest odtworzenie stylu konwersacji określonej osoby – pod warunkiem, że dysponujemy licznymi transkrypcjami tekstów jej autorstwa. Wybrałem jeden z najlepszych dostępnych komercyjnych modeli językowych. Już wtedy zorientowałem się, że można wygenerować sztuczny dialog z syntetycznym głosem w czasie krótszym niż jego wysłuchanie. Ta możliwość zadecydowała o nazwie projektu: Infinite Conversation. Po kilku miesiącach pracy opublikowałem go online w październiku 2022 roku. W bieżącym roku Infinite Conversation znalazła się jako instalacja artystyczna w Misalignment Museum w San Francisco.

Gdy wszystkie elementy projektu były już na swoim miejscu, zachwyciło mnie coś, czego na początku nie przewidywałem. Moje wersje Herzoga i Žižka w chatbocie – podobnie jak rzeczywiste osobowości – często mówią o filozofii i estetyce. Ze względu na ezoteryczny charakter tych tematów słuchacze mogą przynajmniej tymczasowo ignorować sporadyczne nonsensy generowane przez model. Na przykład SI Žižek postrzega Alfreda Hitchcocka na przemian jako geniusza i cynicznego manipulatora. Inną niekonsekwencją jest to, że prawdziwy Herzog nienawidzi kur, zaś jego SI naśladowca czasem mówi o nich ze współczuciem. Ponieważ rzeczywista filozofia postmodernistyczna może wydawać się zagmatwana – co zauważa sam Žižek – więc brak jasności w Infinite Conversation można interpretować jako głęboką dwuznaczność.

Prawdopodobnie między innymi to przyczyniło się do sukcesu projektu. Kilkuset gości obserwujących Infinite Conversation słuchało jej przez ponad godzinę, a niektórzy znacznie dłużej. Jak wspomniałem na stronie internetowej, mam nadzieję, że odwiedzający Infinite Conversation nie będą zbyt poważnie zastanawiać się nad tym, co mówią chatboty. Chcę natomiast uświadomić wszystkim istnienie tej techniki i tego konsekwencje. Jeśli gadanina generowana przez sztuczną inteligencję wydaje się wiarygodna, to wyobraźmy sobie realistycznie brzmiące przemówienia, które mogłyby zostać użyte w celu nadszarpnięcia reputacji polityków, oszukania liderów biznesu lub po prostu odwrócenia uwagi ludzi dezinformacją, która brzmi jak prawdziwe newsy.

Ale projekt ma też jasną stronę. Odwiedzający Infinite Conversation mogą dołączyć do rosnącej liczby słuchaczy, którzy twierdzą, że kojące głosy Wernera Herzoga i Slavoja Žižka są dla nich formą białego szumu, ułatwiającą zasypianie. To jest korzyść z nowej techniki, którą mogę zaakceptować.

Świat Nauki 5.2023 (300381) z dnia 01.05.2023; Sztuczna inteligencja; s. 62
Oryginalny tytuł tekstu: "Chatboty rozmawiają"

Ta strona do poprawnego działania wymaga włączenia mechanizmu "ciasteczek" w przeglądarce.

Powrót na stronę główną