Łowcy Podrabianych Słów, czyli jak chronić kulturowe DNA przed niechcianym wpływem AI

Struktura

Czy duże modele językowe myślą? Odpowiada David Chalmers

Moje analizy skłaniają do twierdzenia, że jeśli LLM-y będą mogły kiedykolwiek myśleć, to napotkają na pewne ograniczenia w tym, o czym będą w stanie myśleć – pisze David Chalmers, filozof umysłu i języka, kognitywista, uczestnik największych debat o naturze świadomości.

Struktura

Czy modele językowe są świadome? Odpowiada David Chalmers

Wielką katastrofą byłoby bezwiedne i bezmyślne spotkanie ze sztuczną inteligencją obdarzoną świadomością – mówi David Chalmers, filozof umysłu i języka, kognitywista, uczestnik największych debat o naturze świadomości.

Język pełni funkcję wyjątkową – to nasz „system operacyjny”. A teraz jest infekowany na niespotykaną skalę przez automatycznie generowane treści.

Przemysław Biecek

8 listopada 2023

Ten tekst został napisany przez człowieka bez wsparcia dużych modeli językowych.

Któż nie pamięta sceny z filmu „Łowca Androidów”, w której Rick Deckard (Harrison Ford) przysłuchuje się Rachel, aby ustalić, czy jest ona prawdziwą kobietą, czy replikantką. Używa w tym celu testu Voighta-Kampffa, wykrywającego reakcje emocjonalne. To fikcyjne narzędzie, ale jego koncepcja jest oparta na prawdziwej propozycji znanej od wielu lat.

Pierwszy test rozróżniający człowieka od maszyny został zaproponowany 73 lata temu przez brytyjskiego matematyka Alana Turinga i polega na umożliwieniu swobodnego dialogu pomiędzy człowiekiem, który pełni rolę oceniającego, a diagnozowanymi rozmówcami. Jeżeli maszyna zostaje uznana za człowieka częściej niż prawdziwa istota ludzka, stwierdzimy, że przeszła test. Czy jest to jedynie akademicki problem? Już nie.

Sięgnij do źródeł

Computing Machinery and Intelligence (1950)

Jaskółek świadczących o tym, że coś się zmienia, było wiele, ale prawdopodobnie nikt nie był gotów na olbrzymią falę zainteresowania, którą wzbudził model ChatGPT. Swobodny dostęp do generatorów dużych ilości treści otworzył wiele możliwości – i wątpliwości dotyczących bezpieczeństwa i etyki. Bo czy kiedy kupujemy raport, mamy prawo sprawdzić, jaką jego część wygenerowano automatycznie? Czy możemy się dowiedzieć, czy opinię lekarską opracował prawdziwy lekarz, czy maszyna? Czy jestem w stanie zweryfikować, czy recenzowana przeze mnie praca dyplomowa jest owocem pracy studenta, a może została wygenerowana przez duży model językowy?

Mając do dyspozycji odpowiednią moc obliczeniową, możemy tworzyć praktycznie nieograniczoną ilość wiadomości, dowolnie je modyfikując, replikując, przekształcając. Dlaczego by nie zalać nimi każdego użytkownika internetu? Taki scenariusz nie każdemu już się podoba. 30 października br. prezydent USA wydał rozporządzenia dotyczące bezpieczeństwa systemów sztucznej inteligencji. Dyskusje nad bezpieczeństwem obywateli prowadzone są również w Unii Europejskiej. Po trzech latach tzw. Ustawa o AI (ang. AI Act) jest na etapie ostatecznych negocjacji – trilogu pomiędzy Parlamentem Europejskim, Komisją Europejską a Radą Unii Europejskiej.

Sięgnij do źródeł

Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence.

Akt w sprawie sztucznej inteligencji.

W tych regulacjach kluczowa jest możliwość oceny, czy dana treść jest opracowana przez maszynę, czy przez człowieka. Jak taki test mógłby wyglądać? Naukowcy nie mają uniwersalnego rozwiązania, ale rozważanych jest kilka kierunków ataku.

W przypadku modeli, które generują obrazy (jak np. MidJourney), skuteczną techniką może być dodawanie znaku wodnego, czyli wzorca niekoniecznie widocznego dla nieuzbrojonego oka, który trudno usunąć, a łatwo zweryfikować (gdy wiadomo, gdzie i jak patrzeć).

W przypadku dokumentów językowych znak wodny ukryć jest trudniej. Można go zaszyć w częstości występowania synonimów określonych słów, ale taki znacznik względnie prosto usuwa się, stosując narzędzia do parafrazowania tekstów. Twórca dokumentu może też podpisać dokument, używając cyfrowego klucza, dzięki czemu odbiorca może zweryfikować, czy autor jest tym, za kogo się podaje. Jeszcze innym rozwiązaniem, które ułatwiłoby określenie pochodzenia tekstu, jest baza danych gromadząca wszystkie treści wygenerowane kiedykolwiek w sposób automatyczny. Wystarczyłoby „tylko” ją przejrzeć, by stwierdzić, czy jakiś tekst został wygenerowany przez model językowy.

Żadne z tych rozwiązań nie działa w skali gwarantującej choćby 95 proc. skuteczności. A potrzebujemy takich detektorów, ponieważ masowe tworzenie treści niesie ze sobą jeszcze jedno, poważniejsze zagrożenie – umożliwia masowe tworzenie sztucznych tożsamości, które mogą być następnie używane w celach przestępczych, takich jak tworzenie fałszywych tożsamości do wyłudzania kredytów, naciągania finansowo osób starszych, manipulowania opinią publiczną np. przez tworzenie fałszywych recenzji, analiz lub rekomendacji.

Z uwagi na te zagrożenia, grupa ekspertów z Global Partnership on AI opracowała wytyczne, by każda organizacja udostępniająca modele językowe ujawniała też bezpłatnie narzędzie detekcji, wskazujące, czy określony tekst został wytworzony przez dany model. Odpowiedzialność za możliwość określenia autorstwa tekstu powinna być przeniesiona z użytkownika na firmy tworzące modele językowe i wprowadzające je na rynek.

Sięgnij do źródeł

The Problem With Counterfeit People

Generative AI models should include detection mechanisms as a condition for public release. Ethics and Information Technology

Język pełni wyjątkową funkcję w naszej kulturze. Tworzy, jak pisze Yuval Noah Harari, systemu operacyjnego naszej cywilizacji. System ten jest teraz wykorzystywany nie tylko przez ludzi, ale i modele AI. Czy uda nam się zbudować test wykrywający akty jego hakowania?

Przemysław Biecek

Inżynier oprogramowania, magister matematyki, doktor statystyki, a obecnie profesor Politechniki Warszawskiej i Uniwersytetu Warszawskiego w obszarze odpowiedzialnego uczenia maszynowego. Jego pasją są podróże w poszukiwaniu przygód – zarówno do innych krajów jak i w świat danych. W wolnym czasie opisuje te przygody pod przykrywką podręczników do analizy danych.

Łowcy Podrabianych Słów, czyli jak chronić kulturowe DNA przed niechcianym wpływem AI

Czy duże modele językowe myślą? Odpowiada David Chalmers

Czy modele językowe są świadome? Odpowiada David Chalmers

Sięgnij do źródeł

Sięgnij do źródeł

Sięgnij do źródeł

Przemysław Biecek

Stargate: tajemniczy projekt Microsoftu i OpenAI. Gigantyczna skala przedsięwzięcia

Nowinki techniczne

Nanocząstki złota po modyfikacji uczuliły test diagnostyczny