Ogłupianie na śniadanie. Przypadek ChatDżipiti.
‚‚ChatGPT czyni ludzi głupszymi” – donosiły polskie media. Teksty w prasie zagranicznej były utrzymane w jeszcze bardziej alarmistycznym tonie. Wynikało z nich, że korzystanie z pomocy sztucznej inteligencji nie tylko otumania, ale też prowadzi do „gnicia” mózgu. Te teksty były reakcją na publikację, która ukazała się w połowie czerwca na platformie arxiv.org. Z czego wynikają tak skrajne reakcje i czy są uzasadnione? Pora na mały fact-check.
Krok pierwszy – źródło
Najpierw trzeba ustalić, skąd pochodzą takie treści, kto je stworzył i w jakich okolicznościach. Już pobieżny przegląd wykazuje, że analiza „gnijącego” mózgu jest tak zwanym reprintem. Nie doczekała się jeszcze właściwej recenzji specjalistów z branży. Zamieszczanie analiz w bazach takich jak arxiv.org usprawnia obieg informacji naukowej i przyspiesza wiele procesów. Dane bywają jednak różnej jakości.
Kolejny krok to sprawdzenie, kto dokładnie popełnił omawianą pracę naukową. Media zazwyczaj nie bawiły się w niuanse i podawały, że dane pochodzą od „naukowców z MIT”. Rzeczywiście, większość autorów jest zatrudniona w Massachusetts Institute of Technology i pracuje w grupach roboczych podlegających tej uczelni – Media Lab i/lub Fluid Interfaces. Zespoły te nie zajmują się jednak wyłącznie działalnością naukową. Pracują m.in. nad komercjalizacją pomysłów technologicznych, medialnych, artystycznych, designerskich. Mają większą swobodę niż wielu typowych akademików – i od czasu do czasu realizują projekty, które spotykają się z krytyką mainstreamowych środowisk naukowych.
W 2015 r. badacze z MIT Media Lab zainicjowali projekt „rzeźbienia ewolucji” (sculpting evolution), w ramach którego chcą edytować genomy dzikich zwierząt, np. myszaków białostopych, podnoszące odporność na kleszcze. Pomysł jest realizowany bez konsultacji społecznych i ekologicznych, przez co spotyka się z krytyką przyrodników.
Prowokacyjny i „awanturniczy” styl prowadzenia projektów naukowych przekłada się też niekiedy na ogólny sposób zarządzania tym podmiotem. W 2019 r. „New York Times” ujawnił, że MIT Media Lab zabiegało o darowizny i przyjmowało je od takich osób, jak Jeffrey Epstein (nieżyjący już multimilioner skazany za przestępstwa seksualne).
Czytaj też (Polityka): Oto nowa klasa robotnicza: humanoidy. Zabiorą nam pracę? To już nie jest science fiction
Krok drugi – twórcy
Te „aferki” nie dyskredytują bynajmniej całej działalności naukowej i innowacyjnej MIT Media Lab. Pokazują jednak dodatkowy kontekst. Pamiętać też trzeba, że część badaczy z takich zespołów może również realizować projekty z innymi organizacjami. Pierwsza autorka omawianego preprintu, Nataliya Kosmyna, pracuje obecnie jako Visiting Faculty Researcher w Google. Jest nie tylko główną realizatorką analizy dotyczącej wpływu ChatGPT na mózg, ale i jej pomysłodawczynią, projektantką oraz nadrzędną wykonawczynią. To właśnie ona zgromadziła dużą część danych EEG uczestników, a także współtworzyła zarys maszynopisu.
Dlaczego te informacje są istotne? Ponieważ w preprincie, o którym mowa, nie napisano o ogólnym wpływie sztucznej inteligencji na mózg, lecz konkretnie o działaniu ChatGPT. Ten model językowy stworzony został przez OpenAI – najważniejszego konkurenta Google na rynku asystentów AI i rozwiązań opartych na tego typu oprogramowaniu.
W deklaracjach zamieszczonych przez autorów badań napisano wyraźnie, że Kosmyna pracowała dla Google w chwili publikacji omawianego artykułu, ale realizację projektu ukończyła, zanim została tam zatrudniona. Kiedy więc wymyśliła badania i je realizowała, oficjalnie nie pracowała jeszcze dla giganta technologicznego. Czy jednak już wtedy wiedziała, że podejmie z nim współpracę? I czy nie wpłynęło to na projekt, przebieg badań lub ich wyniki?
Krok trzeci – metodologia
Pora przyjrzeć się samym badaniom. Do projektu przystąpiły zaledwie 54 osoby, a ukończyło go jedynie 18. Wszyscy byli studentami. To bardzo mała i słabo zróżnicowana grupa, co nie prowadzi do rozstrzygających wniosków w odniesieniu do całych populacji. Przy tego typu zaawansowanych technologicznie analizach często jednak bada się małe liczebności, zwłaszcza w ramach wstępnych, pilotażowych projektów – takich jak ten.
Uczestników podzielono na trzy grupy. Wszyscy mieli napisać esej, ale część badanych miała korzystać wyłącznie z własnej głowy, część dostała do dyspozycji internetową wyszukiwarkę bez AI, a reszta mogła używać ChatGPT. W czasie 20-minutowych sesji pisania tekstów rejestrowano pracę mózgów. Robiono to za pomocą elektroencefalogramu, który następnie analizowano zgodnie z protokołem Dynamic Directed Transfer Function (dDTF). To metoda, która pozwala na wnioskowanie o kierunku i mocy przepływu informacji między poszczególnymi regionami mózgu. Służy do szacowania, a nie dostarczania bezpośrednich dowodów na działalność jakiegoś obszaru.
Czytaj też (Pulsar): Czy AI zastąpi ludzki umysł? Ray Kurzweil wieszczy rewolucję. I budzi ogromne wątpliwości
Krok czwarty – interpretacja
A zatem co wykazało EEG kilkunastu studentów piszących eseje? Że ich mózgi pracowały inaczej, gdy korzystali z różnych narzędzi. Osoby, które prosiły AI o wykonanie podzadań, cechowała słabsza łączność pomiędzy regionami mózgu. Po napisaniu pracy pisemnej były też z niej mniej zadowolone, słabiej pamiętały jej treść i w mniejszym stopniu czuły, że esej naprawdę „należy do nich”. Odwrotnie było w przypadku osób, które wywiązały się z postawionego zadania całkiem samodzielnie, bez pomocy wyszukiwarki i AI.
Badacze podsumowali, że ChatGPT doprowadza do „metapoznawczego lenistwa” (metacognitive laziness). I wtedy ruszyła medialna lawina. Wkrótce nagłówki stały się tak sensacyjne, że 20 czerwca Kosmyna wystąpiła w programie CNN International, w którym poprosiła, by w komunikatach dotyczących jej badań nie używać sformułowań „gnicie mózgu”, „ogłupianie” itp. Przedstawiła też swoją interpretację wyników: korzystanie z modelu językowego może prowadzić do „długu poznawczego”, czyli do zmniejszonego zaangażowania kognitywnego oraz „prawdopodobnie do spadku umiejętności uczenia się”. Ale czy jej projekt rzeczywiście badał, jak na mózg wpływa sam ChatGPT – czy raczej: jak działa na niego ściąganie? Przeklejanie partii tekstu bez wnikania w to, co się w nich znajduje, korzystanie z gotowych odpowiedzi, interpretacji, rozwiązań.
Jeszcze przed modelami AI wielu studentów korzystało z anglojęzycznej Wikipedii i kopiowało z niej przetłumaczone fragmenty tekstu nie tylko do pomniejszych prac, ale nawet do tych dyplomowych. A proceder ściągania z tego źródła całych list bibliograficznych i przypisów był/jest wśród żaków formą sportu narodowego. To przecież w odpowiedzi na te wyzwania wprowadzono do powszechnego użycia system antyplagiatowy, którym sprawdza się każdą pracę, zanim zostanie zaakceptowana przez promotora. Współczesne metody ściągania z użyciem AI są o niebo skuteczniejsze niż wcześniejsze, ale mechanizm rozleniwiania mózgu jest podobny.
Krok piąty – reakcje
Nic dziwnego, że wkrótce po tym, jak zespół Media Lab opublikował preprint, ukazały się jego krytyczne omówienia. „Nature” zwróciło uwagę na to, że EEG wykorzystane w analizie MIT daje bardzo mgliste wyobrażenie na temat zaangażowania poznawczego osoby badanej. Z pewnością też nie mierzy jej inteligencji ani tym bardziej stopnia degeneracji mózgu. Różnice w falach zanotowane u uczestników badania korzystających z AI mogą wynikać z mniejszego obciążenia roboczego podczas wykonywania zadania.
Podobnego efektu należałoby się spodziewać u osób wprawionych w pisaniu esejów – zwróciła uwagę redakcja „Science”. Niższa aktywność w EEG i spadek łączności pomiędzy niektórymi regionami mózgu nie muszą być miarą pogorszenia funkcji poznawczych. Mogą wynikać z efektu „praktyka czyni mistrza”, czyli ze zwiększenia wydajności i spadku zużycia „mocy poznawczej” – czytamy dalej w omówieniu. Taki właśnie efekt uchwycono w omawianym preprincie – uważają uczeni z Centre for Change and Complexity in Learning (C3L), podlegającego University of South Australia.
Badacze z C3L zwracają uwagę na to, że „dług poznawczy” uchwycony w badaniach MIT zanotowano tylko u sześciorga uczestników projektu, którzy najpierw pracowali z ChatGPT, a potem przerzucili się na samodzielną pracę. To mogło wynikać z tzw. efektu zaznajomienia, czyli z lepszego zapoznania się z zadaniem badawczym. Fakt, że pracując nad tym samym poleceniem kolejny raz, ma się obniżoną łączność w EEG, nie jest niczym niezwykłym.
Autorzy krytycznego komentarza uważają, że wpływ AI na zaangażowanie poznawcze uczniów i studentów można porównać do efektu, jaki kiedyś wywołały kalkulatory. Wykonywanie obliczeń bez ich użycia wiązało się ze znacznie większym zaangażowaniem poznawczym niż wystukanie równania na klawiszach. Dlatego edukacja powinna nadążać za nowymi narzędziami i oferować uczniom takie zadania, które będą dla nich stanowiły wyzwanie nawet wtedy, gdy korzystają oni z nowoczesnych technologii. Zwłaszcza że to przecież z nimi będą w przyszłości obcować w życiu zawodowym.
Czytaj też (Polityka): Nowy model AI diagnozuje choroby płuc trafniej niż lekarze
Krok szósty – komentarz
Do głosów naukowców warto dodać własny, subiektywny komentarz. Preprint i opisane w nim badania zasługują na rzetelną krytykę. Podobnie jak dyskurs medialny, którego poziom był żałosny. Samego problemu AI w edukacji nie należy jednak bagatelizować. Przeciwnie, modele językowe trzeba badać, oceniać, regulować.
Trafna jest analogia z kalkulatorem, który jest niegroźnym wsparciem, o ile uczeń nie zacznie go używać przed przyswojeniem tabliczki mnożenia. Podobnie jest z narzędziami wykorzystującymi AI. Praktyka pokazuje jednak, że obecny sposób używania modeli językowych to Dziki Zachód: dziennikarze proszą je, by wymyślały im chwytliwe teksty, naukowcy generują w modelach całe abstrakty swoich publikacji, uczniowie podpisują wypluwki chata jako własne prace. W tym chaotycznym układzie nie obejdzie się bez nowoczesnej formy systemu antyplagiatowego. Okiełznanie technologii na pewno nie będzie łatwe. Ale nie ma już od niej odwrotu.