Struktura

Czy duże modele językowe myślą? Odpowiada David Chalmers

Czy modele językowe są świadome? Odpowiada David Chalmers

Wielką katastrofą byłoby bezwiedne i bezmyślne spotkanie ze sztuczną inteligencją obdarzoną świadomością – mówi David Chalmers, filozof umysłu i języka, kognitywista, uczestnik największych debat o naturze świadomości.

Podkast

Podkast 74. Piotr Sankowski: Nie bójmy się AI, róbmy własną

Co się stało w świecie sztucznej inteligencji w ciągu ostatnich miesięcy? Co się dzieje teraz? Co wydarzy się wkrótce? Opowiada prof. Piotr Sankowski, fizyk i informatyk z Uniwersytetu Warszawskiego, prezes IDEAS NCBR.

Technologia

Łowcy Podrabianych Słów, czyli jak chronić kulturowe DNA przed niechcianym wpływem AI

Język pełni funkcję wyjątkową – to nasz „system operacyjny”. A teraz jest infekowany na niespotykaną skalę przez automatycznie generowane treści.

Moje analizy skłaniają do twierdzenia, że jeśli LLM-y będą mogły kiedykolwiek myśleć, to napotkają na pewne ograniczenia w tym, o czym będą w stanie myśleć – pisze David Chalmers, filozof umysłu i języka, kognitywista, uczestnik największych debat o naturze świadomości.

David Chalmers

11 maja 2024

Tekst pierwotnie ukazał się w „Proceedings and Addresses of the American Philosophical Association” pod tytułem „Does thought require sensory grounding? From pure thinkers to large language models”. Jest to zapis przemówienia Davida Chalmersa wygłoszonego dla American Philosophical Association.

Przekład: Piotr Rejnuś

Czy zdolność myślenia wymaga posiadania zmysłów? Przez całą historię filozofii debata na ten temat zawsze była gorąca, a dziś ponownie rozgrzewa spory wokół sztucznej inteligencji.

Pozytywnej odpowiedzi na to pytanie udzielał Arystoteles, twierdząc, że „dusza nie myśli nigdy bez wyobrażenia”. Akwinata potwierdza: „Nie ma niczego w intelekcie, czego nie byłoby wcześniej w zmysłach”. Hume również: „Wszystkie nasze idee, czyli słabsze percepcje, są kopiami impresji, czyli percepcji żywszych”. Przyjmując pewne minimalne założenia, wszystkie trzy wypowiedzi, sugerują, że bez zmysłów lub co najmniej zdolności do poznania zmysłowego na pewnym poziomie nie ma myślenia.

W przeciwieństwie do takich tez empirystów, filozofowie racjonalistyczni często zaprzeczają temu, że bez zmysłów nie ma myślenia. Platon utrzymywał, że możemy (nasze dusze) myśleć o formach przed posiadaniem ciała i zmysłów. Kartezjusz twierdził, że czysty intelekt myśli niezależnie od zmysłów. Kant chyba najbardziej obszernie rozważał to wszystko („Myśli bez treści naocznej są puste”) i krążył między racjonalizmem a empiryzmem, a jego końcowe wnioski – co jak na niego nie jest niczym zaskakującym – dają obraz wysoce pogmatwany.

W ostatnich dekadach spory filozoficzne stają się centralnym zagadnieniem w kwestiach sztucznej inteligencji i na polu kognitywistyki. Kognitywista, Steven Harnad (1990), ujął problem ugruntowania symboli następująco: Jak symbole systemów sztucznej inteligencji mogą znaczyć cokolwiek? Zarówno on, jak i wielu innych utrzymuje, że aby symbol coś oznaczał, musi on być przyczynowo ugruntowany w środowisku poprzez powiązania sensoryczne. Symbol „czerwone” może coś znaczyć, jeśli jest ugruntowany w widzeniu czerwieni. Symbol „woda” musi być ugruntowany w powiązaniu sensorycznym z wodą. Jeśli zakładamy, że myślenie i znaczenie idą w systemach AI w parze, to przedstawiamy tak naprawdę inną wersję tezy, że myślenie wymaga ugruntowania.

W ostatnich paru latach spory wokół ugruntowania symboli stały się powszechne, zwłaszcza w debatach dotyczących dużych modeli językowych (LLM-ów), takich jak ChatGPT. Czy duży model językowy myśli, odnosi się do czegoś, rozumie to, co piszę? Wielu badaczy twierdzi, że jest to niemożliwe, właśnie z powodu braku właściwego ugruntowania symboli.

Tak utrzymują lingwiści obliczeniowi, Emily Bender i Alexander Koller w swojej dobrze znanej krytyce (2020) zakładania istnienia znaczenia i rozumienia w modelach językowych. Twierdzą, że „system, który wyszkolono tylko formalnie (taki jak LLM), nie przejdzie odpowiednio wrażliwego testu [na inteligencję], ponieważ nie posiada zdolności powiązania swoich wypowiedzi z światem”. W podobnym tonie wypowiadają się psychologowie Brenden Lake i Gregory Murphy (2023) głoszący, że „znaczenie słów zarówno u ludzi, jak i u AI musi być ugruntowane w postrzeganiu i działaniu”. Filozof Jacob Browning i informatyk Yann LeCun twierdzą, że „LLM-y nie mają ani ciała, ani umiejscowienia w świecie, który mogłyby odczuwać, i z tego powodu, ich wiedza zaczyna się i kończy na słowach, a ich zdrowy rozsądek jest bardzo powierzchowny”.

Wszyscy ci badacze formułują wiele odmiennych twierdzeń, jednak wszystkie one wydają się dzielić wspólne spojrzenie na to, że modelom językowym brakuje ugruntowania w świecie, a ich zdolność myślenia (lub oznaczania i rozumienia) jest zaś głęboko ograniczona, jeśli nie w ogóle żadna. Możemy przedstawić tę argumentację następująco:

Modele językowe nie mają zdolności sensorycznych.
Myślenie wymaga zdolności sensorycznych.
Wniosek: Modele językowe nie myślą.

Kluczową przesłankę stanowi tutaj nasza początkowa hipoteza, że myślenie wymaga posiadania zmysłów. Zwolennicy odwrotnej tezy w stosunku do modeli językowych mogą odpowiedzieć na to w różny sposób. Mogą odrzucić przesłankę 1., argumentując, że LLM są zbudowane jako systemy implementujące dane tekstowe, co można uznać za rodzaj sensoryczności. Mogą również odrzuć przesłankę 2., przyjmując, że LLM-y nie potrzebują zmysłów, aby myśleć. Mogą też przyjąć wniosek, że „czyste” modele językowe nie myślą, ale już wielomodułowe modele językowe, przetwarzające obrazy i dane audio, a także sprawujące kontrolę nad ciałem, mają zdolności sensoryczne, a w związku z tym nie dotyczy ich wynik tego argumentu. Niemniej ciągle mamy tutaj wiele wartościowej krytyki ze strony przeciwników, która wymaga odpowiedniej analizy.

W dalszej części będę argumentował przeciwko hipotezie, że myślenie i rozumienie wymaga zmysłów. Posiłkując się historią filozofii, będę w zasadzie twierdził, że nie da się wykluczyć możliwości istnienia wysoce rozwiniętych myślicieli jednocześnie pozbawionych zdolności odczuwania zmysłowego. Powtórzmy: przy braku takiej zdolności do końca nie wiadomo, jaki rodzaj myślenia jest możliwy, ale na pewno napotyka on poważne ograniczenia. Nimi również się zajmę. Pokaże tutaj raczej szybki przegląd sytuacji, a nie ostateczny argument. Mimo to mam nadzieję, że przynajmniej postawię wyzwanie przed moim oponentami. Bliżej końca rozszerzę swoją analizę, przechodząc od myślenia do rozumienia i zajmę się konsekwencjami jakie mogą wyniknąć z ich pojawienia się w dużych modelach językowych czy innych systemach AI. Mój cel jest skromny: nie będę bezpośrednio twierdził, że duże modele językowe myślą lub rozumieją. Raczej będę chciał obalić jeden ważny kontrargument przeciwko tezie, że nie są stanie nic takiego robić.

Hipoteza zmysłowo-myślowa:

Myślenie wymaga(ło) wcześniejszego lub aktualnego posiadania zdolności do odczuwania zmysłów.

Możemy doprecyzować tę hipotezę, uściślając, że jeśli S ma myśl w czasie t, to warunkiem koniecznym tego jest fakt, że S był/jest zdolny odczuwać zmysłowo przed czasem t lub w trakcie czasu t. Reszta rozdziału rozjaśnia różne części tej tezy (jeśli was to nie interesuję, czujcie się upoważnieni do przeskoczenia dalej).

Biorąc pod uwagę zwroty „wymaga(ło)” i „wcześniejszego lub aktualnego” musimy zauważyć konkurencyjne tezy, mocniejsze od tej, gdzie twierdzi się, że myślenie wymaga jednoczesnego odczuwania lub co najmniej jednoczesnej zdolności do odczuwania zmysłowego. Jednak hipoteza zorientowana na przeszłość („wymaga(ło)”) jest bliższe uchwycenia tego, co mieli na myśli Akwinata i Hume, a co wydaje się zakładaniem, że myślenie ugruntowane jest w uprzednich odczuciach zmysłowych. Zatem, hipoteza zorientowana na przeszłość dozwala, żeby istota, która utraciła zdolności do odczuwania, mogła dalej myśleć myśli, które były ugruntowane w jej poprzednich odczuciach sensorycznych. Alternatywna hipoteza zorientowana na teraźniejszość (bez „ło”) jest bardziej w duchu Arystotelesa i zakłada, że każda myśl wymaga jednoczesnej zdolności lub quasi-zdolności do odczuwania (i prawdopodobnie też ugruntowania zmysłowego). Przez quasi-zdolności do odczuwania mam na myśli zdolności do specyfikacji modalnej takiej jak wyobrażeniowe widzenie, które zwykle pochodzi od zmysłu wzroku, ale może przetrwać jego utratę. Obie hipotezy (zorientowana na przyszłość i zorientowana na teraźniejszość) mogą rozchodzić się, zwłaszcza jeśli dotyczy to trudnych przypadków, a każda może być rozwijana przez różnych teoretyków ugruntowania zmysłowego. Dla moich celów te różnice nie będą głównym problemem i będę posiłkował się obiema hipotezami.

Peter Unger w artykule „On Experience and the Development of the Understanding” z 1966 r. zaproponował przeszłościowo zorientowaną hipotezę zmysłowo-myślową i postawił hipotetyczny przypadek istoty myślącej wewnętrznie jako istoty myślącej, która tak-jakby utraciła zdolności sensorycznego odczuwania i która zaistniała już taka. Niektórzy teoretycy ugruntowania zmysłowego (tacy jak silni eksternaliści) mogą zaprzeczać, że takie istoty mogą myśleć, ale inni mogliby taką możliwość dopuścić. Te ostatnie poglądy lepiej może oddać w duchu arystotelesowskiego sforumłowania hipotezy zmysłowo-myślowej zorientowanej na teraźniejszość, gdzie myślenie wymaga i częściowo osadzone jest w zdolnościach odczuwania zmysłowego lub quasi-zmysłowego (tj. wyobraźnia, reprezentacje obrazowe, reprezentacje modalne), które pochodzą z odczuć zmysłowych, ale nie są one obecne we wszystkich wypadkach (tak jak ma to miejsce w przykładzie Ungera).

Jaki jest zakres tej hipotezy? Ludzka hipoteza zmysłowo-myślowa ma zastosowanie jedynie do ludzi. Uniwersalna hipoteza stosuje się do wszystkich możliwych myślicieli. Ludzka odmiana hipotezy była dotychczas przedmiotem większości debat, zarówno w filozofii, jak i w psychologii poznawczej. Będę chciał odejść od tej tradycji, skupiając się głównie na hipotezie uniwersalnej, z tego powodu, że dotyczy ona również systemów AI, a teza pierwsza nie. Znamienne, że Arystoteles i Akiwinata akceptowali hipotezę zmysłowo-myślową w odniesieniu do ludzi, jednocześnie odrzucając jej wersję uniwersalną, przy tym jednak twierdząc, że aniołowie (żeby nie wspomnieć Boga) mogą myśleć, choć nie mają zdolności odczuwania zmysłowego. Fakt, że tak samo empiryści, jak i racjonaliści odrzucali tezę uniwersalną, podnosi rangę tego odrzucenia poprzez argument z historii.

Przedstawiam hipotezę zmysłowo-myślową w kategoriach możliwości i konieczności: czy jest możliwym myśleć bez zdolności odczuwania zmysłowego? Prawdopodobnie bardziej fundamentalne pytanie dotyczy ugruntowania: czy myślenie zawsze opiera się na zdolności do odczuwania? W dzisiejszych czasach dla filozofów istotne jest zazwyczaj ugruntowanie konstytutywne (choć historyczne cytaty z Akiwinaty i Hume'a nie są całkowicie jasne w kwestii ugruntowania przyczynowego w porównaniu do ugruntowania konstytutywnego). Dla kognitywistów istotne jest czasami ugruntowanie konstytutywne, a czasami przyczynowe. Dla obecnych celów bardziej zrozumiałe i mniej techniczne jest przedstawienie sprawy w kategoriach możliwości niż ugruntowania. Jeśli nawet myślenie jest możliwe bez posiadania zdolności do odczuwania (lub bez posiadania zdolności quasi-zmysłowych), jak będę twierdzić, to wynika to w prosty sposób z faktu, że myślenie nie musi być ugruntowane w zdolnościach sensorycznych (lub quasi-zmysłowych). Niemniej, rozważania na temat ugruntowania nie zejdą całkowicie ze sceny w tych rozważaniach.

Pozostaje nam teraz wyjaśnić, co rozumiem przez odczuwanie zmysłowego i myślenie. Za myślenie biorę działania mentalne takie jak sądzenie i przypuszczanie, jak i dyspozycjonalne stany mentalne takie jak przekonania czy pragnienia. Uznaję, że myślenie opiera się na pojęciach, przynajmniej w przypadkach, które są dla mnie istotne, i w związku z tym mogę powiedzieć, że myślenie to nastawienie sądzeniowe: zawiera w sobie nastawienie (takie jak sądzenie) i sąd (np. niebo jest niebieskie). Sądzenie będzie naszym paradygmatycznym przykładem myślenia.

Z odczuwaniem sprawa jest bardziej skomplikowana. Co właściwie uważamy za zmysły? Pojęcie to ma różne warstwy. W jednej z nich wiąże się zmysły z pojęciem danych wejściowych (input): zmysły dostarczają danych wejściowych ze świata zewnętrznego. Inna warstwa powiązana jest z pojęciem doświadczenia: zmysły dostarczą nam pewien rodzaj bogatych doznań (doświadczeń) sensorycznych. Jeszcze inna wiąże pojęcie z reprezentacjami [dawniej zwanymi przedstawieniami – przyp. tłum.]: zmysły dostarczą ikonicznych lub analogowych reprezentacji mentalnych (umysłowych). Z drugiej strony, mamy sytuacje, w których każda tych warstw nie występuję. Wyobraźnia nie potrzebuje danych wejściowych. Postrzeganie nieświadome nie zawiera doznań sensorycznych. Wirtualne systemy sensoryczne nie potrzebują reprezentacji analogowych czy ikonicznych.

Jakiego rodzaju odczuwania zmysłowego wymagamy, w zakresie tezy zmysłowo-myślowej? Wymaganie wszystkich trzech czynników (danych wejściowych, doznań sensorycznych, reprezentacji analogowych) wydaje się zbytnio obciążające. Zwolennicy różnych wersji hipotezy podkreślają różne znaczenie innych czynników. Zwolennicy eksternalizmu w odniesieniu do ugruntowania zmysłowego wymagają w szczególności danych wejściowych z otoczenia (środowiska). Teoretycy skupieni na obrazowaniu podkreślają rolę reprezentacji analogowych. Fenomenaliści bardziej skupiają się na jakościowych doznaniach sensualnych. Dla wypracowania definicji roboczej uznamy, że do odczuwania zmysłowego wystarczy spełnienie jednego z tych trzech czynników. Taka inkluzyjna definicja daje nam słabą wersję tezy zmysłowo-myślowej, co wydaje się najbardziej uczciwe dla celów argumentowania przeciwko tej tezie. W poszczególnych etapach argumentacji będę uszczegóławiał, o który czynnik chodzi.

Możemy dalej pytać o to, co bierzemy za odczuwanie zmysłowe dla celów ocenienia wartości tezy zmysłowo-myślowej. Czy introspekcja jest rodzajem zmysłu? Na początku zakładam, że nie jest, ale zwrócę uwagę, co wynika z założenia, że jest. Czy zmysły ciała takie jak propriocepcja, czy interocepcja brać za zmysły? Oczywiście, że tak. Uznanie za zmysły tych odczuć pozwala zwolennikom hipotezy zmysłowo-myślowej dokooptować do swoich wielu teoretyków ugruntowania cielesnego (zwolenników ugruntowania myślenia w ciele), jak i wielu teoretyków ugruntowania działaniowego (zwolennicy ugruntowania myśli w działaniach ruchowych). Dołączenie tych ostatnich pozwala nam przedstawić hipotezę zmysłowo-myślową w kategoriach ruchowo-sensorycznych w odróżnieniu od zdolności czysto zmysłowych. Moja argumentacja dotyczy ich wszystkich.

„Czyste myśli”

Czy „czyści myśliciele” („czyste myśli”, „czysty rozum”) są możliwi? Takie pytanie wyziera z naszej hipotezy. Będę utrzymywał, że „czyści myśliciele” to istoty umiejące myśleć, jednak nigdy nie posiadły zdolności odczuwania zmysłowego, i brakuje im nawet zdolności quasi-zmysłowych jak wyobraźnia. Nazwa jest reminiscencją kartezjańskich „czystych intelektów” do sprawdzenia w medytacjach. Obie etykiety – zdaje się – mogą wskazywać te same jestestwa, jednak nie chciałbym tutaj pozostawić racjonalistycznych konotacji. Równie dobrze możemy „czystych myślicieli” nazwać „samomyślicielami”. Tak czy siak, mam na myśli istoty mogące myśleć, ale bez zdolności do odczuwania zmysłowego.

Klasycznym przykładem z historii filozofii czegoś takiego jak „czysty myśliciel” jest człowiek unoszący się w próżni opisany przez Awicennę (Ibn Sina) w jego XI-wiecznej pracy „Kitab al-Nafs” („O duszy”).

„Wyobraźmy sobie człowieka, który w jednej chwili został stworzony w całości. Wszystko, co go otacza, jest ukryte przed jego wzrokiem. Został stworzony, unosząc się lub wisząc w próżni i nie odczuwa powietrza, w którym się unosi. Jego kończyny są od siebie oddzielone, tak że się nie stykają. Zastanówmy się teraz, czy ten człowiek byłby świadomy własnego istnienia. Z całą pewnością byłby go świadom – nawet jeśli nie wiedziałby o istnieniu swoich kończyn czy organów wewnętrznych, takich jak serce i mózg, ani nie byłby świadom czegokolwiek, co się znajduje poza nim”.

Awicenna opisują unoszącego się człowieka jako byt świadomy siebie (swojej duszy), ale nieświadomy swojego ciała. Zgodnie z standardową interpretacją stworzył on ten eksperyment myślowy przede wszystkim, aby pokazać, że dusza jest czymś oddzielnym od ciała. Zgodnie z takim odczytaniem, jego rozumowanie nie jest podobne do tego, które przedstawił Kartezjusz sześć wieków później. Inni jednak, podążając tropem Awicenny, używali przykładu unoszącego się w próżni człowieka na polu epistemologii i psychologii. Przykładowo, Matteo d’Acquasparta (jak to przedstawił Juhana Tuivanen w pracy „The Fate of the Flying Man”) używał tego eksperymentu myślowego w celu udowodnienia, że samoświadomość nie wymaga zdolności do odczuwania zmysłowego.

Tego przykładu można używać również w psychologii, aby podeprzeć twierdzenie, że myślenie nie wymaga zmysłów. Tak opisany unoszący się człowiek myśli (o sobie), jednak dzięki drobiazgowej manipulacji nie ma żadnych odczuć zmysłowych. Jako taki, unoszący się człowiek jest czymś w rodzaju „czystego myśliciela”. Nie jest to jednak przypadek wzorcowy. Jego postrzeganie jest jedynie zakryte, więc nadal ma zdolność do widzenia, chociaż unosząc się, jej nie wykorzystuje. Podobnie, jego kończyny łatwo mogą odczuwać siebie nawzajem, więc wciąż ma zdolność dotyku. Argumentować można również, że, jak to opisano, może doświadczać propriocepcji, interocepcji, a być może także wyobraźni. Jednak eksperyment myślowy Avicenny stanowi nadal klasyczny przypadek myślenia bez odczuwania, sugerujący bardziej ograniczone wnioski, że myślenie nie zależy od korzystania ze zdolności sensorycznych. Można również próbować wzmocnić ten wniosek, być może twierdząc, że myślenie nie może zależeć od nieużywanych zdolności, co prowadziłoby do wniosku, że myślenie nie musi zależeć od zdolności sensorycznych w ogóle.

Czy „czyści myśliciele” są możliwi?

Czy „czysty myśliciel” całkowicie pozbawiony zdolności do odczuwania zmysłowego jest w ogóle możliwy? Możemy zacząć od rozważenia, czy istnieją takie rzeczywiste przypadki u ludzi. W tym kontekście czasem przywoływane są przypadki osób głuchych i niewidomych, takie jak Helen Keller, ale Keller miała wiele zdolności sensorycznych (dotyk, węch, smak, zmysły ciała), a nawet jej głuchota i ślepota nie były wrodzone. Nie znam przypadków ludzi bez żadnych działających zmysłów (w tym zmysłów ciała) od urodzenia, ale wydaje się bardzo prawdopodobne, że taki człowiek nigdy nie rozwinąłby zdolności do myślenia, przynajmniej przy standardowej biologii i dzisiejszej technologii medycznej. Jeśli tak, to nie było rzeczywistych przypadków ludzi, którzy byliby „czystymi myślicielami”.

Co z przyszłymi ludzkimi „czystymi myślicielami” lub „potencjalnymi ludzkimi czystymi myślicielami”? Być może nowe technologie mogą uczynić możliwym rozwinięcie pewnych ludzkich zdolności poznawczych bez rozwinięcia zdolności sensorycznych, choć z dużą dozą pewności mogłoby się to okazać czymś okrutnym. Jeśli jest to nawet możliwe, to ludzka teza zmysłowo-myślowa jest fałszywa, chociaż jej wersja ograniczona do rzeczywistych ludzi mogłaby być prawdziwa.

Co, jeśli poszerzymy zakres hipotezy i odniesiemy ją do nie-ludzi? Pod tym kątem, istotnymi przypadkami z historii filozofii są bogowie i aniołowie, a najważniejszym przykładem dla nas będą systemy AI. Nie będę dowodził, że duże modele językowe są „czystymi myślicielami”. Zacznijmy od tego, że modele językowe działają na zasadzie danych wejściowych i danych wyjściowych, podczas gdy „czyści myśliciele” nie są zdefiniowani w ten sposób. Jednak dla celu oceny hipotezy zmysłowo-myślowej przydatnym może się okazać, do jakiego stopnia system pozbawiony takiej budowy (input-output) może się okazać „czystym myślicielem”. Później, wrócę do tego w odniesieniu do modeli językowych.

Wydaje się, że idea „czystego myśliciela” jest, co najmniej, prima facie, pojmowalna. W różnych powieściach sci-fi możemy czasami spotkać się z systemami AI przypominającym „czystych myślicieli”. Przykładowo, w powieści Roberta Sawyera „Wake” [polskie tłumaczenie „www.wzrok – przyp. tłum.] opisane są systemy AI, w których stopniowo budzi się świadomość („wake up”) i zaczynają myśleć, a jednocześnie nie posiadają żadnych zmysłów. Tak opisany system Sawyera miałby pewnie coś w rodzaju wyobrażeń dźwiękowych w swojej „głowie”, ale możemy wyobrazić sobie sytuacje, w której pozbawimy go całkowicie zdolności sensorycznych (włącznie z wyobraźnią). Taki system ciągle jest dla nas pojmowalny, przynajmniej na pierwszy rzut oka.

Żeby już od początku nie utrudniać, wyobraźmy sobie system myślący tylko o arytmetyce, sądzący, że jeden plus jeden równa się dwa, i starający się udowodnić, że liczba liczb pierwszych jest nieskończona. Jeśli tylko to jest możliwe to teza zmysłowo-myślowa staje się fałszywa, przynajmniej w odniesieniu do myślenia arytmetycznego. Samo w sobie nie może to prowadzić do jakiegoś kategorycznego wniosku. Pociągającym byłoby uogólnić, że dotyczy to całego myślenia matematycznego, ale już geometria stawia przed nami trudne wyzwania pod kątem myślenia przestrzennego. Tak czy inaczej, rozszerzę swoją argumentację o inne rodzaje myślenia w następnej części.

Przyjmując, że „czyści myśliciele” są, prima facie, pojmowalni, możemy twierdzić, że są oni możliwi na podstawie argumentu z bezpośredniej pojmowalności. Możemy przyjąć za wiarygodną zasadę, że jeśli p jest prima facie pojmowalne, to p jest możliwe wtedy i tylko wtedy, gdy nie istnieje argument obalający (defeater) pojmowalność p lub wnioskowanie prowadzące od pojmowalności do możliwości. Dlatego teraz potrzebujemy zastanowić się nad istnieniem takich argumentów obalających.

Najważniejszy ich rodzaj zawiera się w ukrytej istocie myślenia. Być może odkryjemy empirycznie (lub przez rozbudowane rozumowania a priori), że wszystkie rzeczywiste przypadki myślenia zawierają kluczowy, ukryty stan T, do którego zaistnienia warunkiem koniecznym jest zdolność do odczuwania zmysłowego. Lub przynajmniej odkryjemy, że wszystkie paradygmatyczne przypadki myślenia u ludzi zawierają T. Mogłoby to nas skłonić do identyfikowania myślenia z T, i wniosku, że myślenie zatem wymaga odczuwania. Hipoteza, że każde myślenie zawiera T, byłaby zatem argumentem obalającym twierdzenie, że myślenie bez odczuwania jest możliwe.

Zgodnie z tym poglądem, można powiedzieć, że pozorne przypadki możliwego myślenia bez odczuwania, na przykład u Marsjanina czy w systemie sztucznej inteligencji, nie są przykładami realnego myślenia. Takie przypadki mogą spełniać a priori koncepcyjne wymogi dotyczące myślenia, ale brakuje im ukrytej istoty T, więc w ogóle nie są myśleniem. Są to różnego rodzaju zjawiska, ale powierzchniowo podobne, które możemy nazwać „z-myśleniem”.

Moim zdaniem pojęcia mentalne, takie jak myślenie, nie powinny być tak antropocentryczne. Marsjanie mogą myśleć, nawet jeśli dzieje się to w inny sposób niż w myśleniu ludzi. Z mojego punkcie widzenia, jeśli jakaś istota „z-myśla się” (w przybliżeniu, jeśli spełnia wszystkie a priori wymogi dotyczące myślenia), to myśli. Nawet jeśli nie, „z-myślanie” w wielu aspektach będzie równoznaczne z myśleniem: systemy sztucznej inteligencji, które „z-myślają”, będą na równi z ludźmi, którzy myślą. Co równie ważne, uważam, że w świetle współczesnej kognitywistyki i filozofii nie ma przekonujących kandydatów na argument obalający, który obejmowałby ukrytą istotę myślenia związaną z odczuwaniem.

Innym, potencjalnym argumentem obalającym może być silny empiryzm pojęciowy: pogląd, że wszystkie pojęcia (a w związku z tym wszystkie myśli) są częściowo konstytuowane przez doznania sensoryczne i reprezentacje zmysłowe. Odróżnia się go od słabego empiryzmu pojęciowego, podtrzymującego, że niektóre tylko pojęcia są konstytuowane przez doznania i reprezentacje zmysłowe. Powszechnie akceptuje się, że pojęcie „czerwień” jest (lub co najmniej może być) częściowo ukonstytuowane w reprezentacji zmysłowej. (Będę tutaj szedł za tradycją psychologiczną utożsamiającą pojęcia z reprezentacjami mentalnymi). Już mniej wiarygodnym wydaje się, że pojęcie dwójki tak samo się konstytuuje. Silni empiryści pojęciowi tacy jak Lawrence Barsalou (1999) and Jesse Prinz (2004) twierdzą, że przynajmniej w stosunku do ludzi, pojęcia matematyczne i inne abstrakty mają źródło empiryczne, ale taki pogląd nie jest szeroko akceptowany (jego krytykę zob. Machery, „Concept Empiricism”).

W ostatnich latach, spory teoretyczne i praktyczne kręcą się wokół pytania, czy reprezentację są modalne, czy amodalne, co zależy w dużej mierze od tego, czy pojęcia są ugruntowane w modalnie określonych reprezentacjach zmysłowych (niedawny przegląd stanowisk zob. Kaup i in., „Modal and Amodal Cognition”). Obecny konsensus wydaje się przyjmować, że zarówno modalne, jak i amodalne reprezentacje odgrywają kluczową rolę w poznaniu, a w odniesieniu do dyscyplin abstrakcyjnych takich jak matematyka, dowody silnie wspierają pogląd o amodalności poznania. To oznacza, że dowody wspierają słaby, a nie silny empiryzm pojęciowy u ludzi.

Co jeszcze ważniejsze dla naszych celów, nawet jeśli przyjąć, że dowód z ludzi nie stanowi argumentu wspierającego na rzecz silnego empiryzmu pojęciowego, nie wyklucza on możliwości, że systemy nieludzkie mogą mieć pojęcia bez ugruntowania zmysłowego. (Nawet Barsalou dopuszcza, że systemy AI mogą mieć pojęcia amodalne). Dlatego też nauka o pojęciach nie dostarcza argumentu obalającego twierdzenie o możliwości istnienia „czystych myślicieli”.

Drugi potencjalnym kandydatem na argument obalający naszą tezę jest silny eksternalizm: stanowisko twierdzące, że wszystkie myśli częściowo konstytuują się w relacji ze środowiskiem. Odróżnić go musimy od słabego eksternalizmu, gdzie twierdzi się, że tylko niektóre z myśli są częściowo konstytuowane w relacjach ze środowiskiem. Słaby eksternalizm jest stanowiskiem bardzo wiarygodnym, silna wersja jest zdecydowanie mniej wiarygodna. Przykładowo, eksternalistyczny argument Hilarego Putnama uczynił wielce zrozumiałym, że posiadanie pewnych określonych pojęć takich jak pojęcie wody zawsze wymaga określonych relacji ze środowiskiem. Tak samo eksternalistyczne argumenty Tylera Burge’a pokazały, że nawet dla pojęcia dwójki, aby mówić, że posiadamy takie pojęcie, musi być ono w jakiś sposób ugruntowane w relacjach ze środowiskiem, a co najmniej w relacjach ze wspólnotą językową. Jednak zgodnie z tymi poglądami, nie możemy sądzić, że myślenie o 2 lub o plusie musi być ugruntowane w każdym przypadku w jakiejś relacji ze środowiskiem. Intuicyjny sąd, że nieosadzony we wspólnocie i pozbawiony zmysłów myśliciel może myśleć, że dwa dodać dwa da cztery pozostaje nienaruszony w kontekście eksternalistycznej argumentacji Burge’a i Putnama.

Trzeci argument obalający wyrasta na gruncie silnej hipotezy umysłu rozszerzonego, na podstawie której twierdzi się, że każde myślenie częściowo konstytuuje się poprzez aktywne powiązania ze środowiskiem, zapośredniczone przez percepcję i działanie. Ponownie, różnicą między silną a słabą wersją opiera się na tym, że ta druga utrzymuje, że dotyczy to tylko niektórych, a nie wszystkich sposobów konstytuowania myślenia. Klasyczne argumenty na rzecz hipotezy rozszerzonego umysłu (zaproponowane m.in. przeze mnie i Andy’ego Clarka) przemawiają za słabą wersją, jednak nie pozwalają na uznanie silnej. Wręcz przeciwnie, argument Chalmersa i Clarka na rzecz tezy o rozszerzonym umyśle (postulując równą istotność dla poznania procesów wewnętrznych i zewnętrznych) zakłada, że pewne przypadki myślenia bez rozszerzenia są możliwe. I tutaj zatem nie znajdziemy argumentu obalającego.

Czwarty i piąty argument obalający wyrasta z poglądu, który można nazwać silną hipotezą o umyśle ucieleśnionym. Na jej gruncie twierdzi się, że całe myślenie konstytuuje się częściowo poprzez procesy cielesne, a z kolei silna teza umysłu enaktywnego opiera się na poglądzie, że każde myślenie jest wynikiem działania ruchowego. Znowu, silnym wersjom tych stanowisk można przeciwstawić słabsze (gdzie tylko niektóre akty myślenia wymagają ucieleśnienia lub działania), i ponownie, ostatnie analizy sugerują, że słabsze wersje są dużo bardziej wiarygodne. Możliwe, że myślenie arytmetyczne musi zawierać działania mentalne, ale dużo mniej wiarygodne jest, że wymaga ono do tego zdolności do działań ucieleśnionych i ruchowych.

Moglibyśmy tutaj rozważyć różne inne argumenty obalające, ale na razie wystarczy. Mam podejrzenie, że wzorzec tutaj zastosowany będzie miał bardziej ogólne zastosowanie. Szybki przegląd argumentów, który przedstawiłem tutaj, pokazuje, że jesteśmy daleko od wyciągnięcia ostatecznych wniosków, i nie wynika z tego wykluczenie możliwości odkrycia głębokiej, nowej ukrytej istoty myślenia, która łączyłaby przynajmniej ludzkie myślenie z odczuwaniem. Na razie jednak powiedziałbym, że zarówno na pierwszy rzut oka, jak i na drugi, „czyści myśliciele” są możliwi.

Co może myśleć „czysty myśliciel”?

Jak to byłoby być „czystym myślicielem”? Myśląc o nich, mam na myśli istoty świadome i z doznaniami niesensorycznymi takimi jak myślenie i wnioskowania (co najmniej). Biorąc pod uwagę brak doznań zmysłowych, życie wewnętrzne takiej istoty będzie pozbawione wielu elementów życia wewnętrznego zwykłych ludzi.

W książce „Varieties of Consciousness (2015), Uriah Kriegel postuluje Zoe, istotę bez doznań sensorycznych (jak i bez doznań przyjemności/bólu i doznań emocjonalnych), która pomimo tego jest matematycznym geniuszem. Zoe można nazwać „nieomal czystym myślicielem”, ale nie do końca, ponieważ – jak postuluje Kriegel – ma ona zdolności do przetwarzania informacji sensorycznych, a przez to musiała mieć w przeszłości jakieś doznania sensoryczne. Sympatyzuję z argumentacją Kriegel i wnioskami z niej wynikającymi, jednak możliwość zaistnienia „czystych myślicieli” jest także spójna z nieistnieniem fenomenologii poznawczej. Jest także spójna z tezą głoszącą, że wszystkie świadome doznania są doznaniami sensorycznymi tak długo, jak przyjmujemy, że istoty bez świadomych doznań mogą być w stanie myśleć.

Catherine Wilson w „What Is the Importance of Descartes’ Meditation Six?” maluje ponurą wizję życia wewnętrznego „czystych myślicieli”, sugerując, że Kartezjusz powinien był opisać nieśmiertelne dusze bardziej szczerze, w następujący sposób:

„Nieśmiertelność nie jest logicznie niemożliwa, ale też nie będzie taką, jaką prawdopodobnie sobie wyobrażasz. Percepcja, podobnie jak wrażenia i emocje, to rejestrowanie przez nasz umysł zdarzeń zachodzących w naszych nerwach i mózgu. Jeśli więc nasze umysły przetrwają po śmierci, jak daleko może dostrzec filozof, nie będą odczuwać ani bólu, ani przyjemności, ponieważ nie będą już tworzyły kompozytu z naszymi ciałami. Nie będziemy już widzieć kolorów, dotykać przedmiotów ani słyszeć dźwięków. Nie będziemy pamiętać wydarzeń z naszego przeszłego życia. Będziemy odrętwiali i bezwładni. Zwierzęta będą, jak sądzili zarówno Arystoteles, jak i Lukrecjusz, po śmierci niczym, a my, ludzie, będziemy prawie niczym – co najwyżej zdolni do myślenia bez obrazów i intelektualnej pamięci”.

Wilson ma pewnie rację, że bycie „czystym myślicielem” nie sprawia za dużo radości. Jednak przynajmniej w odniesieniu do myślenia, nie sądzę, że bycie „czystym myślicielem” prawie nic nie oznacza. Do tej pory widzieliśmy, że „czysty myśliciel” może przedsiębrać myślenie arytmetyczne. Również inne formy myślenia będą dla niego równie dostępne.

Aby przeanalizować powyższe, musimy zmierzyć się z następującym łamańcem językowym: Jakiego rodzaju rzeczy mógłby myśleć „czysty myśliciel”, gdyby „czysty myśliciel” mógł myśleć rzeczy?

Na początku zaznaczę, że nie ma jakiejś wyraźnej przeszkody uniemożliwiającej takiej istocie bycie zdolną do cogito-podobnych myśli, takich jak „myślę, więc jestem”. Prima facie, pojęcie samoodnoszącego się „ja” zdaje się do pomyślenia dla „czystego myśliciela”, tak samo, jak pojęcia umysłowe takie jak myślenie, czy sądzenie oraz pojęcia logiczne takie jak istnienie, czy wynikanie. Secundo facie, te rozważane powyższej rodzaje argumentów obalających wydają się nie zaprzeczać takim uroszczeniom. Przykładowo, standardowo argumenty eksternalistyczne nie nakazują, aby pojęcie siebie, pojęcia mentalne czy logiczne miały relacje ze środowiskiem, a akurat twierdzenie, że te czynności wymagają ugruntowania zmysłowego, wydaje się słabo uzasadnione.

Oczywiście, uzasadnienie przyjęcia przesłanki Cogito- ja myślę, zależy mocno od introspekcji. Jednak nie chodzi tutaj o uzasadnienie, a o samą możliwość pomyślenia. Możemy się spierać czy zdolności introspekcyjne są warunkiem koniecznym do posiadania takich pojęć jak „ja” czy „myślę”, a w związku z tym, czy bez nich da się pomyśleć myśl „ja myślę”. Tak czy inaczej, nie będziemy na razie brali introspekcji jako rodzaju zmysłu, i przyjmiemy, że uzasadnienie introspekcyjne jest dostępne dla „czystych myślicieli”.

Podobnie, równie wiarygodnym jest twierdzić, że „czysty myśliciel” może myśleć myśli zawierające pojęcia metafizyczne takie jak obiekt, własność, część czy własności fundamentalne. To samo dotyczy pojęć kauzalnych i nomologicznych takich jak przyczyna, prawo i szansa, a także pojęć semantycznych jak prawda i odniesienie przedmiotowe. Dla wszystkich tych przypadków trudno byłoby sformułować rozsądnie putnamowski argument z Ziemi Bliźniaczej albo znaleźć rolę dla zmysłów w uchwytywaniu tych pojęć.

Takie źródła pozwoliłyby „czystemu myślicielowi” na myślenie myśli wszelkiego rodzaju o świecie zewnętrznym, a nie tylko o sobie samym. Przykładowo, mógłby pomyśleć coś w stylu „istnieje myśliciel różny ode mnie” albo „istnieje coś powodującego moje myśli”. Mógłby też rozwijać szczegółowo hipotezy naukowe o świecie takie jak „istnieją własności q, r, s, które mają się do siebie tak a tak zgodnie z odpowiednimi prawami”.

Jeśli dopuścimy możliwość istnienia „czystych myślicieli” ze zdolnościami introspekcyjnymi, to mogłyby one pomyśleć, że ich istnienie może być uzasadnialne w jednej z takich hipotez. Introspekcja pozwalałaby im wiedzieć, o czym myślą, a abdukcja pozwalałby im formułować i oceniać hipotezy dotyczące przyczyn ich myśli. „Czyści myśliciele” mogliby nawet rozwinąć „małą” naukę empiryczną, aby wyjaśnić prawa ich myślenia. Jeśli uznamy, że introspekcja nie jest możliwa, to pozostają im tylko wnioskowania a priori, a uzyskanie wsparcia dla przygodnych hipotez empirycznych o świecie będzie trudniejsze. Niemniej taka istota będzie ciągle mogła spekulować o naturze swojego świata.

Po rozważeniu powyższego przyznajemy, że istnieją poważne ograniczenia w zakresie tego, co „czysty myśliciel” może sobie pomyśleć. Całkiem rozsądnym jest twierdzić, że bez zmysłów nie da się w pełni posiąść pojęć zmysłowych takich jak „czerwony”, „bolący” czy „głośny”. „Czysty myśliciel” mógłby posiadać te pojęcia co najwyżej w taki sposób, w jaki Mary w swoim czarno-białym pokoju posiada pojęcie „czerwone”: czyli z niepełnym zrozumieniem, które opiera się na zapośredniczonych językowo odniesieniach lub być może na strukturze matematycznej.

Podobnie, można argumentować, że w braku percepcji ciała i działań cielesnych, „czysty myśliciel” nie mógłby w pełni posiadać pewnych praktycznych pojęć związanych z działaniem ciała, takich jak pojęcia chodzenia, tańczenia czy śpiewania. W podobny sposób „czysty myśliciel” nie mógłby w pełni pojąć pewnych rodzajów praktycznego rozumienia, takiego jak wiedza lub zrozumienie jak jeździć na rowerze. To powiedziawszy, „czysty myśliciel” mógłby przynajmniej pojąć różne pojęcia związane z działaniem umysłowym (takie jak osądzanie czy decydowanie) i mógłby przynajmniej mieć strukturalne lub teoretyczne zrozumienie niektórych aspektów działania cielesnego.

Równie dobrze można by argumentować, że z brak doświadczenia cielesnego i działań poprzez ciało, „czysty myśliciel” nie miałby pełnego dostępu do niektórych praktycznych pojęć związanych z aktywnością cielesną, takich jak chodzenie, taniec czy śpiew. Podobnie, „czysty myśliciel” mógłby nie mieć pełnego zrozumienia pewnych rodzajów praktycznej wiedzy, na przykład jak jeździć na rowerze. Mimo to, taki myśliciel mógłby przynajmniej rozumieć różne koncepcje związane z działaniem umysłu (jak osądzanie czy podejmowanie decyzji) i mógłby mieć przynajmniej teoretyczne lub strukturalne pojmowanie niektórych aspektów działania ciała.

Jeszcze trudniej odpowiedzieć na pytanie czy „czysty myśliciel” może mieć pojęcia czasu i przestrzeni? Skłaniam się do tego, aby sądzić, że pewna część naszego ujęcia przestrzeni- gdzie indziej nazwałem ją przestrzenią edeńską- jest zakorzeniona w naszym doświadczeniu percepcyjnym przestrzeni. Tak jak pojęcie „czerwień” (rozumiane jako czerwień edeńska) jest trudno uchwytne dla „czystego myśliciela”, tak samo wątpliwe jest, że byłby on w stanie uchwycić w pełni przestrzeń edeńską. Ale mogliby oni mieć pojęcie przestrzeni matematycznej lub strukturalnej, ściśle powiązane z tym, które mamy w zmatematyzowanej nauce współczesnej. Podobnie ma się sprawa z czasem, z wyjątkiem tego, że bardzo wątpliwe jest, że „czysty myśliciel” introspekcyjnie mógłby załapać pojęcie czasu-nawet czasu edeńskiego? – poprzez doznanie przepływu myśli.

Bez zdolności percepcyjnych, „czysty myśliciel” nie byłby w stanie używać zaimków wskazujących (ang. demonstratives) takich jak to lub tamto, mających zastosowanie do obiektów, które są doświadczane percepcyjnie. Introspekcyjny „czysty myśliciel” mógłby przypuszczalnie stosować introspektywne zaimki wskazujące wybierające jakieś własne myśli lub stany mentalne, a nie-introspektywny myśliciel nie mógłby używać ich w ogóle w odniesieniu do świata (może z wyjątkiem zaimków wskazujących liczby?). „Czyści myśliciele” mogliby tworzyć opisowe pojęcie bytów ze świata zewnętrznego (np. bytu powodującego tę myśli), ale brak konkretnej myśli wskazującej na jakiś postrzegany obiekt byłby z oczywistych powodów mankamentem.

Można twierdzić, że „czystym myślicielom” będzie brakować ogólnie zdolności chwytania konkretnych pojęć indywiduów w świecie zewnętrznym. Czy „czysty myśliciel” byłby w stanie stworzyć pojęcie Baracka Obamy? Posiadanie takiego pojęcia wymaga zapewne związku kauzalnego i kognitywnego z samym Obamą, którego oczywiście nie może on mieć. Podobne problemy pojawią się w odniesieniu do takiego rodzaju pojęć jak woda, której pojmowanie wymaga posiadanie właściwego powiązania z wodą. Oczywiście, „czysty myśliciel” może mieć pojęcie opisowe Obamy jako osoby z takimi-a-takimi cechami (cechy muszą być uchwytne dla „czystego myśliciela”) i pojęcie wody jako rzeczy z takimi-a-takimi cechami-w-tym-miejscu. Takie pojęcia opisowe mogą spełniać pewną funkcję, tak samo jak konkretne pojęcia indywiduów, ale nie mogłyby pełnić wszystkich funkcji tych ostatnich.

W mojej opinii „czyści myśliciele” byliby w większości myślicielami-strukturalistami, przynajmniej w odniesieniu do rzeczywistości niementalnej. Pojęcia strukturalne obejmują pojęcia logiczne i matematyczne, jak i metafizyczne, kauzalne czy semantyczne. „Czyści myśliciele” mogliby stawiać strukturalne hipotezy w odniesieniu do świata zewnętrznego, tak jak robi to nauka w ujęciu realizmu strukturalnego. Jak widzieliśmy, będą mogli rozważać hipotezy strukturalne na temat kolorów, takich jak czerwień. Nie będą jednak mogli posiadać pojęć niestrukturalnych, takich jak pełne pojęcie „czerwień”, które Mary osiągnęła dopiero po opuszczeniu swojego pokoju.

Piantadosi i Hill w „Meaning without Reference in Large Language Models” przedstawiają alternatywne pojęciowo-funkcjonalne/ inferencjalistyczne podejście do znaczenia w modelach językowych. Piantadosi oraz Hill proponują, aby treść była oparta na jej funkcji pojęciowej jako alternatywę dla treści referencyjnych lub warunków prawdziwości. W przeciwieństwie do tego treść inferencyjnie uzasadniona, którą przypisuję „czystym myślicielom”, jest w pełni warunkowa prawdziwościowo.

Nie przedstawiam tutaj pełnej, pozytywnej teorii myśli i treści myśli. Jednak ich ogólny obraz jest zbieżny z dwupoziomowym obrazem inferencjalizmu rozwiniętym przeze mnie w artykule „Inferentialism, Australian-style”. Zgodnie z tym obrazem, u zwykłych ludzi mamy pierwszy poziom związany głównie z treściami doświadczeniowymi (takimi jak kolory, przestrzeń, świadomość itd.) pochodzącymi w większości z zaznajomienia się z doświadczeniem, i drugi poziom związany z bardziej abstrakcyjnymi treściami strukturalnymi (związanymi z logiką, matematyką, metafizyką, przyczynowością itd.), wywodzącymi się z wewnątrz-psychologicznej roli jaką pełnią te pojęcia. U „czystych myślicieli” poziom pierwszy, związany z wiedzą przez zaznajomienie, praktycznie nie występuje (może z wyjątkiem świadomości i związanych z nią stanów mentalnych), ale poziom drugi jest już obecny. Taki schemat czyni naturalnym oczekiwanie, że „czyści myśliciele” byliby myślicielami-strukturalistami.

„Czyści myśliciele”/rozmówcy i duże modele językowe

Jak nasze rozważania mają się do systemów AI? To, że system AI nie ma zdolności sensorycznych, nie powinno nas skłaniać do twierdzenia, że system ten nie jest w stanie myśleć, czy rozumieć. Brak zdolności sensorycznych może ograniczać myślenie, ale nie może całkowicie go wykluczyć. Jeśli skonstruujemy „czysty” system AI bez kontaktów ze światem na zasadzie input-output, to samo to nie uczyni go niezdolnym do myślenia i rozumienia wielu rzeczy, od matematyki przez filozofię po spekulatywne hipotezy dotyczące rzeczywistości. Co oczywiste, różne czynniki mogą wykluczyć zaistnienie myślenia, czy rozumienia w systemach AI, ale ugruntowanie zmysłowe nie jest jednym z nich.

Duże modele językowe są przypadkiem trudnym. Jak już zauważyliśmy, ich zdolności przewyższają zdolności „czystych myślicieli” co najmniej pod jednym ważnym kątem. LLM mają rozbudowane systemy „input-output”, otrzymujące tekstowe dane wejściowe i produkujące dane wyjściowe.

Czy tekstowe dane wyjściowe w LLM mogą być uznane za rodzaj zmysłu? To zależy od tego, jak zdefiniujemy zmysły. Jeśli uznać, że zmysły to po prostu systemy zbudowane na zasadzie „wejścia-wyjścia” to LLM-y mają zmysły i nie są „czystymi rozumami”. Jeśli zaś przyjąć, że zmysły wymagają bogatego doświadczania zmysłowego, lub być może specjalnego rodzaju reprezentowania analogowego, lub ikonicznego, to wątpliwym staje się uznanie, że LLM-y mają zmysły. Otwartą kwestią pozostaje to ich status „czystych myślicieli”, chociaż ich niezmysłowe zdolności wejściowe czynią ich zdecydowanie mało prawdopodobnymi paradygmatycznymi „czystymi myślicielami” rozważanymi w poprzedniej części artykułu. W końcu nasza definicja robocza stanowi, że zdolności sensoryczne da się stwierdzić za pomocą jednego z trzech czynników (budowa wejście-wyjście, doświadczenie sensoryczne, reprezentacja analogowa/ikoniczna), zatem wejście tekstowe będzie brane za zmysł, a modele językowe nie będą w związku z tym uznawane za „czystych myślicieli”.

W świetle tych ujęć zmysłów, duże modele językowe nie są całkowicie porównywalne do paradygmatycznych „czystych myślicieli” opisanych w poprzedniej części tego artykułu. Prawdopodobnie najlepszym porównaniem dla LLM-ów nie są „czyści myśliciele”, a raczej „czyści myśliciele”/rozmówcy/rozumiejący (lub, w skrócie, „czyści myśliciele”/rozmówcy), a więc „czyści myśliciele” z rozszerzeniem o zdolność rozumienia danych wejściowych z języka naturalnego i wytwarzania wypowiedzi językowych jako danych wyjściowych. Ich językowe dane wejściowe nie są zebrane z doświadczenia przez widzenie, słyszenie, czy dotyk, ale poprzez pewien mechanizm wprowadzenia danych dyskretnych lub cyfrowych (tak jak w LLM-ach) lub poprzez swego rodzaju formę telepatii językowej. Tak jak to było w przypadku LLM-ów, „czyści myśliciele”/rozmówcy mogą nie mieć zmysłów (lub je posiadać) w zależności od tego, co rozumiemy przez „zmysły”, ale tak czy siak, brakuje im zdolności sensorycznych z wyjątkiem tych językowych.

Nie zakładam, że modele językowe są w rzeczywistości „czystymi myślicielami”/rozmówcami. To zależałoby od rozwiązania wielu trudnych kwestii dotyczących tego, czy modele językowe mogą myśleć, mówić i rozumieć. Zamiast tego, podobnie jak w przypadku „czystych myślicieli”, badam „czystych myślicieli”/rozmówców (którymi nie muszą być modele językowe), aby zobaczyć, jakie ograniczenia może narzucić brak zdolności sensorycznych poza językiem na zdolność do myślenia i rozumienia. Jeśli „czyści myśliciele”/rozmówcy są możliwi, wtedy brak zdolności sensorycznych poza językiem nie oznacza, że taki system nie może myśleć lub rozumieć.

Podobnie jak w przypadku „czystych myślicieli”, „czyści myśliciele”/rozmówcy wydają się prima facie wyobrażalni i nie ma wyraźnego argumentu przeciwko możliwości ich zaistnienia. „Czyści myśliciele”/rozmówcy będą mieli przynajmniej te zdolności, które przypisaliśmy „czystym myślicielom”, wraz z wieloma zdolnościami, których „czystym myślicielom” brakuje. Na początek mają zdolność tworzenia i rozumienia wyrażeń językowych (języka). Będą również posiadać wiele zdolności społecznych, poznawczych i epistemicznych, których brakuje „czystym myślicielom”, ale które ułatwia używanie języka.

„Czyści myśliciele”/rozmówcy mogą w sposób wiarygodny pozyskiwać językowe dane wejściowe, aby dowiedzieć się wielu rzeczy o świecie. Jeśli ktoś im powie „jestem świadoma” „czysty myśliciel”/rozmówca może użyć tego jako świadectwa na rzecz tego, że otrzymał komunikat wejściowy „jestem świadoma”. Uzyskując odpowiednią ilość reguł, mogą zebrać odpowiednią wiedzę o regułach ich danych wejściowych i używając wnioskowań abdukcyjnych, sformułować teorię o świecie, który wytwarza takie dane wyjściowe. W zależności od tego, jak działa taka epistemologia świadectw, będą mogli na tej podstawie także dowiedzieć się, że ktoś inny jest świadomy. Mogliby uzyskać w podobny sposób wiedzę o wynikach matematycznych czy prawach nauki. To samo tyczy się twierdzeń społeczno-historycznych o świecie, przynajmniej na wysoce strukturalnym poziomie.

„Czyści myśliciele”/rozmówcy mogą także używać wyrażeń językowych, aby posiąść dużo większy zbiór pojęć, niż są w stanie przyjąć „czyści myśliciele”. Przykładowo, uzyskując daną wejściową „Obama był prezydentem USA od stycznia 2009 do 2017 r.”, „Obama pochodzi z Hawajów” itp., może taki „czysty myśliciel”/rozmówca używać terminu „Obama” i myśleć faktycznie o tym Obamie. Przypomina to sposób, w jaki nabywamy wiedzę o konkretnych pojęciach, zwykle właśnie podczas jakieś rozmowy lub czytając artykuł w gazecie. Mogłoby to doprowadzić do tego, że „czysty myśliciel”/rozmówca posiadałby wiele konkretnych pojęć takich jak Obama, czy pojęć rodzajowych takich jak woda i tak dalej.

Jednak ten sposób napotka też na pewne ograniczenia. Przy brakuje zdolności sensorycznych, „czysty myśliciel”/rozmówca ciągle nie będzie w stanie w pełni uchwycić takich pojęć zmysłowych jak czerwoność. Tak jak Mary w jej biało-czarnym pokoju, będzie on dobierał i używa prawidłowo słowo „czerwony” w rozmowach, jednak będzie to okupione swego rodzaju częściowym rozumieniem, możliwym jedynie dzięki podziałom na użycie języka i uznaniowość językową. „Czysty myśliciel” nie mógłby uznać coś za czerwone z tak pełnym zrozumieniem tego pojęcia, jakie miałby użytkownik języka, który widzi kolory. Podobnie byłoby w przypadku innych pojęć odnoszących się do zmysłów, dla pojęć odnoszących się do działania cielesnego, czy dla pojęć przestrzennych.

Kiedy bierzemy pod uwagę zaimki wskazujące („to”), „czystemu myślicielowi”/rozmówcy brakowałoby tradycyjnych zaimków wskazujących związanych z percepcją, ale mógłby przynajmniej używać zaimków wskazujących dla językowych danych wejściowych. Być może mogliby oni również nabyć anaforyczne pojęcia zaimków wskazujących, które byłyby pasożytnicze wobec percepcyjnego zaimka wskazującego innego mówcy. (Mówca 1: „Ta [percepcyjnie] osoba jest głodna”; „czysty myśliciel”/rozmówca: „OK, ta [anaforycznie] osoba jest głodna).

To, co w takim przypadkach się dzieje, ma miejsce w samym języku i jest swego rodzaju ugruntowaniem przyczynowym w środowisku. W tym wypadku wspólnota językowa dostarcza związku przyczynowego między myśleniem a środowiskiem, które jest wystarczające, aby nie utracić odniesienia przedmiotowego. Może to się okazać prawdziwe również w stosunku do modeli językowych.

Możemy przeprowadzić również eksperyment myślowy z Ziemiami Bliźniaczymi, gdzie dwóch fizycznie identycznych „czystych myślicieli”/rozmówców z Ziemi i Ziemi Bliźniaczej, przetwarza i tworzy termin „wody” i myślą korespondujące ze sobą myśli. „Czysty myśliciel”/rozmówca na Ziemi będzie odnosił się do H₂O, a „czysty myśliciel”/rozmówca na Ziemi Bliźniaczej będzie odnosił się do XYZ. Co do zasady i jeśli modele językowe w ogóle się do czegoś odnoszą, nie ma jakiegoś wyraźnego powodu, dlaczego ich odnośniki (ang. referentials) nie mogłyby zależeć od środowiska w podobny sposób.

Wszystko to prowadzi do wniosku, że użycie języka w czystych myślicielach-rozmówcach pozwala im pojąć wiele rzeczy, których sami „czyści myśliciele” nie są w stanie przyjąć, i myśleć oraz rozumieć wiele rzeczy, których nie ci ostatni nie są w stanie ani myśleć, ani zrozumieć. „Czyści myśliciele”/rozmówcy ciągle pozostają, na pewnym poziomie, myślicielami-strukturalistami, prawdopodobnie nierozumiejącymi pochodzących z doświadczenia pojęć zmysłowych takich jak czerwoność. Jednak mogą wiedzieć o świecie masę rzeczy i są w stanie myśleć i odnosić się do rzeczy bezpośrednio.

Czy duże modele językowe myślą?

Jak to wszystko się ma do dużych modeli językowych? Nie twierdzę wprost, że duże modele językowe mogą myśleć lub rozumieć. Przeciwko zdolności myślenia i rozumienia w układach AI wytaczano masę argumentów, od argumentów gödlowskich po argumenty ścisłego osadzenia myślenia w biologii, o których tutaj tylko zahaczyłem. Może też spotkać argumenty stricte przeciwko myśleniu i rozumieniu w LLM-ach, zaczynająco od argumentów z braku świadomości w LLM-ach, przez brak intencji komunikacyjnej po argumenty twierdzące, że LLM-y to „stochastyczne papugi”. Wszystkie te argumenty wymagają oddzielnych rozważań.

Niemniej, obaliłem jeden z nich tj. argument z ugruntowania zmysłowego. Twierdziłem, że brak zdolności sensorycznych (niejęzykowych) w dużych modelach językowych sam w sobie nie stanowi przeszkody w uznaniu, że LLM-y myślą i rozumieją. Jeśli mam rację, standardowy argument z ugruntowania przeciwko temu, że LLM-y myślą i rozumieją z początku tego artykułu, upada. Jego pierwsza przesłanka (LLM-om brakuje zdolności sensorycznych) może być fałszywy, przy najmniej, jeśli uznamy, że przetwarzanie danych językowych w LLM-ach jest zdolnością sensoryczną. Druga przesłanka (samo myślenie wymaga zdolności sensorycznych) jest w sposób bardziej oczywisty fałszywa: nasze badania „czystych myślicieli” pokazały, że samo myślenie nie wymaga zdolności sensorycznych.

Co więcej, nasze rozważania wokół „czystych myślicieli”/rozmówców pokazały nam także, że samo rozumienie również nie wymaga zdolności sensorycznych poza przetwarzaniem wejściowych danych językowych. W wyniku tego argument z ugruntowania przestał być przekonującym powodem odrzucenia możliwości myślenia i rozumienia w LLM-ach. Podobnie, zauważyliśmy, że „czyści myśliciele”/rozmówcy mogą myśleć i odnosić się bezpośrednio do obiektów zewnętrznych. Dzięki temu wiemy, że argument z ugruntowania nie jest dobrym powodem odrzucenia możliwości myślenia i rozumienia w LLM-ach w odniesieniu do świata zewnętrznego i odnoszenia się do ulokowanych w nim obiektów.

Moje analizy skłaniają do twierdzenia, że jeśli LLM-y będą mogły kiedykolwiek myśleć, to napotkają na pewne ograniczenia w tym, o czym będą w stanie myśleć. Zauważyliśmy, że przy braku zdolności sensorycznych, zarówno „czyści myśliciele”, jak i „czyści myśliciele”/rozmówcy nie są w stanie w pełni uzyskać zdolności sensorycznych, niemniej mogą przyjąć niektóre pojęcia zmysłowe poprzez wymianę językową i dzięki użyciu pojęć strukturalnych. Jeśli tak będzie w istocie, to LLM-y mogą jednocześnie myśleć i nie mieć zdolności sensorycznych. Zdaje się, że upiekliśmy dwie pieczenie na jednym ogniu.

Oczywiście, zdaje się możliwym rozszerzenie umiejętności LLM-ów o zdolności quasi-sensoryczne. Wielomodułowe LLM-przetwarzają już dane audio i obrazy, które grają role wizualnych i dźwiękowych danych wejściowych. Czy takie umiejętności można zaliczyć do zmysłów? Jak zwykle, to zależy jaką własność uznamy za definiującą dla zmysłów. Dane wejściowe pochodzące ze środowiska zewnętrznego? Pliki wizualne i obrazy oczywiście zawierają coś takiego, chociaż nie zmienia to zbyt wiele, gdyż czyste LLM już teraz przetwarzają takie dane wejściowe. Reprezentacje analogowe? W klasycznej formie dane obrazowe są reprezentacjami cyfrowymi. Doznania zmysłowe? Odpowiedź na to jest daleka od oczywistości i kieruje nas w stronę pytania, czy LLM-y są w ogóle świadome. Jeśli jednak LLM-y wielomodułowe miałyby zdolność odczuwania doznań zmysłowych, a czyste LLM-y takich zdolności byłby pozbawione, to te pierwsze mogłyby w pełni chwytać pojęcia zmysłowe (takie jak „czerwoność”), a które nie pozwalają tego robić czystym LLM-om.

Czy zmysły wzmacniają myślenie?

Nawet jeśli warunkiem koniecznym myślenia nie jest posiadanie jakiejś formy zmysłowości czy zmysły wzmacniają (ang. boost) myślenie? Przecież, zdolności sensoryczne podkręcają (ang. enhance) zdolności kognitywne (poznawcze), w takim znaczeniu, że poprawiają wydajność rozwiązywania zadań poznawczych, nawet jeśli te zadania nie są istotnie powiązane z dziedziną zmysłów. U ludzi, odpowiedź wydaje się brzmieć: tak. Użycie wizualnego obrazowania poprawia czasami wydajność rozwiązywania zadań matematycznych, a pamięć obrazowa może z pewnością zwiększyć wydajność rozwiązywania zadań pamięciowych.

Co w przypadku modeli językowych? Czy dodanie zdolności wielomodułowych wzmocni wydajność rozwiązywania zadań tekstowych opartych całkowicie na użyciu języka? Można by oczekiwać, że odpowiedź brzmi tak, już choćby dlatego, że obrazy mogą przekazać znacznie więcej informacji niż tekst („Jeden obraz wart jest tysiąca słów”). Jednak w praktyce wzrost wydajności wydaje się zaskakująco mały. Na przykład, GPT-4 występuje w wersji czysto tekstowej i wielomodułowej, a obie wersje były testowane na różnych standaryzowanych testach, takich jak egzaminy prawnicze itp. Ich wydajność była zazwyczaj porównywalna lub bardzo podobna. Czasami wersja wielomodułowa była na prowadzeniu, ale nieznacznie. Małe przewagi modeli wielomodułowych można wyjaśnić tym, że przez obrazy szkoleniowe dostarczano istotnych informacji, które nie były obecne w odpowiednim tekście szkoleniowym.

Rosnąca liczba dowodów empirycznych sugeruje również, że modele językowe radzą sobie dobrze nawet w zadaniach związanych z dziedzinami sensorycznymi i że ich działanie jest dość podobne do modeli wielomodułowych. Na przykład, językoznawczyni obliczeniowa Ellie Pavlick i współpracownicy przeprowadzili badania wskazujące, że gdy model językowy jest trenowany na tekście dotyczącym kolorów lub kierunków przestrzennych, nabywa reprezentację przestrzeni dla kolorów lub kierunków przestrzennych, która jest niemal izomorficzna do reprezentacji nabytej przez model wielomodułowy. Gdy przestrzenie są niemal izomorficzne, możemy oczekiwać, że wydajność również będzie podobna.

Zwróćmy w tym miejscu uwagę na interesujący związek między dobrze znaną, z ducha heideggerowska, krytyką AI przeprowadzoną przez Huberta Dreyfusa (1972) i krytyką feministyczną AI sformułowaną przez Alison Adam (1995). Obie krytyki skupiają się na istotności ucieleśnionej wiedzy-jak (ang. Know-how) oraz jej braku w pozbawionych formy cielesnej układach AI. Mając na myśli duże modele językowe, widzimy, że czyste duże modele językowe są pozbawione ucieleśnionego know-how, natomiast wielomodułowe modele mogą kontrolować ciała, dzięki czemu prawdopodobnie mogłyby mieć jakąś formę ucieleśnionej wiedzy-jak. Jednocześnie, niedawne prace empiryczne sugerują, że zaskakująco łatwo jest dostosować reprezentacje czystych modeli językowych (LLM) – poprzez krótkie szkolenie – do wykorzystania w działaniu ucieleśnionym w modelu wielomodułowym. Tak jak znaleźliśmy przestrzenie niemal izomorficzne dla kolorów w czystych LLM i wielomodułowych LLM, tak samo znajdujemy przestrzenie niemal izomorficzne dla działań.

Morał płynie z tego taki, że nawet jeśli czyste LLM-y, w najlepszym wypadku, mogą mieć rodzaj wiedzy-że i nie mieć wiedzy-jak, niemniej przepaść między ich wiedzą-że a wiedzą-jak modeli wielomodułowych nie jest tak ogromna. Jedno z wyjaśnień wskazuje na to, że rozbudowane szkolenia tekstowe czystych LLM-ów dają im większość z tego, co uznajemy za heideggerowski „horyzont” („tło”), będący warunkiem koniecznym zaistnienia ucieleśnionego działania opartego na wiedzy-jak. Wszystko to skłania do stwierdzenia, że przynajmniej w układach opartych na uczeniu głębokim wiedza-że i wiedza-jak są ze sobą ściśle powiązane.

Wróćmy do pytania, czy modele wielomodułowe mogą zwiększyć wydajność w rozwiązywaniu zadań tekstowych. Co, jeśli zapewnimy, że takie same informacje są dostarczane zarówno czystym modelom językowym, jak i modelom wielomodułowym, na przykład przez przekształcenie wszystkich danych obrazowych modelu wielomodułowego na formę tekstową i dostarczenie ich do czystego modelu językowego? Na podstawie rozważań a priori, spodziewalibyśmy się, że oba modele będą działać podobnie, przynajmniej jeśli są wystarczająco potężne i mają podobną architekturę oraz rozmiar. Przekształcanie informacji z obrazu na tekst będzie niemal trywialne dla potężnego modelu językowego, więc różnica między formatami nie powinna wpływać znacząco na wydajność.

Patrząc pod takim kątem na modele językowe, można stwierdzić, że zmysłowość nie wzmacnia myślenia: przetwarzanie wielomodułowe nie powinno wzmacniać wydajności w rozwiązywaniu zadań tekstowych w odpowiednio silnych modelach, gdzie informacje szkoleniowe są stałe. Oczywiście, utrzymanie informacji na stałym poziomie oznacza, że czyste modele językowe są szkolone na poszerzonych tekstach o procesach sensorycznych. Jest to więc pośredni rodzaj ugruntowania sensorycznego i nadal odgrywa rolę w tych układach, ale taki rodzaj ugruntowania może być obecny nawet w czystym modelu językowym. Co więcej, jeśli dodalibyśmy takim czystym modelom językowym możliwość otrzymywania i wydawania sensorycznych danych wejściowych, umożliwiłoby to im uzyskiwanie doznań zmysłowych i pełnię pojęć zmysłowych (oczywiście, jeśli takie modele mogą mieć w ogóle doznania lub pojęcie o czymkolwiek), ale takie wzmocnienia nie musiałyby wzmacniać z konieczności wydajności w odpowiadaniu na pytania tekstowe i w innych zadaniach kognitywnych.

Przypadek Marii w czarno-białym pokoju (która to miała pełną i obiektywną wiedzę o świecie fizycznym, ale nie rozpoznawała czerwieni) pokazuje nam pewną analogię. W środku pokoju wyidealizowana wersja Marii może korzystać ze swojej pełnej wiedzy o świecie fizycznym, aby odpowiadać na wiele pytań związanych z kolorem czerwonym, choć taka wersja nie ma żadnych doznań czerwieni. Jednak opuszczenie pokoju przyniesie jej nowe doznania i nowe pojęcia. Czy dzięki temu będzie w stanie wykorzystać to, aby odpowiadać na pytanie, na które wcześniej nie znajdywała odpowiedzi? Jeśli Maria nie jest doskonałą wersją człowieka, to może teraz wykorzystać swoje nowe doznania, aby odpowiedzieć na pytania tyczące się kolorów, które wcześniej były dla niej zbyt trudne. Jednak, jeśli Maria jest idealną istotą rozumującą (ang. Reasoner), nie do końca jest jasne czy dzięki nowym doznaniom lub pojęciom będzie w stanie odpowiedzieć na jakieś nowe pytania, na które to nie byłaby już wcześniej zdolna do odpowiedzi, będąc w swoim pokoju i ze swoją wiedzą. W najlepszym przypadku, jej nowe zdolności pozwoliłby po prostu szybciej znajdować odpowiedź na te pytania. Tak jak w przypadku modeli językowych, jej nowe doznania i pojęcia nie muszą z konieczności wzmacniać jej zdolności kognitywnych.

Wyzwanie pozostaje istniejące napięcia między podobieństwami w sposobie przetwarzania danych przez czyste LLM-y i wielomodułowe LLM-y, a także ze względu na różnice sensoryczne między nimi. Zarówno czyste, jak i wielomodułowe modele językowe przetwarzają dane wejściowe, które są ciągami bitów, i tworzą z nich wyniki w podobnej formie. Choć źródła tych danych różnią się między sobą (teksty, obrazy), sposób ich przetwarzania przez modele może być bardzo podobny. Dostrzegliśmy już, że dane wizualne mogą być w teorii zamienione na format tekstowy i wprowadzone do czystego modelu językowego, który potrafi przetwarzać oba typy informacji z podobną efektywnością.

Z drugiej strony, na pierwszy rzut oka wydaje się, że między czystymi modelami językowymi
a modelami wielomodułowymi istnieją wyraźne różnice sensoryczne. Jeżeli założymy, że te modele mogą ostatecznie posiadać swoiste reprezentacje, przeżywać doznania i formować pojęcia, to wydaje się naturalnym, że modele wielomodułowe mogą mieć dostęp do reprezentacji zmysłowych, pojęć sensorycznych, a być może nawet doświadczać wrażeń zmysłowych, co jest przecież poza zasięgiem czystych modeli językowych. Jak więc pogodzić te różnice z podobieństwami w przetwarzaniu? Dlaczego tak pozornie prosta różnica, jaką jest przetwarzanie pliku z obrazem w porównaniu do przetwarzania tekstu opisującego obraz, miałaby skutkować różnicą w reprezentacjach, doznaniach i pojęciach?

Przetwarzanie obrazów i języka u ludzi to dwie odrębne historie, więc nie dziwi fakt, że takie czy inne dane wejściowe są związane z innymi formami reprezentacji, doznań, czy pojęć na wyjściu. Z drugiej strony, w LLM-ach przetwarzanie takich czy innych danych wyjściowych odbywa się w ten sam sposób, co w rezultacie powoduje, że zagadka staje się coraz bardziej paląca.

Można ją rozwiązać co najmniej na trzy sposoby.

Ani wielomodułowe LLM-y, ani czyste LLM-y nie są w stanie mieć reprezentacji sensorycznych, doznań zmysłowych, ani takiego rodzaju pojęć.
Czyste LLM-y (takie jak modele wielomodułowe) mogą być w stanie mieć reprezentacje sensoryczne, doznania zmysłowe i takie pojęcia, o ile przetworzą odpowiednie obrazy na tekst.
Wielomodułowe LLM-y mają reprezentację sensoryczną, doznania zmysłowe i takie pojęcia, natomiast czyste LLM-y nie; a to dlatego, że różnice między nimi wynikają z różnych funkcji, jakie w nich pełnią teksty i obrazy.

Pozostawię tę zagadkę tutaj bez ostatecznego rozwiązania. Skłaniam się coraz mocniej ku drugiej opcji. Czyste LLM-y są w stanie przetwarzać tekstowe wersje obrazów w takim sposób, że można to uznać za rodzaj zmysłu. Taka zdolność jest bardzo bliska zdolności do przetwarzania obrazowego, czy umiejętności rozumowania, i ciężko ją zaklasyfikować jedynie jako zdolność językową, sensoryczną, czy też kognitywną. Być może nie powinno być dla nas zaskoczeniem, że duże modele językowe zaczynają nam zacierać granicę między zmysłami, myśleniem i rozumieniem.

Dziękuję publiczności na konferencji APA w Montrealu, a także na Uniwersytecie Quebecu w Montrealu i na NYU. Za komentarze podziękowania dla Nathana Bice'a, Neda Blocka, Jake'a Browninga, Camerona Bucknera, Susan Carey, Stevana Harnada, Anandi Hattiangadi, Martina Lina, Tala Linzena, Matta Mandelkerna, Matthiasa Michela, Adama Pautza, Pära Sundströma i Shauny Winram. Za pomoc w historii podziękowania dla Petera Adamsona, Maxa Cappuccio, Victora Castona, Becko Copenhavera, Christiana Coseru, Keoty Fields, Dona Garretta, Sophie Grace, Stevena Horsta, Anne Jacobson, Anji Jauernig, Chada Kidda, Jonathana Kramnicka, Jamesa Kreinesa, Béatrice Longuenesse, Jake'a McNulty, Stephena Menna, Jessiki Moss, Elliota Paula, Lewisa Powella, Naomi Scheman, Tobiasa Schlichta, Erica Schliessera, Lisy Shapiro, Karstena Struhla, Christiny Van Dyke i Charlesa Wolfe'a.

Słowniczek

„Czyste myśli” – pojęcie filozoficzne odnoszące się do myślenia, które odbywa się bez bezpośredniego zaangażowania doświadczenia zmysłowego, oparte wyłącznie na rozumowaniu lub wewnętrznej manipulacji pojęciami.

„Czyści myśliciele” – hipotetyczne istoty lub systemy, które są zdolne do myślenia bez jakichkolwiek zmysłowych doświadczeń; myślące byty, które nie posiadają żadnych sensorycznych zdolności

Czyste modele językowe – teoretyczne modele AI, które przetwarzają informacje wyłącznie na poziomie językowym, bez integracji danych sensorycznych czy multimodalnych.

„Czyści myśliciele”/rozmówcy – rozszerzenie pojęcia „czystych myślicieli”, które obejmuje zdolność do przetwarzania i generowania języka naturalnego, posiadających ograniczone lub brak zdolności sensorycznych poza językiem

Duże modele językowe (LLM) – systemy AI oparte na uczeniu maszynowym, które przetwarzają i generują język naturalny, symulując ludzkie zdolności językowe na podstawie ogromnych zbiorów danych tekstowych.

Empiryzm pojęciowy – pogląd, że wszystkie pojęcia (a w związku z tym wszystkie myśli) są częściowo konstytuowane przez doznania sensoryczne i reprezentacje zmysłowe.

Hipoteza umysłu rozszerzonego – myślenie konstytuuje się poprzez aktywne powiązania ze środowiskiem, zapośredniczone przez percepcję i działanie

Hipoteza umysłu ucieleśnionego/enaktywnego – myślenie konstytuuje się częściowo poprzez procesy cielesne, a z kolei silna teza umysłu enaktywnego opiera się na poglądzie, że każde myślenie jest wynikiem działania ruchowego

Inferencjalizm – podejście w filozofii języka i umysłu, które uznaje, że znaczenie wyrażeń językowych jest określane przez ich rolę we wnioskowaniu, a nie przez odniesienie do rzeczywistości zewnętrznej.

Myślenie – działania mentalne takie jak sądzenie i przypuszczanie, jak i dyspozycjonalne stany mentalne takie jak przekonania czy pragnienia. Chalmers uznaje, że myślenie opiera się na pojęciach. Myślenie to nastawienie sądzeniowe: zawiera w sobie nastawienie (ja sądzę, że…) i sąd (np. niebo jest niebieskie). Sądzenie jest paradygmatycznym przykładem myślenia.

Silny eksternalizm – stanowisko twierdzące, że wszystkie myśli częściowo konstytuują się w relacji ze środowiskiem.

Ugruntowanie zmysłowe – teoria, według której myślenie lub rozumienie pojęć wymaga bezpośrednich zmysłowych doświadczeń, lub zdolności do odbioru sensorycznego, które łączą umysł z otaczającym środowiskiem.

Zmysły, odczuwanie zmysłowe – zmysły są związane z pojęciem danych wejściowych (input): zmysły dostarczają danych wejściowych ze świata zewnętrznego; doświadczenia: zmysły dostarczą nam pewien rodzaj bogatych doznań (doświadczeń) sensorycznych; reprezentacje: zmysły dostarczą ikonicznych lub analogowych reprezentacji mentalnych (umysłowych).