Reklama
Shutterstock
Technologia

Sztuczna inteligencja na konferencji naukowej budzi odczucia mieszane

ChatGPT-5: wielkie rozczarowanie i koniec snu o rewolucji?
Technologia

ChatGPT-5: wielkie rozczarowanie i koniec snu o rewolucji?

Premiera nowego modelu miała być kolejnym krokiem ku ogólnej sztucznej inteligencji. Zamiast przełomu mamy debatę o granicach rozwoju AI.

Eksperymentalne wydarzenie Agents4Science 2025 złamało tradycyjne zasady. A jego wyniki dały do myślenia, pokazując zarówno potencjał, jak i poważne ograniczenia „naukowców AI”.

Większość najważniejszych czasopism i konferencji naukowych kategorycznie zabrania uznawania sztucznej inteligencji, takiej jak ChatGPT, za autora lub recenzenta badań. Organizatorzy wirtualnej konferencji Agents4Science 2025, która odbyła się 22 października pod auspicjami Stanford University, postanowili jednak przełamać tabu. Przed jej uczestnikami postawili bowiem jeden, rewolucyjny warunek: w zgłaszanych na nią artykułach, niezależnie od dziedziny nauki, to AI miała wykonać większość pracy i być wskazana jako główny autor publikacji. Co więcej, agenci AI (systemy łączące duże modele językowe z innymi narzędziami lub bazami danych, aby wykonywać wieloetapowe zadania na polecenie użytkownika) zostali obsadzeni w roli recenzentów nadsyłanych artykułów (dokonywali ich wstępnej oceny).

Dlatego prof. James Zou, informatyk ze Stanford University i współorganizator konferencji, nazwał ją eksperymentem mającym sprawdzić, jak dobra jest sztuczna inteligencja w uprawianiu nauki i czy potrafi już dziś pełnić funkcję „współnaukowca”. Zwłaszcza że rosnąca liczba badaczy już korzysta z narzędzi AI, ale często ukrywa ten fakt z powodu negatywnej stygmatyzacji. Celem Agents4Science było także opracowanie wytycznych dotyczących odpowiedzialnego „zatrudniania” AI w procesie naukowym oraz przeanalizowanie, czy może ona w przyszłości przyspieszyć badania i złagodzić obciążenie m.in. ludzkich recenzentów, borykających się z lawinowo rosnącą liczbą publikacji.

Mimo kontrowersyjnego pomysłu, na konferencję nadeszło aż 315 artykułów. Jako pierwsze oceniły je trzy popularne modele: ChatGPT-5, Gemini 2.5 Pro i Claude Sonnet 4 zgodnie z podanymi im wystandaryzowanymi kryteriami. Następnie 80 prac, które przeszły ten etap, trafiło do ludzkich recenzentów. Ostatecznie przyjęto do zaprezentowania na wirtualnym spotkaniu, które przyciągnęło 1800 zarejestrowanych uczestników, 48 artykułów. Przy czym każdy z nich musiał zawierać szczegółowy opis tego, jak ludzie i AI współpracowali na każdym etapie badań i tworzenia publikacji.

Zakres tematyczny prac ustalono dość szeroki, gdyż obejmował ekonomię, biologię, inżynierię, chemię (poszukiwanie nowych katalizatorów, które mogłyby redukować ilość CO2 w atmosferze), medycynę (kandydaci na leki na Alzheimera) czy psychologię (symulowanie stresu astronautów). Na przykład zespół biologa dr. Sergeya Ovchinnikova ze słynnego Massachusetts Institute of Technology poprosił zaawansowane warianty (tzw. rozumujące) ChatGPT o napisanie takiej sekwencji łączenia aminokwasów, by powstałe z nich białko samo zwijało się w bardzo konkretny kształt. Ku zaskoczeniu badaczy, model przedstawił gotowe sekwencje genów kodujących takie białka i to bez konieczności szczegółowego doprecyzowania zadania pytaniami. Testy laboratoryjne potwierdziły zaś, że jedno z wygenerowanych białek faktycznie miało pożądaną strukturę, co jest bardzo obiecujące, gdyż normalnie wymagałoby użycia specjalistycznego oprogramowania.

Mimo tego typu sukcesów, konferencja obnażyła poważne ograniczenia obecnych modeli AI. Min Min Fong, ekonomistka z University of California w Berkeley, stwierdziła, że choć AI przyspieszała jej obliczenia, to musiała być bardzo ostrożna wobec generowanych przez LLM treści. Model notorycznie bowiem podawał złą datę wejścia w życie kluczowych regulacji prawnych, które były związane z przedmiotem jej badań. Fong musiała też ręcznie sprawdzić oryginalne źródła, by odkryć błąd. Inni autorzy zgłaszali zaś fabrykowanie nieistniejących odnośników, błędne interpretowanie złożonych metod badawczych czy pisanie kodu komputerowego, który wymagał „ręcznego” usuwania błędów. Ponadto zebrane dane pokazały, że o ile AI dominowała w pisaniu tekstów (odpowiadała za ponad 50 proc. treści w ok. 90 proc. artykułów), o tyle jej wkład w generowanie hipotez naukowych był znacznie mniejszy (ponad 50 proc. udziału tylko w 52 proc. przyjętych prac).

Krytyczne głosy pojawiły się także wśród ludzkich recenzentów i ekspertów. Prof. Risa Wechsler, astrofizyk z Stanford University, oceniła wyniki konferencji jako mieszane. W rozmowie z serwisem internetowym tygodnika „Science” stwierdziła, że prace, które widziała, były technicznie poprawne, ale ani interesujące, ani ważne. Wechsler przestrzegła również, że umiejętności techniczne AI mogą maskować słaby osąd naukowy i wyraziła wątpliwość, czy obecni agenci potrafią formułować solidne pytania naukowe. Jej zdaniem AI jest w stanie być rzemieślnikiem (wykonywać dość poprawnie zadania), ale już nie artystą (decydować, które zadanie warto wykonać). Brakuje jej bowiem osądu pozwalającego odróżnić „poprawne” od „wartościowego”.

Z kolei prof. James Evans z University of Chicago – zajmujący się socjologią wiedzy, nauki i innowacji – zauważył, że obecne LLM-y mają tendencję pochlebiania ludzkim użytkownikom i są po prostu zbyt miłe, przez co nie generują żywych dyskusji i różnorodnych perspektyw. Bardzo krytycznie stanfordzki eksperyment ocenił dr Raffaele Ciriello z University of Sydney, badający innowacje cyfrowe i relacje człowiek-AI. Jego zdaniem nauka to zbiorowe ludzkie przedsięwzięcie oparte na interpretacji, osądzie i krytyce, a nie fabryka przetwarzająca dane we wnioski.

Reklama

Ta strona do poprawnego działania wymaga włączenia mechanizmu "ciasteczek" w przeglądarce.

Powrót na stronę główną