Platforma arXiv: naukowcy zaczynają od niej dzień, wydawcy zgrzytają zębami
Pierwsza wiadomość wpadła do skrzynki pocztowej hep-th@xxx.lanl.gov w środę 14 sierpnia 1991 r. Program zainstalowany na komputerze NeXT, produkcie Steve’a Jobsa, przesłał ją do odbiorców zajmujących się fizyką cząstek wysokich energii. Jego twórca Paul Ginsparg z Los Alamos – laboratorium, w którym pół wieku wcześniej zbudowano bombę atomową – w ten sposób zapisał się na kartach historii.
Fizyk omija kolejkę
Naukowa codzienność zwykle wygląda tak: uczeni rozwiązują problem, wyniki przedstawiają w preprincie i posyłają do branżowego czasopisma. Preprinty to teksty przed publikacją, które trafiają do recenzentów, a ci decydują o ich losach. Bywa, że konieczne są poprawki. Droga do publikacji ma swoją dynamikę – trzeba stanąć w kolejce, uszanować cykl wydawniczy. Autorom jednak zależy na szybkim ogłoszeniu wyników. Czy zamiast przechodzić przez ucho igielne, mogą je obejść?
Zanim Ginsparg zrobił doktorat z fizyki na Uniwersytecie Cornella, studiował na Harvardzie (kolegą z ławki był Bill Gates). Tam w 1973 r. pierwszy raz skorzystał z poczty elektronicznej, cztery lata po debiucie usługi w sieci ARPANET (z której wyłonił się internet). W 1987 r. wraz z dwoma współpracownikami zamieścił adresy e-mailowe w publikacji, inicjując nowy trend. Środowisko naukowe dostrzegło potencjał nowego kanału komunikacji – fotokopie preprintów rozsyłane e-mailem stawały się coraz popularniejsze.
Podczas konferencji fizyków w Colorado w 1991 r. Ginsparg usłyszał od Joanne Cohn, która nadzorowała listę e-maili specjalistów od teorii strun, że wysyłanie preprintów pocztą internetową to zajęcie czasochłonne. Ktoś inny zwrócił uwagę, że duża liczba wiadomości zapycha skrzynkę, gdy odbiorca jest w podróży. Poza tym preprinty krążyły zwykle tylko w gronie znajomych. Już następnego dnia Ginsparg pokazał pierwszą wersję programu do automatycznego wysyłania wiadomości.
Prowizorka się utrwala
Należący do laboratorium Los Alamos komputer pod adresem xxx.lanl.gov działał jako zautomatyzowany serwer poczty elektronicznej, dostarczając teksty na żądanie, potem także jako serwer FTP. Umożliwiał przesyłanie i pobieranie artykułów naukowych, wyszukiwanie autora czy tytułu. Pierwotnie pliki miały być kasowane po trzech miesiącach, gdy publikacje wychodziły drukiem, jednak użytkownicy, widząc wartość cyfrowych zasobów, zgłosili sprzeciw. Ginsparg dał się przekonać.
Ośrodki akademickie tworzyły szkielet ówczesnego internetu. Z potrzeby wygodnego udostępniania informacji Tim Berners-Lee z CERN stworzył sieć WWW. Ginsparg dostrzegł potencjał tego wynalazku i po pojawieniu się pierwszej przeglądarki Mosaic w 1993 r. stworzył interfejs sieciowy do bazy tekstów. Rok później, dzięki grantowi z National Science Foundation, zatrudnił programistów do przepisania kodu na język Perl.
Platforma zyskała na popularności za sprawą nazwisk takich jak Edward Witten, jedyny fizyk z Medalem Fieldsa („matematycznym Noblem”), autor prac o teorii superstrun, cieszący się opinią najinteligentniejszego człowieka na świecie. W 1998 r. repozytorium przemianowano na arXiv.org. Nietypowa nazwa to efekt burzy mózgów, jaką Ginsparg przeprowadził z żoną. Fonetycznie brzmi jak angielskie archive (archiwum). X symbolizuje grecką literę chi.
Do Los Alamos National Laboratory Ginsparg trafił z Harvardu, który nie gwarantował mu stałej posady. Czuł się dobrze w Nowym Meksyku, ale dorastająca córka szukała dobrej uczelni. W 2001 r. przeniósł się więc na Uniwersytet Cornella, zabierając arXiv ze sobą.
Informatyka bije matematykę
W odróżnieniu od naukowych periodyków arXiv nie zleca tekstów do recenzji. Jest zasobem otwartego dostępu. Jego celem jest szybkie rozpowszechnianie badań poprzez publikację nadesłanych preprintów (e-printy), zapewnienie równego dostępu do informacji i zabezpieczenie praw do odkryć. „Nic nie istnieje w izolacji. Badania są coraz bardziej powiązanym przedsięwzięciem, czy to poprzez udostępnianie danych, współpracę między instytucjami, czy przekraczanie granic interdyscyplinarnego myślenia. Zadaniem arXiv jest łączenie kropek” – czytamy w manifeście.
Drugim impulsem dla powstania arXiv były problemy z dostępnością wyników badań. Publikacja prac to biznes – sprzedaż dostępu do zrecenzowanych tekstów. Celem Ginsparga była demokratyzacja – bezpłatne repozytorium. Skorzystali na tym chociażby fizycy z krajów mniej rozwiniętych. Ginsparg wciąż otrzymuje wiadomości, że jego system zapewnia im większą pomoc niż jakakolwiek organizacja międzynarodowa.
Łatwość współpracy znajduje odzwierciedlenie we wzroście średniej liczby autorów przypadających na artykuł (częściowo to także efekt technologii umożliwiających zdalną pracę zespołową). Poza usuwaniem barier finansowych, geograficznych czy instytucjonalnych Ginspargowi na sercu leżą kwestie takie jak np. ułatwienia dla badaczy z niepełnosprawnościami (co było przedmiotem wewnętrznych badań arXiv).
W repozytorium jest dziś ponad 2,7 mln tekstów z dziewięciu dyscyplin podzielonych na 153 kategorie. Pierwotnie dotyczyły tylko fizyki, z czasem ekonomii, informatyki, elektrotechniki i nauki o systemach, matematyki, biologii ilościowej, finansów i statystyki. Ostatnie miesiące biły rekordy aktywności: ponad 24 tys. preprintów w październiku 2024 r. i marcu tego roku (ponadprzeciętną aktywność odnotowano już w czasie pandemii). Od 2018 r. na lidera pod względem liczebności preprintów wysforowała się informatyka (computer science), wyprzedzając matematykę z czterokrotnie wyższą liczbą tekstów: połowa dotyczy uczenia maszynowego, rozpoznawania obrazów oraz analizy języka.
Każdego miesiąca w arXiv pojawia się średnio 17 tys. e-printów, pobieranych jest niemal 50 mln dokumentów (od początku istnienia bazy – ponad 3 mld). Odwiedzana nawet 200 tys. razy na godzinę witryna ma ponad 5 mln aktywnych użytkowników. Nie tylko nadsyłają lub pobierają treści, lecz także komentują wyniki badań. To głos tej społeczności tworzy unikatową wartość. „Teleskop może zaobserwować zjawisko w piątek. Do poniedziałku na arXiv pojawiają się już artykuły go omawiające. A do wtorku mogą się ukazać artykuły podważające ustalenia z poniedziałku” – tak w rozmowie z „Scientific American” tłumaczy zalety szybkiego udostępniania wyników astrofizyk Steinn Sigurdsson, dyrektor naukowy arXiv od 2017 r.
Burzliwego życia wewnętrznego nie zdradza oszczędna estetyka platformy. Takie zabytki trudno już spotkać – witryna arXiv. org wygląda jak rodem z lat 90., a oparta jest na rozwiązaniach programistycznych z poprzedniej epoki i autorskich pomysłach Ginsparga. On sam przyznaje, że jego styl pracy, ukształtowany w latach 60., nie był zgodny ze współczesnymi standardami, choćby tymi dotyczącymi dokumentacji kodu.
Od 2023 r. arXiv się przepoczwarza, wdraża nowy model zarządzania. Formalnie to mała organizacja, dwa tuziny członków personelu, nieco więcej w radzie doradczej. Treści niegdyś dostępne w plikach PDF są przetwarzane na wygodny format HTML, co ułatwia lekturę na komórkach (istotne przy tekstach naszpikowanych równaniami). 10 mln dol. dofinansowania od Simons Foundation i National Science Foundation umożliwiło migrację usług do chmury Google.
Moderatorzy, łączcie się!
Platforma arXiv nie recenzuje tekstów, podlegają one jednak moderacji. Jest konieczna, aby nie publikować treści pseudonaukowych czy prezentujących „teorie wszystkiego”. Zmienił się sposób weryfikacji autorów. Niegdyś wystarczyła afiliacja akademicka, teraz zweryfikowany użytkownik ręczy za nowego autora.
Rosnąca liczba publikacji jest wyzwaniem dla moderatorów. Pojawiają się obawy o jakość, przybywa tekstów pisanych przy pomocy modeli językowych (LLM), co zdradza styl pisania abstraktów. W zespole ok. 200 moderatorów są ochotnicy, eksperci ze stopniami naukowymi zatwierdzani przez komitety doradcze ze swoich obszarów. Oceniają treść i kategorię zgłoszenia zgodnie z polityką arXiv. Do wstępnej selekcji używają sztucznej inteligencji (to na tej platformie pojawiły się zresztą przełomowe teksty, jak „Attention Is All You Need” z 2017 r., wprowadzający nową architekturę modelu AI nazwaną transformerem).
Sita moderacji nie są doskonałe, ale błędy można szybko wyłapać. Otwarta natura platformy umożliwia zarówno rygorystyczną kontrolę ze strony ekspertów, jak i natychmiastowe komentarze członków społeczności. Zgodnie z głównym imperatywem arXiv nauka sama się koryguje. Krytycy zarzucają polityce moderacji brak przejrzystości, zarzuty dotyczą także pochodzenia moderatorów: dwóch na trzech jest z USA, 90 proc. reprezentuje 10 krajów, głównie anglosaskich i europejskich. Tylko 13 proc. to kobiety.
W tle jest jeszcze kwestia reprezentacji ideologicznej i indywidualnych preferencji. Moderatorzy, podobnie jak redaktorzy czasopism, mają władzę decydowania o tym, które teorie zostaną opublikowane. W arXiv 6 proc. zgłoszeń zostaje wstrzymanych, 2 proc. – odrzuconych. Magazyny takie jak „Nature” czy „Science” akceptują mniej niż 10 proc. nadesłanych artykułów.
W 2021 r. „Nature” uznał arXiv za jeden z „10 kodów komputerowych, które zmieniły naukę”, podkreślając jego wkład we współpracę naukową. Powstały też platformy bioRxiv (profil biologiczny), ChemRxiv. org (chemiczny) czy medRxiv (medyczny). To na tej ostatniej pojawiały się preprinty z pierwszymi wynikami badań nad szczepionką na covid. Jako że system recenzji w tradycyjnych periodykach jest przeciążony, uznani naukowcy gotowi są korzystać wyłącznie z e-printów. Zasadnicza rola czasopism jednak się nie zmieniła, wciąż pozostają wyznacznikiem statusu publikacji. Odgrywają dużą rolę w ocenie osiągnięć badaczy na wczesnym etapie kariery.
Platformą arXiv zarządza obecnie ośrodek badawczy Cornell Tech. Funkcję dyrektora pełni od 2017 r. Ramin Zabih, profesor informatyki. Platformę wspierają też cenione instytucje badawcze, sponsoruje Google i Microsoft. Wszystkie nazwy, nazwiska, liczby i statystyki są jawne.
Dzieciak w salonie
O znaczeniu i sukcesie arXiv dla naukowej społeczności świadczą imponujące statystyki. Zdaniem Ginsparga projekt jest wciąż „niesamowicie zabawny” i daje możliwość testowania pomysłów. Twórca i tworzywo stanowią tu dziś jedno. Bez osobowości Ginsparga, jego talentu do omijania raf, arXiv nie przetrwałby trudności – począwszy od przestarzałej infrastruktury technicznej, konfliktów wewnątrz organizacji, zdobywania finansowania, po krytykę ze strony grup interesów ochraniających tradycyjny model wydawnictw naukowych. O znaczeniu arXiv dla świata nauki przesądziła również decyzja Ginsparga, aby autorzy podpisywali klauzulę, która przyznawała repozytorium niewyłączną licencję na wieczystą dystrybucję tekstów, także w przypadku przyszłej publikacji w innym miejscu. „To miała być trzygodzinna wycieczka, a jest dożywocie” – komentuje w swoim stylu założyciel.
Determinacja czy raczej ambicja Ginsparga nie zawsze jednak służyła wspólnemu interesowi. Dał się poznać jako człowiek, który uważa, że coś jest wystarczająco dobre tylko wtedy, gdy zrobi to sam. Mimo prób odsunięcia się od codziennego zarządzania ciągle wracał na posterunek. Technologia platformy zbyt mocno zależała od know-how twórcy. Padały zarzuty, że to fortel umożliwiający mu ingerencję w bieżące sprawy. „ArXiv jest „dzieckiem, które wysłałem na studia, ale które ciągle wraca, by koczować w moim salonie i źle się zachowywać” – powiedział.