Sztuczna inteligencja sprawdziła się metodą prób i błędów
W styczniu 2025 r. nowy chiński model językowy DeepSeek-R1 narobił ogromnego zamieszania w USA. W testach, przede wszystkim programowania i rozwiązywania zadań matematycznych, okazał się równie dobry, jak najbardziej zaawansowany wówczas model ChatGPT o1, a do tego był darmowy. Największy wstrząs wywołała jednak informacja, że trenowanie DeepSeek R1 kosztowało zaledwie ok. 6 mln dol., czyli ułamek kwot wydawanych przez czołowe amerykańskie firmy z branży AI. Przede wszystkim dzięki zmniejszeniu liczby używanych do tego specjalnych procesorów firmy Nvidia. Na wieść o tym wycena amerykańskiego producenta chipów skurczyła się w ciągu kilku godzin o ok. 600 mld dol. W najnowszym „Nature” twórcy DeepSeek ujawniają, na czym polegała specyfika treningu ich modelu.
Gdy studenci rozwiązują trudne zadanie matematyczne lub programista pisze skomplikowany algorytm, rzadko robią to za jednym zamachem. Najczęściej rozpisują problem i notują kroki pośrednie, by stopniowo dojść do odpowiedzi. Podobnie duże modele językowe (LLM) znacznie lepiej radzą sobie ze złożonymi zadaniami, gdy najpierw „myślą na głos”, czyli generują swój tok rozumowania. Dotychczas uczono je tego, pokazując przykłady ludzkich rozwiązań, co jednak ograniczało je do naśladowania naszych schematów myślowych.
Zespół DeepSeek AI sprawdził, czy ich model może sam nauczyć się myślenia krok po kroku. Dostawał zadania do rozwiązania i otrzymywał nagrodę wyłącznie za poprawny wynik, a nie za proces dochodzenia do niego. Kluczowe zatem było celowe pominięcie etapu wstępnego treningu na ludzkich przykładach.
Sięgnij do źródeł
Badania naukowe: DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning
Pierwsza wersja modelu – DeepSeek-R1-Zero – sama zaczęła generować coraz obszerniejsze i bardziej złożone analizy, ponieważ odkryła, że to skuteczna droga do nagrody. Średnia długość jej odpowiedzi wzrosła z kilkuset do ponad 15 tys. tokenów (fragmentów słów). Co ważniejsze, spontanicznie wykształciła zaawansowane strategie, takie jak weryfikacja własnych kroków, eksploracja alternatywnych rozwiązań czy „autorefleksja”. Badacze zaobserwowali bowiem nawet „moment aha”, gdy model w trakcie rozwiązywania zadania napisał: „Czekaj, czekaj. Czekaj. To jest chwila olśnienia, którą mogę tu zaznaczyć”, po czym wracał, by przeanalizować problem od nowa.
Przełożyło się to na świetne wyniki. W teście American Invitational Mathematics Examination 2024 skuteczność modelu wzrosła z początkowych 15,6 proc. do 79,8 proc., co znacznie przewyższa średni wynik osiągany przez ludzkich uczestników. Z kolei w konkursach programistycznych Codeforces DeepSeek osiągnął ranking 2029, czyli uplasował się wśród 4 proc. najlepszych ludzkich zawodników.
Taki trening miał jednak skutki uboczne. Odpowiedzi modelu były trudne w lekturze, często mieszał w nich język angielski z chińskim, a proste pytania przynosiły przesadnie długie analizy. Dlatego w kolejnym kroku badacze „ucywilizowali” go, łącząc uczenie przez wzmacnianie z tradycyjnym treningiem na danych przygotowanych przez ludzi. To pozwoliło zachować jego niezwykłe zdolności analityczne, jednocześnie czyniąc bardziej przyjaznym dla użytkownika.
Autorzy badania wskazują jednak na istotne ograniczenia swojej metody. Działa ona najlepiej w zadaniach z jednoznaczną, weryfikowalną odpowiedzią (matematyka czy kodowanie komputerowe). W przypadku zadań subiektywnych – np. pisania esejów – istnieje ryzyko, że model nauczy się oszukiwać system nagród. Co więcej, jest on bardzo wrażliwy na sposób formułowania poleceń – nawet drobne zmiany w promptach mogą znacząco wpłynąć na jakość odpowiedzi. A próby dawania wskazówek często pogarszają wydajność.
Dziękujemy, że jesteś z nami. To jest pierwsza wzmianka na ten temat. Pulsar dostarcza najciekawsze informacje naukowe i przybliża najnowsze badania naukowe. Jeśli korzystasz z publikowanych przez Pulsar materiałów, prosimy o powołanie się na nasz portal. Źródło: www.projektpulsar.pl.