OpenAI i Google pokazują, co mogą. Przełomów brak
To był naprawdę ekscytujący początek tygodnia. W poniedziałek odbyła się prezentacja OpenAI, na którą czekano od co najmniej kilku tygodni. Najpierw krążyły plotki, że firma może pokazać wyczekiwany ChatGPT-5, czyli najnowszą i znacznie lepszą wersję programu. Później – że zamierza „jedynie” rzucić rękawicę Google’owi, demonstrując nową wyszukiwarkę internetową zintegrowaną z AI. Nie sprawdziło się ani jedno, ani drugie. Choć trudno było oprzeć się wrażeniu, że OpenAI nieprzypadkowo wybrało 13 maja na ogłoszenie swoich wiadomości. Bo na następny dzień Google zaplanował doroczną konferencję programistów Google I/O (pierwsza odbyła się w 2008 r.), podczas której zawsze ogłasza światu nowości.
Open AI: Chat, który zyskał głos, wzrok i słuch
Ci, którzy wyczekiwali ChataGPT-5, mogli poczuć się rozczarowani. I tak jednak OpenAI i zrobiło spore wrażenie pokazując nowe funkcje bieżącej wersji swojego flagowego produktu, który otrzymał nazwę ChatGPT-4o. Litera „o” to skrót od Omni, nawiązującego do łacińskiego słowa „omnis”, czyli „wszystko”. Nowa wersja ChataGPT zyskała bowiem „głos, wzrok i słuch”. Co to znaczy? Wprawdzie z ChatemGPT-4 można już było komunikować się głosowo za pośrednictwem aplikacji w telefonie, ale była to konwersacja przypominająca rozmowę przez krótkofalówkę – odpowiedzi padały z kilkusekundowym opóźnieniem.
Wynikało to z tego, że ChatGPT korzystał z trzech modeli. Pierwszy rozpoznawał mowę i przekształcał ją w tekst. Następnie analizował go ChatGPT-4 i udzielał odpowiedzi, bo kolejny model przekształcał ją na mowę. Teraz wszystkie te operacje wykonuje jeden model językowy, dzięki czemu potrzebuje na udzielenie odpowiedzi średnio 320 milisekund. A to sprawia, że rozmowa z nim niemal do złudzenia przypomina konwersację między ludźmi. Można bowiem ChatowiGPT przerywać i wchodzić w słowo, a on reaguje na to błyskawicznie. Taka prędkość generowania mowy umożliwia również m.in. bardzo szybkie tłumaczenie z jednego języka na drugi. Poza tym OpenAI zaprezentowało film, na którym uruchomiony na dwóch telefonach komórkowych ChatGPT rozmawiał niejako sam ze sobą. A nawet śpiewał piosenki.
Co więcej, wersja Omni otrzymała też możliwość analizy obrazu. OpenAI pokazała kolejny film, na którym użytkownik włącza kamerkę w telefonie, a ChatGPT na bieżąco komentuje, co przez nią widzi. W innym materiale syn jednego z pracowników OpenAI narysował na tablecie trójkąt prostokątny, a ChatGPT komentował to, co robił, ucząc chłopca podstaw matematyki.
Firma pokazała też wyniki testów. W niemal wszystkich Omni wypadł lepiej niż poprzednia wersja oraz kilka innych czołowych dużych modeli językowych. Jest on również zdecydowanie szybszy w udzielaniu odpowiedzi.
Na koniec OpenAI zapowiedziała, że udostępni ChatGPT-4o za darmo wszystkim użytkownikom, choć w formie limitowanej. I że będzie można z niego korzystać bez konieczności logowania, co obecnie jest niezbędne.
Google: asystent, który widzi, rozumie i niesie pomoc
W odpowiedzi Google sypnął nowościami niczym z rogu obfitości, a podczas wtorkowej prezentacji (mającej znacznie większy rozmach niż u konkurenta) hasło AI padło 121 razy. W tym natłoku chyba najważniejszą zapowiedzią okazał się projekt Astra. To multimodalny asystent AI, który ma obserwować i rozumieć to, co widzi za pomocą kamery oraz stać się wszechstronnym pomocnikiem użytkownika, niczym AI z filmów science-fiction. Znamy więc już konkurenta dla ChatGPT-4o.
Oto niektóre pozostałe nowinki od Google’a:
- Ask Photos. Dzięki tej funkcji AI będzie mogła przeszukać dziesiątki czy setki tysięcy naszych zdjęć i wybrać te, na których widać coś interesującego użytkownika, np. jak dziecko uczy się pływać albo widać psa.
- Obiektyw Google. Narzędzie służące do rozpoznawania tego obrazów zyska nową funkcjonalność w postaci analizy plików wideo.
- Model językowy Gemini 1.5 – odpowiedź na ChataGPT – ma stać się szybszy i lepszy.
- Gemini 1.5 w wersji Pro znajdzie się na bocznym pasku Dokumentów, Arkuszy, Prezentacji, Dysku i Gmaila. Kiedy zostanie udostępniony płatnym subskrybentom w przyszłym miesiącu, stanie się asystentem ogólnego przeznaczenia w Google Workspace. Będzie np. pisać e-maile zawierające informacje z dokumentu, który użytkownik w danym momenci przegląda, lub przypominać, aby odpowiedział na e-mail, który czyta. Na życzenie streści również dłuższe maile.
- Veo. to odpowiedź na generującą filmy Sorę od OpenAI. Ma tworzyć wideo w jakości 1080p na podstawie tekstu, obrazu lub podpowiedzi wideo. Google zamierza zaoferować ten program również studiom filmowym z Hollywood.
- Cricle to Search (funkcja dostępna obecnie w najnowszych telefonach Google’a i Samsunga) zaoferuje użytkownikom telefonów lub tabletów z Androidem pomoc w rozwiązaniu problemów matematycznych. Będzie służyć jako asystent, więc nie odrobi za ucznia pracy domowej, ale m.in. podzieli ją na etapy, które powinny ułatwić jej wykonanie, i wyjaśni wszelkie wątpliwości.
- Gemini Nano, „lżejsza” wersja Gemini, trafi do przeglądarki Chrome na komputerach stacjonarnych. Ma pomagać w generowaniu m.in. postów w mediach społecznościowych, recenzowaniu produktów, rezerwowaniu zajęć jogi, planowaniu posiłków na kilka dni czy podróży. W telefonach z Androidem ma także chronić przed oszustwami (np. podejrzanymi połączeniami czy prośbami od dane), wyświetlając ostrzeżenia w czasie rzeczywistym.
Choć wszystko to robi spore wrażenie, warto zwrócić uwagę, że większość zaprezentowanych w poniedziałek i wtorek nowinek technicznych dopiero będzie sukcesywnie udostępniana. Ponadto pokazano je na przygotowanych wcześniej filmikach, więc nie wiadomo, jak sprawnie działają w rzeczywistości. Dlatego bardziej wiarygodnie wypadło OpenAI, które pokazało część możliwości ChatGPT-4o podczas prezentacji na żywo.
Imprezy obydwu konkurentów nie dały też odpowiedzi na pytanie, czy technologia AI nadal bardzo szybko się rozwija, czy raczej mamy do czynienia z „wypłaszczeniem” krzywej postępu. Choć bowiem możliwość rozmowy z AI oraz „widzenie” i „słyszenie” przez nią świata to spory krok naprzód, trudno jednak mówić o przełomie. A takim byłoby zaprezentowanie programu dystansującego pod względem możliwości i osiągnięć w testach obecne modele językowe.