Ucho giganta. Kiedy słyszenie zamienia się w słuchanie

Wyścig o stworzenie idealnego asystenta głosowego prowadzony jest kosztem prywatności. Amazon, Google, Apple i Microsoft – wszystkie te firmy przyznały, że ich urządzenia zbierają próbki nagrań, które następnie są odsłuchiwane przez ludzi.

Kamil Nadolski

1 lutego 2024

Obserwuj nas. Pulsar na Facebooku:

www.facebook.com/projektpulsar

Kiedy do redakcji niemieckiego dziennika „Süddeutsche Zeitung” zgłosiło się pięciu pracowników Amazona, dziennikarze początkowo nie mogli uwierzyć, z czym przyszli. Specjaliści zwracali uwagę na niebezpieczeństwa technologii, z jaką pracowali. Ich codzienne obowiązki polegały na transkrypcji nagrań obsługiwanych przez Alexę, asystenta głosowego opracowanego i rozwijanego przez sprzedażowego giganta należącego do Jeffa Bezosa. Sygnaliści opowiadali niebywałe historie o tym, jak stawali się „nausznymi” świadkami sytuacji intymnych. Ktoś wspomniał o wiadomości głosowej prominentnego polityka, a na porządku dziennym miały być odsłuchy sytuacji obejmujących czyny karalne: awantury, groźby i akty przemocy fizycznej. Pracownicy zwracali przy tym uwagę na niedbałe podejście do ochrony danych osobowych, przyznając, że zdarzało im się beztrosko odtwarzać nagrania w czasie podróży lub we własnym domu. Rewelacje niemieckich kolegów potwierdzili dziennikarze „Bloomberga”. Amerykanie donosili, że podczas jednej dziewięciogodzinnej zmiany osoba odpowiedzialna za transkrypcje odsłuchiwała nawet tysiąc nagrań domowników w ich prywatnym otoczeniu. Na Amazona poleciały gromy.

„Tego typu informacje pozwalają nam udoskonalać systemy rozpoznawania mowy i lepiej rozumieć język potoczny, dzięki czemu Alexa może lepiej wypełniać polecenia” – tłumaczyli rzecznicy firmy. Amazon zapewniał, że ludzie sprawdzają jedynie małą próbkę nagrań głosowych, by poprawić jakość obsługi klienta. Prawnicy wynajęci przez Bezosa stwierdzili wreszcie bez ogródek: nie robimy niczego nielegalnego! I tu mieli absolutną rację, bo kto przeczyta opasły regulamin dotyczący polityki prywatności asystentów głosowych, dowie się, że obejmuje on takie praktyki. No właśnie, tylko kto czyta te regulaminy? Z podobnymi oskarżeniami mierzyły się firmy Google, Apple i Microsoft. Wszystkie przyznały, że ich asystenci głosowi zbierają próbki nagrań, które następnie są odsłuchiwane przez ludzi.

Asystenci głosowi tacy jak Alexa są przy nas, gdy dzwonimy. Wielu użytkowników zadaje sobie pytanie, czy asystent głosowy zawsze słucha wszystkiego, co mówimy.

ShutterstockAsystenci głosowi tacy jak Alexa są przy nas, gdy dzwonimy. Wielu użytkowników zadaje sobie pytanie, czy asystent głosowy zawsze słucha wszystkiego, co mówimy.

Walka o głosy

Asystenci głosowi to rewolucyjna technologia, która zmieniła sposób korzystania z urządzeń elektronicznych. Dzięki nim możemy wydawać polecenia bez konieczności dotykania ekranu, ustawiać alarmy i przypomnienia, wykonywać połączenia telefoniczne, wysyłać wiadomości, wyszukiwać informacje w internecie czy włączać i wyłączać urządzenia w inteligentnym domu. A wszystko to na bazie głosowej interakcji ze sztuczną inteligencją, która uczy się naszych nawyków i optymalizuje działania użytkownika.

Za początek historii asystentów głosowych można uznać 4 października 2011 r., kiedy podczas konferencji „Let’s Talk iPhone” firma Apple zaprezentowała swój flagowy produkt – Siri. Innowacyjne oprogramowanie zainstalowane w telefonach iPhone 4s z systemem IOS opierało się na interfejsie konwersacyjnym. Siri umożliwiała przeszukiwanie internetu za pomocą komend głosowych, wykonywanie połączeń czy dyktowanie wiadomości. Dzięki implementacji nauczania maszynowego asystentka szybko analizowała osobiste preferencje użytkownika w celu zapewnienia lepiej dopasowanych wyników i rekomendacji. Dziś taka technologia to standard, ale dekadę temu stanowiła realizację futurystycznej wizji, jakiej doświadczamy obecnie przy okazji boomu związanego ze sztuczną inteligencją. Współczesne możliwości Siri rozrosły się do imponujących rozmiarów, a jej rynkową zaletą jest kompatybilność ze zdecydowaną większością urządzeń Apple’a i nie tylko. Asystentka potrafi obsługiwać kalendarz, tłumaczyć z języków obcych, rozpoznawać utwory muzyczne, rezerwować miejsca w kinach i restauracjach, obsługiwać nawigację, jest dostępna jako system w wybranych autach, potrafi przelewać pieniądze w Apple Pay oraz komunikować się z Apple TV. Pomimo zdecydowanych zalet nie podbiła jednak rynku w takim stopniu jak asystenci głosowi stworzeni przez innych technologicznych gigantów – Amazona i Google’a.

Alexa Amazona zadebiutowała w inteligentnych głośnikach Amazon Echo oraz Amazon Echo Dot w 2014 r. i szybko zyskała na popularności, a udział w jej sukcesie mają również Polacy (Alexa oparta jest na syntezatorze mowy Ivona, który Bezos odkupił w 2013 r.). Asystentka głosowa szybko została zaimplementowana w telewizorach, tabletach, słuchawkach, a nawet samochodach. Obecnie dostępna jest na ponad 100 mln urządzeń na całym świecie, co czyni ją drugim pod względem popularności tego typu oprogramowaniem na świecie. Sukces Alexy wynika nie tylko z rozwiązań technologicznych, ale również z kompatybilności jej działań z urządzeniami innych firm. Liczba sprzętów, z którymi współpracuje Alexa, przekracza 50 tys., dzięki czemu może włączać inteligentne lampy Philipsa, kontrolować lodówki LG, odtwarzać muzykę z serwisu Spotify, zamówić kawę w Starbucksie czy zarezerwować przejazd w Uberze.

Wszystkie te rozwiązania kumuluje Asystent Google, prawdziwy monopolista na rynku, który dostępny jest na ponad 1,5 mld urządzeń. Liczbę realnych użytkowników firma szacuje na 1 mld, a większość z nich korzysta z niego za pośrednictwem smartfonów i tabletów z systemem Android oraz głośników Google Home. Doskonałe algorytmy rozpoznawania ludzkiej mowy sprawiają, że rozmowa z Asystentem Google przypomina dialog z żywym człowiekiem. Nie musimy posługiwać się sztywnymi komendami, mówimy w sposób naturalny. Oprogramowanie swobodnie komunikuje się w językach angielskim, francuskim, hiszpańskim, indonezyjskim, japońskim, koreańskim, niemieckim, portugalskim, tajskim, włoskim, a od 2019 r. również polskim. Z kronikarskiego obowiązku warto wspomnieć wreszcie o asystentach głosowych Microsoftu (Cortana) i Samsunga (Bixby). Mimo wysiłków obydwu firm ich oprogramowania dzieli jednak duży dystans do głównych konkurentów, choć jeśli wyścig nabierze tempa, może się to zmienić.

Asystent Google to wirtualny asystent oparty na sztucznej inteligencji dostępny na urządzeniach mobilnych i inteligentnych głośnikach. Liczba jego użytkowników przekracza 1 mld.

ShutterstockAsystent Google to wirtualny asystent oparty na sztucznej inteligencji dostępny na urządzeniach mobilnych i inteligentnych głośnikach. Liczba jego użytkowników przekracza 1 mld.

Na wizerunku technologicznych gigantów pojawiły się jednak rysy. Kilka dochodzeń ujawniło, że Amazon, Apple, Google i Microsoft zatrudniają tysiące pracowników do przesłuchiwania, kategoryzowania i spisywania nagrań dokonanych przez asystentów mowy. Wielu użytkowników zareagowało na to oburzeniem. Prawdziwy skandal jednak nie polegał na tym, że koncerny IT zlecały analizę nagrań ludziom, lecz na tym, że ukrywały ten fakt w niejasnych oświadczeniach o ochronie prywatności i warunkach użytkowania.

Czynnik ludzki

Zdaniem Jasona Marsa, specjalisty od sztucznej inteligencji i technologii cyfrowych z University of Michigan, potrzeba ok. 20 tys. godz. nagrań dźwiękowych, by wyszkolić asystenta przydatnego dla użytkowników. Proces ten nie jest jednak możliwy bez udziału człowieka. Komunikacja z popularnymi asystentami głosowymi rozpoczyna się w momencie wywołania go do odpowiedzi najczęściej słowami „Ok, Google!”, „Hej, Siri!”, „Hej, Cortana!” czy po prostu „Alexa”. Do interakcji z człowiekiem program wykorzystuje mikrofon wbudowany w telefon. To on rejestruje słowa, które oprogramowanie zamienia na plik dźwiękowy, zrozumiały dla asystenta, za pomocą odpowiednio skonfigurowanych kodów przetwarzania mowy. Część funkcji jest obsługiwana offline, ale zdecydowana większość zapytań trafia do sieci. Tam odpowiedni algorytm przygotowuje odpowiedź i wysyła z powrotem do naszego urządzenia w postaci głosu asystenta. Cały proces odbywa się w ułamku sekundy. Czemu nasze pliki dźwiękowe są wysyłane na obce serwery i przetwarzane w chmurze? Bo pamięć wewnętrzna naszych smartfonów w większości przypadków zwyczajnie na to nie pozwala. Za kodowanie zarejestrowanych plików odpowiada algorytm KWS, czyli Keyword Spotting. Służy on do analizy języka naturalnego w kontekście wykrycia lub rozpoznania określonych słów albo fraz kluczowych w większym strumieniu danych. Dzięki temu urządzenie może szybko reagować na nasze polecenia głosowe.

Wyzwaniem stojącym przed projektantami interfejsów jest umiejętność rozpoznawania mowy. Nieraz pewnie zauważyliście, że podczas wypowiadania hasła „Ok, Google!” jesteśmy w stanie uruchomić asystenta w domu znajomych lub na telefonie sąsiada. To dlatego, że asystent głosowy wykrywa naszą mowę, ale nie głos. W przeszłości nastręczało to wielu problemów, o czym mogliśmy się przekonać w 2017 r. przy okazji reklamy wideo sieci Burger King. W krótkim spocie aktor wykorzystywał frazę „Ok, Google!”, prosząc o opisanie burgera, co skutkowało tym, że Asystenci Google przez kolejne kilkadziesiąt sekund opisywali ich właścicielom skład tego burgera. Rozpoznawanie głosu to proces, który wciąż wymaga olbrzymich nakładów i ciężko sobie wyobrazić, by każdy telefon czy głośnik z asystentem wysyłał takie żądania do chmury. Poza tym, jak dobrze wiemy, ludzki głos nie zawsze jest identyczny, zmienia się w wyniku choroby czy nawet zmęczenia. Zamiast tego pojawiły się dość proste triki. Alexa sprawdza np., czy identyczne słowa (gdzie przez „identyczne” mamy na myśli również tembr i barwę głosu) nie zostały wypowiedziane w kilku miejscach jednocześnie. W takim przypadku wie doskonale, że jest to część audycji radiowej czy telewizyjnej, i dodaje taką sygnaturę głosową na czarną listę. Dzięki zmianom w interfejsie unikamy sytuacji, kiedy krzycząc na ulicy „Ok, Google!”, uruchomimy asystenta wszystkim właścicielom smartfonów z systemem Android.

ShutterstockGoogle Home Mini, czyli inteligentny głośnik z dostępem do Asystenta Google, który służy do zarządzania inteligentnym domem.

Niepokojącą cechą wszystkich asystentów głosowych jest jednak fakt, że skoro reagują na słowa klucze takie jak „Ok, Google!” bądź „Hej, Siri!”, to oznacza, że podłączone do sieci znajdują się w stanie ciągłego nasłuchiwania. Czuwają, czy komendy odpowiedzialne za ich uruchomienie nie padły. A skoro tak, to nic dziwnego, że wiele osób zadaje sobie pytanie, czy w czasie czuwania oprogramowanie przetwarza inne odgłosy pochodzące z naszego domu. W sieci aż roi się od relacji osób, które rozmawiały na określony temat, by po chwili zobaczyć na swoim smartfonie reklamy dotyczące dokładnie poruszanych kwestii. Wbrew obiegowej opinii nie ma to żadnego związku i możemy spać spokojnie. Asystenci głosowi słyszą, co mówimy, ale do momentu, kiedy nie zbudzimy ich ze stanu czuwania hasłem startowym, „nie rozumieją” naszych słów, a więc algorytm przetwarzania mowy nie zostaje uruchomiony. W trybie czuwania interfejsy głosowe działają na minimalnych obrotach. Dopiero po aktywacji, czyli wypowiedzeniu właściwych słów, rozpoczynają przesyłanie głosu do chmury, aby sprawdzić, co konkretnie powiedzieliśmy. To właśnie jest algorytm KWS.

Nasuwa się zatem pytanie: czy nasze prywatne nagrania mogą być odsłuchiwane przez pracowników korporacji? Nie tylko mogą, ale są. Oficjalne stanowisko wszystkich dostawców sprowadza się do oświadczenia, że pracownicy analizują niektóre nagrania, by porównać, jak dobrze oprogramowanie je rozpoznało i na nie odpowiedziało. Tylko w ten sposób mogą rzekomo rozwijać interfejs asystentów, zwłaszcza w kontekście różnych wersji językowych. Google precyzuje, że próbka nagrań przeznaczonych do weryfikacji przez specjalistów językowych wynosi 0,2%. Koncern zapewnia przy tym, że odsłuchiwane nagrania nie są powiązane z danymi osobistymi i są zniekształcane. W przypadku Apple’a próbka nagrań odsłuchiwanych przez ludzi wynosi 1%. Amazon stosuje podobną praktykę w przypadku Alexy, ale nie wspomina o dokładnych liczbach. Wiemy jedynie, że firma ma zespół badający różne próbki językowe, a wybiera te nowe, których oprogramowanie powinno się nauczyć. Na przykład w języku francuskim wyrażenie avec sa, oznaczające „z nim” bądź „z nią”, przez Alexę interpretowane jest często jako... „Alexa”. Specjaliści językowi uczą zatem asystentkę właściwego rozpoznawania mowy.

Cyfrowa cisza

Nie wszystko jednak jest takie proste, jak mogłoby wynikać z zapewnień gigantów z Doliny Krzemowej. W 2019 r. wyszło na jaw, że za wieloma abstrakcyjnymi pojęciami typu „algorytm”, „sztuczna inteligencja” czy „uczenie maszynowe” często kryją się ludzie. Trenują maszyny i poprawiają jakość rozpoznawania mowy. Dostało się nie tylko Amazonowi. Hamburski inspektor Johannes Caspar wszczął postępowanie administracyjne przeciwko Google’owi, podejrzewając, że koncern zleca analizę nagrań ludziom. Firma z Mountain View nie próbowała zaprzeczać.

Dziennik „The Guardian” opublikował rozmowę z anonimowym informatorem, który twierdził, że pracownicy Apple’a odsłuchiwali nagrania z poufnymi informacjami medycznymi, ofertami dotyczącymi narkotyków oraz utrwalonymi parami uprawiającymi seks. Brytyjscy dziennikarze skontaktowali się z Apple’em i poprosili o komentarz. Gigant potwierdził, że Siri wysyła do Apple’a nagrane rozmowy i część z nich jest odsłuchiwana przez ludzi. Firma zapewniła jednocześnie, że pilnuje, by wszystko odbywało się w bezpieczny sposób. Pliki analizowano w zabezpieczonych placówkach i nie były one w żaden sposób połączone z Apple ID użytkowników. Do amerykańskiego serwisu technologicznego Motherboard zgłosił się wreszcie sygnalista z Microsoftu, który przekazał dziennikarzom nagrania z Cortany, potwierdzając tym samym, że próbki również tego asystenta są sprawdzane przez ludzi. Okazało się, że użytkownicy Cortany często używali komend głosowych do wyszukiwania pornografii. Były to zatem dane o preferencjach seksualnych. Próbki otrzymane przez Motherboard mają od 5 do 10 s. Sygnalista twierdził, że zdarzały się nagrania dłuższe. „Nie dziwię się, że cała sprawa wzbudza kontrowersje, w końcu kto z nas chciałby być podsłuchiwany we własnym domu” – stwierdził Mainul Mondal, założyciel i dyrektor generalny start-upu Ellipsis Health, który wykorzystuje sztuczną inteligencję do analizowania rozmów pacjentów z lekarzami. Zdaniem eksperta w takiej sytuacji liczy się przede wszystkim transparentność, a w tym przypadku ewidentnie jej zabrakło.

Era wirtualnych asystentów została zapoczątkowana przez Siri. Dziś Apple aktywnie walczy z konkurencją o przejęcie jak największej rzeszy użytkowników.

ShutterstockEra wirtualnych asystentów została zapoczątkowana przez Siri. Dziś Apple aktywnie walczy z konkurencją o przejęcie jak największej rzeszy użytkowników.

Po aferze większość koncernów wstrzymała odsłuchy przez ludzi, a gdy sprawa ucichła, powrócono do dawnych praktyk. Głośniki nadal nagrywają i przekazują część próbek do analizy przez człowieka, ale polityki prywatności przewidują jednak większą przejrzystość. Google stawia na manualną analizę tylko dla tych użytkowników, którzy wyrażą na to aktywną zgodę. Także Apple żąda obecnie takiego potwierdzenia. Zagrożenia jednak nadal istnieją. Pliki z poleceniami głosowymi są zwykle przechowywane na serwerach, na których zostały poddane analizie. Jeśli włamie się na nie haker, nasza prywatność może zostać zagrożona. Wielu ekspertów uważa, że istnieją możliwości przyporządkowania transkrypcji do konkretnej lokalizacji, a więc w praktyce do konkretnej osoby. Jeśli jesteśmy przewrażliwieni na punkcie naszych danych i prywatności, warto zastanowić się nad tym, czy łączyć asystenta głosowego z aplikacjami zabezpieczającymi IoT, takimi jak inteligentna kamera bądź zamki do drzwi.

Co zrobić, aby ochronić swoją prywatność? Po pierwsze, wyłączyć funkcje nagrywania audio w Asystencie Google lub innych aplikacjach, które wykorzystują taką możliwość. Można to zrobić w ustawieniach smartfona. W zależności od dostawcy możemy zabronić analizy naszych nagrań w ustawieniach swojego asystenta głosowego lub się na nią nie zgodzić. Po drugie, coraz częściej mamy również możliwość odsłuchania zapisanych nagrań i ręcznego usunięcia każdego z nich. Po trzecie, można także nakazać asystentom głosowym, aby w dowolnym momencie usunęli to, co usłyszą. By to zrobić, należy wejść w ustawienia prywatności asystenta głosowego, z którego korzystamy. Sami powinniśmy zadbać o to, kiedy słyszenie ma się zamienić w słuchanie.

Wiedza i Życie 2/2024 (1070) z dnia 01.02.2024; Informatyka; s. 24

Kamil Nadolski

Redaktor, publicysta, popularyzator nauk o Ziemi. Współpracował m.in. z TVN24, TVP, „Wprost”, „Rzeczpospolitą” i „Newsweekiem”. Pasjonat historii, antropologii i nauk społecznych.

Ucho giganta. Kiedy słyszenie zamienia się w słuchanie

Walka o głosy

Czynnik ludzki

Cyfrowa cisza

Kamil Nadolski

Umysł w chmurze, czyli Ray Kurzweil radośnie wieszczy rewolucję

Części New Holland – co warto wiedzieć przed zakupem?

Rafael Mariano Grossi: Obawiam się, że ktoś w końcu użyje broni jądrowej