Siri a stronniczość rasowa
Obserwuj nas. Pulsar na Facebooku:
W Sekcji Archeo w Pulsarze prezentujemy archiwalne teksty ze „Świata Nauki” i „Wiedzy i Życia”. Wciąż aktualne, intrygujące i inspirujące.
Powiedziałam: „Claw-dia,”. Powtórzyłam. Potem jeszcze raz. W końcu dałam za wygraną i wypowiedziałam moje imię w brzemieniu amerykańskim: „Claw-dee-ah”. Wreszcie nastąpiła oczekiwana reakcja. Konieczność adaptacji wymowy przy korzystaniu z systemów rozpoznawania mowy to częste doświadczenie osób, których pierwszym językiem nie jest angielski lub których imiona wykraczają poza konwencjonalne amerykańskie słownictwo. Przestałam więc korzystać z Siri, asystenta głosowego firmy Apple.
Okazuje się, że problem selektywności rasowej dotyczy nie tylko Siri, ale także pozostałych podobnych programów, jak Alexa czy Cortana. W pracy opublikowanej niedawno (2020) w „Proceedings of the National Academy of Sciences USA” wykazano, że z korzystaniem z programów rozpoznawania mowy trudności mają zwłaszcza osoby czarnoskóre. Autorzy badania stwierdzili, że skuteczność wszystkich pięciu programów z czołowych firm, w tym Apple i Microsoft, jest wyraźnie uzależniona od rasy użytkowników; liczba popełnianych błędów jest dwukrotnie większa w przypadku czarnych niż białych.
„Cenzurowanie” dotyczy jednak wszystkich, których wymowa lub sposób akcentowania odbiega od „standardów” przyjętych podczas tworzenia programów. „Nie porozumiem się z tymi urządzeniami, jeżeli nie dostosuję do nich swojej wymowy – wyjaśnia Halcyon Lawrence, profesor projektowania informacji i komunikacji technicznej w Towson University, która nie uczestniczyła w badaniach. – Trudno to zaakceptować.” W przypadku Lawrence, która ma akcent trynidadzki i tobagoński, albo moim (z pochodzenia jestem Portorykanką) posługiwanie się formami językowymi określanymi jako African American Vernacular English (AAVE) stanowi ważny element tożsamości. Wymaganie rezygnacji z niego, aby zostać zrozumianą, jest bezsprzecznie niesprawiedliwe.
Allison Koenecke, magistrantka informatyki i pierwsza autorka pracy opublikowanej w PNAS, wyjaśnia, że doświadczenie niebycia rozumianym silnie obciąża zwłaszcza spychane na margines społeczności, w tym osoby niedowidzące i niepełnosprawne ruchowo, które intensywnie korzystają z narzędzi rozpoznawania głosu oraz przetwarzania mowy na tekst. Dla osoby niepełnosprawnej, której trudno żyć bez wspomnianych technik, bycie niezrozumianą może mieć poważne konsekwencje. Prawdopodobnie jest wiele źródeł występowania takich nierówności, ale Koenecke wskazuje na najbardziej prawdopodobne: dane używane do treningu oprogramowania pochodzą od białych mieszkańców Ameryki, dla których amerykański angielski jest językiem ojczystym. Używając baz danych obejmujących stosunkowo wąskie słownictwo oraz ograniczając sposób wymowy, systemy uczące eliminują odmienne sposoby akcentowania oraz inne charakterystyczne elementy lingwistyczne. Ludzi, najpewniej także tych, którzy tworzą te technologie, cechują pewne tendencje językowe. Badania wykazały na przykład, że zauważalny akcent może wpływać na decyzję przysięgłych orzekających o winie podejrzanego oraz na opinię pacjenta na temat kompetencji lekarza.
Uświadomienie sobie występowania tych uprzedzeń byłoby ważnym krokiem w kierunku ich wyeliminowania. Ale opracowanie bardziej uniwersalnych rozwiązań wymaga czasu, pracy i pieniędzy, a często również decyzji inwestycyjnych, które są podejmowane pod wpływem rynku. (Na zapytania, które wysłałam przed publikacją do różnych firm, zareagował jedynie rzecznik Google’a, nadsyłając zdawkową odpowiedź: „Od wielu lat pracujemy już nad usprawnieniem rozpoznawania różnych dialektów i nadal będziemy to robić.”)
Safiya Noble, associate professor nauk informatycznych na University of California w Los Angeles, przyznaje, że wyzwanie jest ryzykowne. „Język jest kontekstowy – wyjaśnia Noble, która nie uczestniczyła w badaniach. – Ale nie oznacza to, że firmy nie powinny dążyć do eliminowania zjawiska stronniczości i nierówności”.
Koenecke uważa, że dostarczenie do treningu systemów bardziej urozmaiconych baz danych zmniejszyłoby występujące problemy. Noble dodaje, że firmy technologiczne powinny staranniej testować swoje produkty oraz zadbać o większe zróżnicowanie swoich pracowników. Koenecke sugeruje, aby firmy zajmujące się automatyzacją procesu rozpoznawania mowy wykorzystały pracę opublikowaną w PNAS jako punkt odniesienia.
Tymczasem liczna grupa użytkowników, chcących korzystać z asystentów głosowych, przeżywa rozterki, dokonując wyboru między własną tożsamością a dążeniem do bycia zrozumianym. Lawrence konsekwentnie wybiera tożsamość: „Nie zamierzam się dostosowywać” – stwierdza.
Dziękujemy, że jesteś z nami. Pulsar dostarcza najciekawsze informacje naukowe i przybliża wyselekcjonowane badania naukowe. Jeśli korzystasz z publikowanych przez Pulsar materiałów, prosimy o powołanie się na nasz portal. Źródło: www.projektpulsar.pl.