Connect with us

‘Niewidzialna’, Często Nieszczęśliwa Siła Robocza, Która Decyduje o Przyszłości Sztucznej Inteligencji

Sztuczna inteligencja

‘Niewidzialna’, Często Nieszczęśliwa Siła Robocza, Która Decyduje o Przyszłości Sztucznej Inteligencji

mm

Dwa nowe raporty, w tym artykuł pod przewodnictwem Google Research, wyrażają obawy, że obecny trend polegający na poleganiu na taniej i często pozbawionej władzy grupie globalnych pracowników gigów, aby tworzyć podstawę prawdy dla systemów uczenia maszynowego, może mieć znaczące konsekwencje dla sztucznej inteligencji.

Wśród szeregu wniosków, badanie Google stwierdza, że własne uprzedzenia crowdworkerów mogą zostać wbudowane w systemy sztucznej inteligencji, których podstawą prawdy będą ich odpowiedzi; że powszechne nieuczciwe praktyki pracy (w tym w Stanach Zjednoczonych) na platformach crowdworkingu mogą obniżyć jakość odpowiedzi; oraz że system “konsensusu” (skutecznie “mini-wyborów” dla pewnego fragmentu podstawy prawdy, który wpłynie na systemy sztucznej inteligencji w dół) może rzeczywiście wyrzucić najlepsze i/lub najbardziej poinformowane odpowiedzi.

To jest złe wieści; gorsze wieści są takie, że praktycznie wszystkie środki zaradcze są drogie, czasochłonne lub oba.

Niepewność, Losowa Odmowa i Zgorzknienie

Pierwszy artykuł, z pięciu badaczy Google, nosi tytuł Czyja Prawda? Uwzględnianie Indywidualnych i Zbiorowych Tożsamości Podstawy Danych; drugi artykuł, z dwóch badaczy z Uniwersytetu Syracuse w Nowym Jorku, nosi tytuł Pochodzenie i Wartość Niezgodności Między Etykietami Danych: Studium Przypadku Indywidualnych Różnic w Etykietowaniu Mowy Nienawiści.

Artykuł Google zauważa, że crowdworkerzy – których oceny często stanowią podstawę systemów uczenia maszynowego, które mogą ostatecznie wpłynąć na nasze życie – często działają pod wpływem szeregu ograniczeń, które mogą wpłynąć na sposób, w jaki odpowiadają na zadania eksperymentalne.

Na przykład, obecne zasady Amazon Mechanical Turk pozwalają osobom zgłaszającym (tym, którzy wydają zadania) odrzucić pracę annotatora bez odpowiedzialności*:

‘[W]ielka większość crowdworkerów (94%) miała pracę, która została odrzucona lub za którą nie została zapłacona. Jednakże, osoby zgłaszające zachowują pełne prawa do otrzymanych danych, niezależnie od tego, czy przyjmują je czy odrzucają; Roberts (2016) opisuje ten system jako “umożliwiający kradzież wynagrodzenia”.

‘Ponadto, odrzucanie pracy i zatrzymywanie wynagrodzenia jest bolesne, ponieważ odrzucenia są często spowodowane niejasnymi instrukcjami i brakiem znaczących kanałów informacji zwrotnej; wielu crowdworkerów zgłasza, że złe komunikowanie się negatywnie wpływa na ich pracę.’

Autorzy zalecają, aby badacze, którzy używają usług zewnętrznych do opracowania zbiorów danych, brali pod uwagę, w jaki sposób platforma crowdworkingu traktuje swoich pracowników. Zauważają również, że w Stanach Zjednoczonych crowdworkerzy są klasyfikowani jako “niezależni kontrahenci”, a praca jest więc nieuregulowana i nieobjęta minimalnym wynagrodzeniem określonym przez Fair Labor Standards Act.

Kontekst Ma Znaczenie

Artykuł krytykuje również użycie ad hoc globalnej siły roboczej do zadań anotacji, bez uwzględnienia tła annotatora.

Gdzie budżet pozwala, jest powszechne, że badacze używający AMT i podobnych platform crowdworkowych dają to samo zadanie czterem annotatorom i stosują “zasadę większości” w wynikach.

Doświadczenie kontekstowe, argumentuje artykuł, jest szczególnie niedoceniane. Na przykład, jeśli pytanie zadane w związku z seksizmem jest losowo rozdzielone między trzech zgadzających się mężczyzn w wieku 18-57 i jedną niezgodną kobietę w wieku 29, werdykt mężczyzn wygrywa, chyba że w rzadkich przypadkach, gdy badacze zwracają uwagę na kwalifikacje swoich annotatorów.

Podobnie, jeśli pytanie dotyczące zachowania gangów w Chicago jest rozdzielone między kobietę z obszaru wiejskiego w USA w wieku 36, mężczyznę z Chicago w wieku 42 i dwóch annotatorów odpowiednio z Bangalore i Danii, osoba najbardziej dotknięta problemem (mężczyzna z Chicago) posiada tylko jedną czwartą część udziału w wyniku, w standardowej konfiguracji outsourcingu.

Badacze stwierdzają:

‘[P]ojęcie “jednej prawdy” w odpowiedziach crowdworkingu jest mitem; niezgodność między annotatorami, która jest często postrzegana jako negatywna, może rzeczywiście dostarczyć cennego sygnału. Po drugie, ponieważ wiele pul annotatorów crowdworkingu jest socjo-demograficznie skrzywionych, istnieją implikacje dotyczące populacji reprezentowanych w zbiorach danych, a także populacji, które napotykają wyzwania crowdworku.

‘Uwzględnianie skrzywień w demografii annotatorów jest kluczowe dla kontekstualizacji zbiorów danych i zapewnienia odpowiedzialnego użycia w dół. Innymi słowy, istnieje wartość w uznawaniu i uwzględnianiu tła socjo-kulturowego pracownika — zarówno z punktu widzenia jakości danych, jak i wpływu społecznego.’

Brak ‘Neutralnych’ Opinii na Gorące Tematy

Nawet w przypadku, gdy opinie czterech annotatorów nie są skrzywione, ani demograficznie, ani według innego wskaźnika, artykuł Google wyraża obawy, że badacze nie uwzględniają doświadczeń życiowych ani filozoficznego usposobienia annotatorów:

‘Podczas gdy niektóre zadania tendencję do stawiania obiektywnych pytań z poprawną odpowiedzią (czy jest ludzka twarz na zdjęciu?), często zbiorami danych starają się uchwycić sąd na temat względnie subiektywnych zadań bez powszechnie poprawnej odpowiedzi (czy ten tekst jest obraźliwy?). Ważne jest, aby być intencjonalnym w odniesieniu do tego, czy polegać na subiektywnych sądach annotatorów.’

W odniesieniu do swojego konkretnego zakresu rozwiązywania problemów z etykietowaniem mowy nienawiści, artykuł Syracuse zauważa, że bardziej kategoryczne pytania, takie jak Is there a cat in this photograph? są zauważalnie różne od zadania crowdworkerowi, czy fraza jest “toksyczna”:

‘Uwzględniając nieład społecznej rzeczywistości, ludzie mają różne postrzeganie toksyczności. Ich etykiety treści toksycznej opierają się na ich własnych postrzeganiach.’

Stwierdzając, że osobowość i wiek mają “znaczący wpływ” na wymiarową etykietę mowy nienawiści, badacze Syracuse dochodzą do wniosku:

‘Te wyniki sugerują, że starania, aby uzyskać spójność w etykietowaniu wśród osób z różnymi tłami i osobowościami dla mowy nienawiści, mogą nigdy nie w pełni powiedzieć się.’

Sędzia Może Być Skrzywiony

Brak obiektywności może się również powtarzać w górę, według artykułu Syracuse, który argumentuje, że interwencja ręczna (lub zautomatyzowana polityka, również decydowana przez człowieka), która określa “zwycięzcę” głosów konsensusu, powinna również podlegać kontroli.

Porównując ten proces do moderacji forum, autorzy stwierdzają*:

‘[M]oderatorzy społeczności mogą decydować o losie postów i użytkowników w swojej społeczności, promując lub ukrywając posty, a także honorując, karząc lub banując użytkowników. Decyzje moderatorów wpływają na zawartość dostarczaną członkom społeczności i publiczności i przez to również wpływają na doświadczenie społeczności dyskusji.

‘Zakładając, że moderator ludzki jest członkiem społeczności, który ma demograficzną jednorodność z innymi członkami społeczności, wydaje się możliwe, że mentalny schemat, który używa do oceny zawartości, będzie odpowiadał tym, których używają inni członkowie społeczności.’

To daje pewne wskazówki, dlaczego badacze Syracuse doszli do tak pesymistycznego wniosku dotyczącego przyszłości etykietowania mowy nienawiści; implikacją jest, że polityki i decyzje dotyczące niezgodnych opinii crowdworku nie mogą być po prostu losowo stosowane według “akceptowalnych” zasad, które nie są ustanowione gdzieś (lub nie mogą być zredukowane do stosowanego schematu, nawet jeśli istnieją).

Ludzie, którzy podejmują decyzje (crowdworkerzy), są skrzywieni i byliby bezużyteczni dla takich zadań, gdyby nie byli skrzywieni, ponieważ zadaniem jest dostarczenie wartościowania; ludzie, którzy rozstrzygają spory w wynikach crowdworku, również podejmują wartościowania w ustanawianiu polityk dla sporów.

Może być setki polityk w ramach jednego frameworku wykrywania mowy nienawiści, a chyba że każda z nich zostanie wniesiona aż do Sądu Najwyższego, skąd mogą pochodzić “autorytatywne” uzgodnienia?

Badacze Google sugerują, że ‘[n]iezgodności między annotatorami mogą zawierać cenne niuanse dotyczące zadania’. Artykuł proponuje użycie metadanych w zbiorach danych, które odzwierciedlają i kontekstualizują spory.

Jednakże, trudno zobaczyć, jak taka kontekstowa warstwa danych mogłaby kiedykolwiek doprowadzić do porównywalnych wskaźników, dostosować się do wymagań ustalonych testów standardowych lub wesprzeć jakiekolwiek ostateczne wyniki — poza nierzeczywistym scenariuszem przyjęcia tej samej grupy badaczy w następujących pracach.

Kuracja Puli Annotatorów

To wszystko zakłada, że istnieje nawet budżet w projekcie badawczym dla wielu anotacji, które doprowadzą do głosowania konsensusu. W wielu przypadkach badacze próbują “kuracji” puli anotatorów taniej, określając cechy, które powinni posiadać pracownicy, takie jak położenie geograficzne, płeć lub inne czynniki kulturowe, wymieniając pluralizm na szczegółowość.

Artykuł Google utrzymuje, że sposób naprzód z tych wyzwań może polegać na ustanowieniu rozszerzonych ram komunikacji z annotatorami, podobnych do minimalnych komunikacji, które aplikacja Uber ułatwia między kierowcą a pasażerem.

Taka staranna uwaga na annotatorów byłaby, naturalnie, przeszkodą dla hyperskalowego outsourcingu anotacji, skutkując albo bardziej ograniczonymi i niskowolumenowymi zbiorami danych, które mają lepsze uzasadnienie dla swoich wyników, albo “pochłoniętą” oceną annotatorów zaangażowanych, uzyskując ograniczone informacje o nich i charakteryzując ich jako “nadających się do zadania” na podstawie zbyt małej ilości informacji.

To jest, jeśli annotatorzy są szczerzy.

‘Ludzie Grzeczni’ w Etykietowaniu Zbiorów Danych

Z dostępną siłą roboczą, która jest niedopłacana, pod surową konkurencją o dostępne zadania, i zdepresjonowaną przez słabe perspektywy kariery, annotatorzy są motywowani do szybkiego dostarczenia “poprawnej” odpowiedzi i przejścia do następnego mini-zadania.

Jeśli “poprawna” odpowiedź jest czymś bardziej skomplikowanym niż Ma kot/Brak kota, artykuł Syracuse utrzymuje, że pracownik będzie próbował dedukować “akceptowalną” odpowiedź na podstawie treści i kontekstu pytania*:

‘Oba rozprzestrzenianie się alternatywnych koncepcji i powszechne używanie uproszczonych metod anotacji są prawdopodobnie utrudniające postępy w badaniach nad mową nienawiści w sieci. Na przykład, Ross i in. znaleźli, że pokazywanie definicji Twittera dotyczącej zachowania nienawiści annotatorom powodowało, że częściowo wyrównywali swoje opinie z definicją. To wyrównanie skutkowało bardzo niską niezawodnością anotacji.’

 

* Moja konwersja cytatów wewnętrznych artykułu na hiperłącza.

Opublikowano 13 grudnia 2021 – Zaktualizowano 18 grudnia 2021: Dodano tagi

Pisarz na temat uczenia maszynowego, specjalista ds. syntezowania obrazów ludzi. Były kierownik treści badawczych w Metaphysic.ai.