Kontakt z nami

Artificial Intelligence

Wady Amazon Mechanical Turk mogą zagrozić systemom generowania języka naturalnego

mm

Nowe badanie przeprowadzone na Uniwersytecie Massachusetts Amherst porównuje nauczycieli języka angielskiego z pracownikami korzystającymi z crowdsourcingu Amazon Mechanical Turk w ocenie wyników generowania języka naturalnego (NLG), stwierdzając, że luźne standardy i „granie” w cenne zadania wśród pracowników AMT mogą utrudniać rozwój sektora.

W raporcie wysunięto szereg potępiających wniosków dotyczących zakresu, w jakim tani outsourcing zadań związanych z oceną NLG na skalę przemysłową na skalę przemysłową może prowadzić do gorszych wyników i gorszych algorytmów w tym sektorze.

Badacze sporządzili także listę 45 artykułów na temat generowania tekstu otwartego, w których w badaniu wykorzystano technologię AMT, i odkryli, że „zdecydowana większość” nie podała krytycznych szczegółów dotyczących korzystania z usługi społecznościowej Amazona, co utrudnia odtworzenie ustalenia gazet.

Praca w Sweatshopie

W raporcie krytycznie ocenia się zarówno prężny charakter Amazon Mechanical Turk, jak i (prawdopodobnie ograniczone budżetowo) projekty akademickie, które dodają AMT dodatkowej wiarygodności, wykorzystując (i cytując) ją jako ważne i spójne źródło badawcze. Autorzy zauważają:

„Chociaż AMT jest wygodnym i niedrogim rozwiązaniem, obserwujemy, że duże różnice między pracownikami, słaba kalibracja i zadania wymagające poznawczo mogą skłonić badaczy do wyciągnięcia mylących wniosków naukowych (np., że tekst napisany przez człowieka jest „gorszy” niż tekst GPT-2 ).

W raporcie obwinia się grę, a nie graczy, a badacze zaobserwowali:

„Pracownicy [crowdowi] często otrzymują zbyt niskie wynagrodzenie za swoją pracę, co szkodzi zarówno jakości badań, jak i, co ważniejsze, zdolności tych pracowników do zarabiania na życie na odpowiednim poziomie”.

papier, pod tytulem Niebezpieczeństwa związane z używaniem Mechanical Turk do oceny generowania tekstu otwartego, stwierdza ponadto, że do oceny sztucznych treści NLG o charakterze otwartym, nawet jeśli AMT jest tańsze, należy wykorzystywać „ekspertów oceniających”, takich jak nauczyciele języków i lingwiści.

Zadania testowe

Porównując wydajność AMT z mniej ograniczonymi czasowo, doświadczonymi czytelnikami, badacze wydali 144 dolarów na usługi AMT faktycznie wykorzystane w testach porównawczych (chociaż znacznie więcej wydano na wyniki „nieużyteczne” – patrz poniżej), wymagające losowych „Turków” do oceny jednego z 200 tekstów, podzielonych na treść tekstową stworzoną przez człowieka i tekst wygenerowany sztucznie.

Zlecanie zawodowym nauczycielom tej samej pracy kosztowało 187.50 dolarów, a potwierdzenie ich doskonałych wyników (w porównaniu z pracownikami AMT) poprzez zatrudnienie freelancerów Upwork do powielenia zadań kosztowało dodatkowe 262.50 dolarów.

Każde zadanie składało się z czterech kryteriów oceniających: gramatyka („Jak poprawny gramatycznie jest tekst fragmentu opowieści?”); spójność („Jak dobrze zdania we fragmencie historii pasują do siebie?”); sympatia („Jak przyjemny jest dla ciebie ten fragment historii?”); i trafność („Jak istotny jest fragment historii w kontekście podpowiedzi?”).

Generowanie tekstów

Aby pozyskać materiał NLG do testów, badacze wykorzystali raport Facebook AI Research z 2018 r Hierarchiczne generowanie opowieści neuronowych zestaw danych, który zawiera 303,358 15 opowiadań w języku angielskim napisanych przez użytkowników w bardzo popularnych (ponad XNUMX mln użytkowników) r/pisaniepodpowiedzi subreddit, w którym historie subskrybentów są „zaszczepiane” za pomocą jednozdaniowych „podpowiedzi” w sposób podobny do obecnych praktyk w generowanie tekstu na obraz – i oczywiście w otwartym procesie generowania języka naturalnego systemy.

Wybrano losowo 200 podpowiedzi ze zbioru danych i przepuszczono je przez średniej wielkości model GPT-2 przy użyciu transformatorów Hugging-Face biblioteka. W ten sposób uzyskano dwa zestawy wyników na podstawie tych samych podpowiedzi: eseje dyskursywne napisane przez ludzi od użytkowników Reddita i teksty wygenerowane za pomocą GPT-2.

Aby zapobiec wielokrotnemu ocenianiu tej samej historii przez tych samych pracowników AMT, poproszono o wydanie trzech ocen pracowników AMT dla każdego przykładu. Razem z eksperymentami dotyczącymi znajomości języka angielskiego przez pracowników (patrz koniec artykułu) i pominięciem wyników uzyskanych od pracowników wykonujących niewielkie wysiłki (patrz „Krótki czas pracy” poniżej), zwiększyło to całkowite wydatki na AMT do około 1,500 dolarów.

Aby zapewnić równe szanse, wszystkie testy przeprowadzono w dni powszednie w godzinach 11.00:11–30:XNUMX czasu PST.

Wyniki i wnioski

To obszerne badanie obejmuje wiele zagadnień, ale najważniejsze punkty są następujące:

Krótki czas

W artykule stwierdzono, że oficjalny średni czas pracy podany przez Amazon wynoszący 360 sekund sprowadza się do rzeczywistego czasu pracy wynoszącego zaledwie 22 sekundy, a średni czas pracy wynoszący tylko 13 sekund – jedną czwartą czasu zajmowanego przez najszybszy Nauczyciel języka angielskiego powtarzający zadanie.

Od drugiego dnia badania: poszczególni pracownicy (na pomarańczowo) spędzili znacznie mniej czasu na ocenie każdego zadania niż lepiej opłacani nauczyciele i (później) jeszcze lepiej opłacani wykonawcy Upwork. Źródło: https://arxiv.org/pdf/2.pdf

Od drugiego dnia badania: poszczególni pracownicy (na pomarańczowo) spędzili znacznie mniej czasu na ocenie każdego zadania niż lepiej opłacani nauczyciele i (później) jeszcze lepiej opłacani wykonawcy Upwork. Źródło: https://arxiv.org/pdf/2109.06835.pdf

Ponieważ AMT nie nakłada żadnych ograniczeń na zadania związane z ludzką inteligencją (HIT), których może się podjąć indywidualny pracownik, wyłonili się „wielcy hitowcy” AMT, cieszący się (dochodową) reputacją dzięki wykonaniu dużej liczby zadań w jednym eksperymencie. Aby zrekompensować przyjęte trafienia tego samego pracownika, badacze zmierzyli czas pomiędzy kolejnymi przesłanymi HITami, porównując czas rozpoczęcia i zakończenia każdego HIT. W ten sposób zgłoszono różnicę między raportami AMT Czas pracy w sekundach i skupiono się na rzeczywistym czasie spędzonym na zadaniu.

Ponieważ takich prac nie można wykonać w tak skróconych ramach czasowych, badacze musieli to zrekompensować:

„Ponieważ nie da się uważnie przeczytać długiego akapitu i ocenić wszystkich czterech właściwości w zaledwie 13 sekund, mierzymy wpływ na średnie oceny, odfiltrowując pracowników, którzy spędzają zbyt mało czasu na jednym HIT… W szczególności usuwamy oceny z pracowników, których mediana czasu pracy wynosi poniżej 40 lat (co stanowi dolną poprzeczkę), i okazuje się, że średnio około 42% naszych ocen zostało odfiltrowanych (wahając się od 20% do 72% we wszystkich eksperymentach).

W artykule stwierdzono, że błędnie podany rzeczywisty czas pracy w AMT to „główny problem”, zazwyczaj pomijany przez badaczy korzystających z usług.

Konieczne trzymanie się za rękę

Wyniki sugerują ponadto, że pracownicy AMT nie są w stanie wiarygodnie rozróżnić tekstu napisanego przez człowieka od tekstu napisanego przez maszynę, chyba że zobaczą oba teksty obok siebie, co skutecznie zagroziłoby typowemu scenariuszowi ewaluacji (w którym czytelnik powinien być w stanie dokonać oceny na podstawie pojedynczej próbki tekstu, „prawdziwego” lub wygenerowanego sztucznie).

Swobodna akceptacja sztucznego tekstu o niskiej jakości

Pracownicy AMT konsekwentnie oceniali niskiej jakości sztuczny tekst oparty na GPT na równi z wyższej jakości, spójnym tekstem napisanym przez ludzi, w przeciwieństwie do nauczycieli języka angielskiego, którzy z łatwością potrafili dostrzec różnicę w jakości.

Bez czasu na przygotowanie, zerowy kontekst

Przyjęcie prawidłowego sposobu myślenia w przypadku tak abstrakcyjnego zadania, jak ocena autentyczności, nie przychodzi naturalnie; Nauczyciele języka angielskiego potrzebowali 20 zadań, aby skalibrować swoją wrażliwość na środowisko ewaluacyjne, podczas gdy pracownicy AMT zazwyczaj nie mają w ogóle „czasu na orientację”, co obniża jakość ich wkładu.

Granie w system

W raporcie utrzymuje się, że całkowity czas, jaki pracownicy AMT spędzają na poszczególnych zadaniach, jest zawyżany przez pracowników, którzy przyjmują wiele zadań jednocześnie i przeglądają zadania na różnych kartach swoich przeglądarek, zamiast koncentrować się na jednym zadaniu przez zarejestrowany czas trwania zadania.

Kraj pochodzenia jest ważny

Domyślne ustawienia AMT nie filtrują pracowników według kraju pochodzenia, jak zauważa raport wcześniejsza praca wskazując, że pracownicy AMT korzystają z sieci VPN w celu obejścia ograniczeń geograficznych, umożliwiając obcokrajowcom prezentowanie się jako rodzimi użytkownicy języka angielskiego (w systemie, który – być może raczej naiwnie – utożsamia język ojczysty pracownika z jego położeniem geograficznym opartym na adresie IP).

Dlatego badacze ponownie przeprowadzili testy ewaluacyjne AMT z filtrami ograniczającymi potencjalnych chętnych nie-Kraje anglojęzyczne, stwierdzając to „pracownicy z krajów nieanglojęzycznych ocenili spójność, trafność i gramatykę… znacznie niżej niż pracownicy z krajów anglojęzycznych o identycznych kwalifikacjach”.

Raport podsumowuje:

„W miarę możliwości należy korzystać z usług oceniających [ekspertów], takich jak lingwiści lub nauczyciele języków, ponieważ zostali już przeszkoleni w zakresie oceny tekstu pisanego, a nie jest to dużo droższe…”.

 

Opublikowano 16 września 2021 r - Aktualizacja 18 grudnia 2021 r.: Dodano tagi

Autor tekstów o uczeniu maszynowym, specjalista domenowy w syntezie obrazów ludzkich. Były szef treści badawczych w Metaphysic.ai.
Strona osobista: martinanderson.ai
Kontakt: [email chroniony]
Twitter: @manders_ai