Sztuczna inteligencja

Wady Amazon Mechanical Turk mogą zagrażać systemom generacji języka naturalnego

Published September 16, 2021

Updated April 28, 2026

Martin Anderson

Nowe badanie przeprowadzone przez Uniwersytet Massachusetts Amherst zestawiło nauczycieli angielskiego z pracownikami crowdsourcingowymi z Amazon Mechanical Turk w ocenie wyników systemów generacji języka naturalnego (NLG), dochodząc do wniosku, że luźne standardy i “gry” z cenionymi zadaniami wśród pracowników AMT mogą utrudniać rozwój sektora.

Raport dochodzi do szeregu krytycznych wniosków dotyczących stopnia, w jakim “przemysłowa” tania outsourcing otwartych zadań oceny NLG może prowadzić do gorszych wyników i algorytmów w tym sektorze.

Badacze również skompilowali listę 45 prac na temat otwartej generacji tekstu, w których badania wykorzystywały AMT, i stwierdzili, że “ogromna większość” nie zgłaszała krytycznych szczegółów dotyczących wykorzystania usługi crowd AMT, co utrudniało odtworzenie wyników prac.

Praca w warunkach podobnych do sweat-shop

Raport krytykuje zarówno warunki pracy w Amazon Mechanical Turk, jak i (prawdopodobnie ograniczone budżetem) projekty akademickie, które nadają AMT dodatkową wiarygodność, używając (i cytując) ją jako ważne i spójne źródło badań. Autorzy zauważają:

‘Chociaż AMT jest wygodnym i tanim rozwiązaniem, obserwujemy, że wysoka zmienność między pracownikami, słaba kalibracja i wymagające zadania poznawczo mogą prowadzić badaczy do wyciągania mylących wniosków naukowych (np. że tekst napisany przez człowieka jest “gorszy” niż GPT-2)’

Raport obwinia system, a nie graczy, zauważając:

‘Pracownicy są często niedopłacani za swoją pracę, co szkodzi jakości badań oraz, co ważniejsze, możliwości zarobkowania przez tych pracowników’

Praca badawcza, zatytułowana Zagrożenia związane z wykorzystaniem Mechanical Turk do oceny otwartej generacji tekstu, dochodzi do wniosku, że “eksperci” tacy jak nauczyciele języka i lingwiści powinni być używani do oceny otwartych sztucznych treści NLG, nawet jeśli AMT jest tańsze.

Zadania testowe

Porównując wyniki AMT z mniej ograniczonymi czasowo, ekspertami czytelnikami, badacze wydali 144 dolary na usługi AMT użyte w testach porównawczych (chociaż znacznie więcej zostało wydane na “nienadające się do użycia” wyników – patrz poniżej), wymagając od losowych “Turków”, aby ocenili jeden z 200 tekstów, podzielonych na treści tekstowe stworzone przez człowieka i sztucznie wygenerowane.

Zlecenie profesjonalnym nauczycielom tej samej pracy kosztowało 187,50 dolarów, a potwierdzenie ich lepszych wyników (w porównaniu z pracownikami AMT) przez zatrudnienie freelancerów z Upwork kosztowało dodatkowe 262,50 dolarów.

Każde zadanie składało się z czterech kryteriów oceny: gramatyka (‘Jak poprawna gramatycznie jest treść tekstu?’); spójność (‘Jak dobrze zdania w tekście pasują do siebie?’); lubianie (‘Jak przyjemnie czyta się ten tekst?’); i odpowiedniość (‘Jak istotny jest ten tekst w stosunku do podanego tematu?’).

Generowanie tekstów

Aby uzyskać materiał NLG do testów, badacze wykorzystali zestaw danych Facebook AI Research z 2018 roku Hierarchical Neural Story Generation zestaw danych, który składa się z 303 358 historii w języku angielskim, napisanych przez użytkowników popularnego (15 milionów+ użytkowników) r/WritingPrompts subreddit, gdzie historie użytkowników są “zasiane” przez pojedyncze zdania “wskazówek” w podobny sposób do obecnych praktyk w generowaniu obrazu z tekstu – i oczywiście w otwartej generacji języka naturalnego systemach.

200 wskazówek z zestawu danych zostało losowo wybranych i przekazanych przez model GPT-2 o średniej wielkości, używając biblioteki Hugging-Face Transformers biblioteki. W ten sposób uzyskano dwa zestawy wyników z tych samych wskazówek: eseje dyskursywne napisane przez użytkowników Reddit i teksty wygenerowane przez GPT-2.

Aby uniknąć sytuacji, w której ci sami pracownicy AMT oceniają ten sam tekst wielokrotnie, od każdego pracownika AMT żądano trzech ocen na przykład. Wraz z eksperymentami dotyczącymi umiejętności językowych pracowników (patrz koniec artykułu) i wykluczaniem wyników od pracowników o niskim wysiłku (patrz “Krótki czas” poniżej), zwiększyło to całkowity wydatek na AMT do około 1 500 dolarów.

Aby stworzyć równą sytuację, wszystkie testy przeprowadzono w dni robocze między 11:00 a 11:30 czasu PST.

Wyniki i wnioski

Rozległe badanie obejmuje wiele tematów, ale najważniejsze punkty to:

Krótki czas

Praca badawcza wykazała, że oficjalny czas zadania raportowany przez Amazon, wynoszący średnio 360 sekund, w rzeczywistości wynosił tylko 22 sekundy, a mediana czasu pracy wynosiła tylko 13 sekund – jedną czwartą czasu, jaki potrzebował najszybszy nauczyciel angielskiego, aby powtórzyć zadanie.

Z dnia 2. badania: poszczególni pracownicy (na pomarańczowo) spędzali znacznie mniej czasu na ocenę każdego zadania niż lepiej opłacani nauczyciele, a (później) jeszcze lepiej opłacani kontrahenci z Upwork. Źródło: https://arxiv.org/pdf/2109.06835.pdf

Ponieważ AMT nie nakłada ograniczeń na liczba zadań, które może wykonać jeden pracownik, pojawiły się “gwiazdy” AMT, które mają (opłacalną) reputację za wykonanie dużej liczby zadań na eksperyment. Aby zrekompensować zaakceptowane zadania przez tego samego pracownika, badacze zmierzyli czas między kolejno przesłanymi zadaniami, porównując czas rozpoczęcia i zakończenia każdego zadania. W ten sposób niedobór między raportowanym WorkTimeInSeconds a rzeczywistym czasem spędzonym na zadaniu stał się widoczny.

Ponieważ takiej pracy nie można wykonać w tak krótkim czasie, badacze musieli zrekompensować to:

‘Ponieważ nie można starannie przeczytać tekstu o długości akapitu i ocenić wszystkie cztery właściwości w czasie krótszym niż 13 sekund, mierzymy wpływ na średnie oceny, gdy filtrujemy pracowników, którzy spędzają zbyt mało czasu na zadaniu… Konkretnie, usuwamy oceny od pracowników, których mediana czasu jest poniżej 40 sekund (co jest niską poprzeczką), i stwierdzamy, że średnio około 42% naszych ocen jest usuwanych (waha się od 20% do 72% we wszystkich eksperymentach)’

Praca twierdzi, że błędnie raportowany rzeczywisty czas pracy w AMT jest “poważnym problemem”, który jest zwykle pomijany przez badaczy korzystających z usługi.

Potrzeba instrukcji

Wyniki sugerują ponadto, że pracownicy AMT nie mogą niezawodnie odróżnić tekstu napisanego przez człowieka od tekstu napisanego przez maszynę, chyba że zobaczą oba teksty obok siebie, co skutecznie podważyłoby typowy scenariusz oceny (gdzie czytelnik powinien być w stanie wydać ocenę na podstawie jednego przykładu tekstu, “rzeczywistego” lub sztucznie wygenerowanego).

Akceptacja niskiej jakości sztucznego tekstu

Pracownicy AMT konsekwentnie oceniali niskiej jakości sztuczny tekst oparty na GPT na równi z lepszej jakości, spójnym tekstem napisanym przez ludzi, w przeciwieństwie do nauczycieli angielskiego, którzy łatwo mogli odróżnić różnicę w jakości.

Brak czasu na przygotowanie, zero kontekstu

Wprowadzenie w odpowiednią atmosferę do tak abstrakcyjnego zadania, jak ocena autentyczności, nie przychodzi naturalnie; nauczyciele angielskiego potrzebowali 20 zadań, aby skalibrować swoje wrażliwość na środowisko oceny, podczas gdy pracownicy AMT zwykle nie mają “czasu orientacji” w ogóle, co obniża jakość ich danych.

Gra w system

Raport utrzymuje, że całkowity czas, jaki pracownicy AMT spędzają na poszczególnych zadaniach, jest zawyżany przez pracowników, którzy akceptują wiele zadań jednocześnie i przechodzą przez zadania w różnych zakładkach przeglądarki, zamiast koncentrować się na jednym zadaniu przez zarejestrowany czas trwania zadania.

Kraj pochodzenia jest ważny

Domyślne ustawienia AMT nie filtrowania pracowników według kraju pochodzenia, a raport zauważa wcześniejsze badanie, wskazujące, że pracownicy AMT używają VPN, aby obejść ograniczenia geograficzne, umożliwiając nie-native speakerom przedstawianie się jako native speakerzy (w systemie, który, być może dość naiwnie, utożsamia język ojczysty pracownika z jego położeniem geograficznym na podstawie IP).

Zatem badacze ponownie przeprowadzili testy oceny na AMT z filtrami, ograniczając potencjalnych wykonawców do nie-angielskojęzycznych krajów, stwierdzając, że ‘pracownicy z nie-angielskojęzycznych krajów oceniali spójność, odpowiedniość i gramatykę… znacznie niższą niż identycznie wykwalifikowani pracownicy z angielskojęzycznych krajów’.

Raport kończy się słowami:

‘[Eksperci] tacy jak lingwiści lub nauczyciele języka powinni być używani, gdy tylko jest to możliwe, ponieważ już zostali przeszkoleni do oceny napisanego tekstu, i nie jest to znacznie droższe…’

Opublikowane 16 września 2021 – Zaktualizowane 18 grudnia 2021: Dodano tagi