Tekoäly
‘Näkymätön’, Usein Epätyytyväinen Työvoima, Joka Päättää AI:n Tulevaisuudesta

Kaksi uutta raporttia, mukaan lukien Google Researchin johtama tutkimus, ilmaisevat huolen siitä, että nykyinen trendi luottaa halpaan ja usein valtaistuneeseen joukkotyöntekijöiden joukkoon luomaan perustotuuksia koneoppimisjärjestelmiin, voi johtaa merkittäviin seurauksiin AI:n kehityksessä.
Tutkimuksessa todetaan, että joukkotyöntekijöiden omat ennakkoluulot voivat muuttua osaksi AI-järjestelmiä, joiden perustotuudet perustuvat heidän vastauksiinsa; laajat epäoikeudenmukaiset työprakтикset (mukaan lukien Yhdysvalloissa) joukkotyöalustoilla voivat heikentää vastausten laatua; ja “konsensus”-järjestelmä (joka on käytännössä “mini-vaali” jollekin perustotodistukselle, joka vaikuttaa AI-järjestelmiin), joka ratkaisee riitatilanteita, voi todellakin hylätä parhaat ja/tai tietävimmät vastaukset.
Tämä on huono uutinen; entistä huonompi uutinen on, että lähes kaikki korjaavat toimenpiteet ovat kalliita, aikaa vieviä tai molempia.
Turvatieto, Sattumanvarainen Hylkäys ja Vihastus
Ensimmäinen tutkimus, jota johtavat viisi Google-tutkijaa, on nimeltään Kenen Perustotuus? Yksilöllisten ja Kollektiivisten Identiteettien Huomioon Ottaminen Dataset-merkinnöissä; toinen tutkimus, jota tekevät kaksi Syracuse-yliopiston tutkijaa New Yorkissa, on nimeltään Väkivallan Arvostelemisen Alkuperä ja Arvo: Tapauskuvaus Yksilöllisistä Eroista Vihamielisessä Puhetilassa.
Google-tutkimus toteaa, että joukkotyöntekijät – joiden arviot usein muodostavat määrittävän perustan koneoppimisjärjestelmille, jotka voivat lopulta vaikuttaa elämäämme – toimivat usein monien rajoitusten alaisina, jotka voivat vaikuttaa siihen, miten he vastaavat kokeellisiin tehtäviin.
Esimerkiksi Amazon Mechanical Turk -palvelun nykyiset käytännöt sallivat pyynnön esittäjien (tehtävänantajien) hylätä annotaattorin työn ilman vastuuta*:
‘[S]uurin osa joukkotyöntekijöistä (94%) on kokenut työn hylkäystä tai eivät ole saaneet palkkaa. Kuitenkin pyynnön esittäjät säilyttävät täydellisen oikeuden saamaansa dataan riippumatta siitä, hyväksyvätkö he sen vai eivät; Roberts (2016) kuvailee tämän järjestelmän “palkkavarkauden” mahdollistajana.
‘Lisäksi työn hylkäys ja palkan pidättäminen on kivuliasta, koska hylkäykset johtuvat usein epäselvistä ohjeista ja puuttuvista merkityllisistä palautekanavista; monet joukkotyöntekijät ilmoittavat, että huono viestintä vaikuttaa heidän työhönsä negatiivisesti.’
Tutkijat suosittelevat, että tutkijat, jotka käyttävät ulkoistettuja palveluita datasettien kehittämiseen, tulisi ottaa huomioon, miten joukkotyöalusta kohtelee työntekijöitään. He toteavat myös, että Yhdysvalloissa joukkotyöntekijät luokitellaan “itsenäisiksi urakoitsijoiksi”, joten työ on sääntelemätöntä eikä kuulu vähimmäispalkkalakiin.
Asia Määrää
Tutkimus myös arvostelee ad hoc -globaalin työvoiman käyttöä merkintätehtävissä ilman annotaattorin taustan huomioon ottamista.
Kun budjetti sallii, on yleistä tutkijoille, jotka käyttävat AMT:ä ja muita joukkotyöalustoja, antaa sama tehtävä neljälle annotoijalle ja noudattaa “enemmistöä” tuloksissa.
Tutkimus väittää, että kontekstuaalinen kokemus on huomattavasti aliarvostettu. Esimerkiksi, jos tehtäväkoskaan liittyy sukupuolielämään jaetaan satunnaisesti kolmelle suostuvalle miehelle (ikä 18-57) ja yhdelle vastustavalle naiselle (ikä 29), miesten päätös voittaa, paitsi harvoissa tapauksissa, joissa tutkijat kiinnittävät huomiota annotaattorien pätevyyteen.
Vastaavasti, jos kysymys Chicagoon liittyvistä jengien käyttäytymisestä jaetaan maaseutu-Yhdysvaltain naiselle (ikä 36), Chicago-residenttimiehelle (ikä 42) ja kahdelle annotoijalle Intiasta ja Tanskasta, henkilö, joka todennäköisesti on eniten vaikuttunut asiasta (Chicago-mies), omistaa vain neljänneksen osuuden lopputuloksesta, standardoitujen ulkoistusjärjestelyjen mukaan.
Tutkijat toteavat:
‘[K]äsite “yksi totuus” joukkotyöntekijöiden vastauksissa on myytti; annotaattorien välisen erimielisyyden, jota usein pidetään negatiivisena, voi tosiasiassa tarjota arvokkaan signaalin. Toiseksi, koska monet joukkotyöntekijäryhmät ovat sosio-demograafisesti vinoutuneita, on seurauksia siitä, mitkä väestöryhmät ovat edustettuina dataseteissä ja mitkä väestöryhmät kohtaavat joukkotyön haasteita.
‘Annotaattorien demograafisten vinoutumien huomioon ottaminen on kriittistä datasettien kontekstualisoinnissa ja vastuullisessa lopputuloksessa. Lyhyesti sanottuna, on arvoa annotaattorien sosio-kulttuurisen taustan tunnustamisessa — sekä datan laadun että yhteiskunnallisen vaikutuksen näkökulmasta.’
Ei ‘Neutraaleja’ Mielipiteitä Polttavista Aiheista
Jopa siinä tapauksessa, että neljän annotaattorin mielipiteet eivät ole vinoutuneita demograafisesti tai jonkin muun mittarin mukaan, Google-tutkimus ilmaisee huolen siitä, että tutkijat eivät ottaa huomioon annotaattorien elämänkokemuksia tai filosofista asennetta:
‘Vaikka jotkut tehtävät asettavat objektiivisia kysymyksiä oikealla vastauksella (onko kuvassa ihmiskasvo?), usein datasetit pyrkivät kaappaamaan tuomion suhteellisen subjektiivisista tehtävistä, joilla ei ole yleisesti hyväksyttyä vastausta (onko tämä teksti loukkaava?). On tärkeää olla tietoinen siitä, kannattaako nojata annotaattorien subjektiivisiin tuomioihin.’
Syracuse-tutkimuksessa todetaan, että hatuheittotutkimuksessa on huomattavasti kategorisempia kysymyksiä, kuten Onko tässä valokuvassa kissa? verrattuna siihen, että pyydettiin joukkotyöntekijää kertomaan, onko jokin lause “myrkyllinen”:
‘Ottaen huomioon sosiaalisen todellisuuden monimuotoisuuden, ihmisten käsitykset myrkyllisyydestä vaihtelevat merkittävästi. Heidän myrkyllisten sisältöjen merkintänsä perustuvat heidän omiin käsityksiinsä.’
Tutkijat toteavat, että persoonallisuus ja ikä vaikuttavat merkittävästi vihamielisen puheen dimensionaalisessa merkinnässä, ja päättelevät:
‘Nämä tulokset osoittavat, että pyrkimykset saavuttaa annotaattorien yhdenmukaisuus eri taustoista ja persoonallisuudesta hatuheittotutkimuksessa saattavat ei koskaan täysin onnistua.’
Tuomari Saattaa Olla Myös Vinoutunut
Tämä subjektiivisuus on todennäköisesti iteroituvaa myös ylöspäin, Syracuse-tutkimuksen mukaan, joka väittää, että manuaalinen puuttuminen (tai automaattinen käytäntö, joka myös on päättänyt ihminen) määrää “voittajan” konsensusäänestyksessä, tulisi myös olla altis tarkastelulle.
Vertaamalla prosessia foorumin moderaatioon, tutkijat toteavat*:
‘[Y]hteisön moderaattorit voivat päättää sekä postien että käyttäjien kohtalosta yhteisössään esittämällä tai piilottelemalla postauksia, sekä kunnioittamalla, hävittämällä tai bannaamalla käyttäjiä. Moderaattorien päätökset vaikuttavat sisältöön, joka toimitetaan yhteisön jäsenille ja yleisölle ja laajemmin myös yhteisön keskustelun kokemukseen.
‘Olettaen, että ihmismoderaattori on yhteisön jäsen, jolla on demograafinen homogeenisuus muiden yhteisön jäsenten kanssa, on mahdollista, että heidän käyttämänsä mieliala heidän arvioidessaan sisältöä vastaa muiden yhteisön jäsenten mielialaa.’
Tämä antaa joitakin vihjeitä siitä, miksi Syracuse-tutkijat ovat tulleet sellaiseen epätoivoon hatuheittomerkinntöjen tulevaisuudesta; implikaatio on, että käytännöt ja tuomiot erimielisistä joukkotyöntekijöiden mielipiteistä eivät voi vain soveltaa “hyväksyttäviä” periaatteita, joita ei ole määritelty (tai eivät ole sovellettavissa, vaikka ne olisivat olemassa).
Ihmiset, jotka tekevät päätökset (joukkotyöntekijät), ovat vinoutuneita, ja he olisivat hyödyttömiä tällaisiin tehtäviin, jos he eivät olisi vinoutuneita, koska tehtävänä on antaa arvovälinettä; ihmiset, jotka ratkaisevat riitatilanteita joukkotyön tuloksissa, tekevät myös arvovälinettä määritellessään käytäntöjä riidoissa.
Tutkijat ehdottavat, että ‘[Erimielisyydet annotaattorien välillä voivat sisältää arvokkaita nuansseja tehtävistä’. Tutkimus esittää metadataa, joka heijastaa ja kontekstualisoi riitoja dataseteissä.
Kuitenkin on vaikea nähdä, miten tällainen kontekstisidonnainen datan kerros voisi johtaa samanlaisiin mittareihin, sopeutua vakiintuneiden standarditestiin tai tukea mihinkään lopullisiin tuloksiin – paitsi epärealistisessa skenaariossa, jossa otetaan käyttöön sama tutkijaryhmä seuraavissa töissä.
Annotaattoripoolin Kuraattori
Kaikki tämä olettaa, että tutkimushankkeessa on budjetti useille annotaatioille, jotka johtavat konsensusäänestykseen. Monissa tapauksissa tutkijat yrittävät “kuratoria” ulkoistettua annotaattoripoolia edullisemmin määrittelemällä piirteitä, joita työntekijöiden tulisi omata, kuten maantieteellinen sijainti, sukupuoli tai muut kulttuuriset tekijät, kauppaa monimuotoisuuden ja tarkkuuden välillä.
Google-tutkimus väittää, että eteenpäin johtava tie näistä haasteista voisi olla laajentaa viestintäkehyksiä annotaattoreiden kanssa, samalla tavalla kuin Uber-sovellus mahdollistaa viestinnän kuljettajan ja matkustajan välillä.
Tällainen huolellinen annotaattorien huomioon ottaminen tulisi luonnollisesti olemaan este hyperskaalaiselle annotaatioulkoistukselle, johtaen joko rajoitettuihin ja matalavolyymisiin datasetteihin, joilla on parempi perustelu tuloksilleen, tai “kiireiseen” annotaattorien arviointiin, jossa saadaan vain rajoitettu tieto heistä, ja luokitellaan heidät “tehtävään sopiviksi” liian vähäisen tiedon perusteella.
Jos annotaattorit ovat rehellisiä.
‘Ihmisten Miellyttäjät’ Ulkoistetussa Dataset-merkinnässä
Alidadulla työvoimalla, joka on alipalkattu, joka on ankaruuden alla saatavilla oleville tehtäville, ja joka on masentunut niukkojen uranäkymien vuoksi, annotaattorit ovat motivoituneita antamaan “oikean” vastauksen nopeasti ja siirtymään seuraavaan pikkutehtävään.
Jos “oikea vastaus” on mitään muuta kuin Onko kissa/Ei ole kissa, Syracuse-tutkimus väittää, että työntekijä yrittää päätellä “hyväksytyn” vastauksen kysymyksen sisällön ja kontekstin perusteella*:
‘Simplististen annotaatiomenetelmien laaja käyttö ja vaihtoehtoisten käsitteiden leviäminen ovat todennäköisesti hidastamassa vihamielisen puheen tutkimuksen edistymistä. Esimerkiksi Ross ja muut löysivät, että Twitterin vihamielisen käyttäytymisen määritelmän esittäminen annotaattoreille sai heidät osittain sopeamaan omat mielipiteensä määritelmään. Tämä sopeutuminen johti erittäin alhaiseen annotaatioiden väliseen luotettavuuteen.’
* Minun muunnos tutkimuksen sisäisistä viittauksista hyperlinkkeihin.
Julkaistu 13. joulukuuta 2021 – Päivitetty 18. joulukuuta 2021: Lisätty avain sanat












