Inteligjenca artificiale

Fuqia punëtore 'e padukshme', shpesh e pakënaqur që vendos për të ardhmen e AI

Përditësuar on Dhjetor 9, 2022

Dy raporte të reja, duke përfshirë një punim të udhëhequr nga Google Research, shprehin shqetësimin se tendenca aktuale për t'u mbështetur në një grup të lirë dhe shpesh të pafuqishëm të punëtorëve të rastësishëm të koncerteve globale për të krijuar të vërtetën tokësore për sistemet e mësimit të makinerive mund të ketë implikime të mëdha në rrjedhën e poshtme për AI.

Midis një sërë përfundimesh, studimi i Google zbulon se paragjykimet e vetë punonjësve të grumbullimit ka të ngjarë të përfshihen në sistemet e AI, të vërtetat bazë të të cilave do të bazohen në përgjigjet e tyre; se praktikat e përhapura të padrejta të punës (duke përfshirë në SHBA) në platformat e punës me njerëz ka të ngjarë të degradojnë cilësinë e përgjigjeve; dhe se sistemi i 'konsensusit' (efektivisht një 'mini-zgjedhje' për një pjesë të së vërtetës tokësore që do të ndikojë në sistemet e inteligjencës artificiale në rrjedhën e poshtme) i cili aktualisht zgjidh mosmarrëveshjet në fakt mund të hidhni tutje përgjigjet më të mira dhe/ose më të informuara.

Ky është lajmi i keq; Lajmi më i keq është se pothuajse të gjitha mjetet juridike janë të shtrenjta, kërkojnë kohë ose të dyja.

Pasiguria, Refuzimi i rastësishëm dhe inati

Parë letër, nga pesë studiues të Google, quhet E vërteta bazë e kujt? Kontabiliteti për identitetet individuale dhe kolektive në bazë të shënimit të grupit të të dhënave; i dytë, nga dy studiues në Universitetin e Syracuse në Nju Jork, quhet Origjina dhe vlera e mosmarrëveshjes midis etiketuesve të të dhënave: Një studim rasti i dallimeve individuale në shënimin e gjuhës së urrejtjes.

Gazeta e Google vë në dukje se punëtorët e turmës – vlerësimet e të cilëve shpesh formojnë bazën përcaktuese të sistemeve të mësimit të makinerive që mund të ndikojnë përfundimisht në jetën tonë – shpesh veprojnë nën një sërë kufizimesh që mund të ndikojnë në mënyrën se si ata u përgjigjen detyrave eksperimentale.

Për shembull, politikat aktuale të Amazon Mechanical Turk i lejojnë kërkuesit (ata që japin detyrat) të refuzojnë punën e një shënuesi pa përgjegjësi*:

'[Një] shumicë e madhe e punëtorëve të turmës (94%) kanë pasur punë që është refuzuar ose për të cilën nuk janë paguar. Megjithatë, kërkuesit ruajnë të drejta të plota mbi të dhënat që marrin pavarësisht nëse i pranojnë apo i refuzojnë ato; Roberts (2016) e përshkruan këtë sistem si një sistem që “mundëson vjedhjen e pagave”.

“Për më tepër, refuzimi i punës dhe mbajtja e pagës është e dhimbshme sepse refuzimet shpesh shkaktohen nga udhëzimet e paqarta dhe mungesa e kanaleve kuptimplotë të reagimit; shumë punëtorë të grumbullimit raportojnë se komunikimi i dobët ndikon negativisht në punën e tyre.'

Autorët rekomandojnë që studiuesit që përdorin shërbime të jashtme për të zhvilluar grupe të dhënash duhet të marrin në konsideratë se si një platformë crowdworking i trajton punëtorët e saj. Ata theksojnë më tej se në Shtetet e Bashkuara, punëtorët e grumbullimit klasifikohen si 'kontraktorë të pavarur', me punën për këtë arsye të parregulluar dhe të pambuluar nga paga minimale e mandatuar nga Akti i Standardeve të Drejta të Punës.

Konteksti ka rëndësi

Gazeta kritikon gjithashtu përdorimin e ad hoc punë globale për detyrat e shënimit, pa marrë parasysh sfondin e shënuesit.

Aty ku buxheti e lejon, është e zakonshme që studiuesit që përdorin AMT dhe platforma të ngjashme crowdwork t'u japin të njëjtën detyrë katër shënuesve dhe të respektojnë 'rregullin e shumicës' për rezultatet.

Përvoja kontekstuale, argumenton gazeta, është dukshëm e nënvlerësuar. Për shembull, nëse një pyetje detyre lidhet me seksizmin shpërndahet në mënyrë të rastësishme ndërmjet tre meshkujve dakord të moshës 18-57 vjeç dhe një femre kundërshtuese të moshës 29 vjeç, verdikti i meshkujve fiton, me përjashtim të rasteve relativisht të rralla kur studiuesit i kushtojnë vëmendje kualifikimeve të shënuesve të tyre.

Po kështu, nëse një pyetje në Sjellja e bandës në Çikago shpërndahet midis një gruaje rurale amerikane të moshës 36 vjeç, një mashkull banor të Çikagos 42 vjeç dhe dy shënuesve përkatësisht nga Bangalore dhe Danimarka, personi që ka të ngjarë të jetë më i prekur nga çështja (mashkulli i Çikagos) ka vetëm një të katërtën e pjesës në rezultat, në një konfigurimi standard i outsourcing.

Studiuesit deklarojnë:

Nocioni i "një të vërtetë" në përgjigjet e grumbullimit është një mit; mosmarrëveshja midis anotuesve, e cila shpesh shihet si negative, në fakt mund të japë një sinjal të vlefshëm. Së dyti, meqenëse shumë grupe annotuesish me burim të turmave janë socio-demografikisht të shtrembëruara, ka implikime për të cilat popullsitë përfaqësohen në grupet e të dhënave, si dhe cilat popullata përballen me sfidat e [crowdwork].

"Kontabilizimi për animet në demografinë e shënuesve është kritik për kontekstualizimin e grupeve të të dhënave dhe për të siguruar përdorim të përgjegjshëm në rrjedhën e poshtme. Shkurtimisht, ka vlerë në njohjen dhe llogaritjen e sfondit socio-kulturor të punonjësit - si nga këndvështrimi i cilësisë së të dhënave ashtu edhe nga ndikimi shoqëror.'

Nuk ka opinione 'neutrale' për temat e nxehta

Edhe aty ku mendimet e katër shënuesve nuk janë të shtrembëruara, qoftë demografikisht apo nga ndonjë metrikë tjetër, punimi i Google shpreh shqetësimin se studiuesit nuk po marrin parasysh përvojat e jetës apo disponimin filozofik të anotuesve:

“Ndërsa disa detyra priren të parashtrojnë pyetje objektive me një përgjigje të saktë (a ka një fytyrë njeriu në një imazh?), shpesh grupet e të dhënave synojnë të kapin gjykimin mbi detyrat relativisht subjektive pa përgjigje të saktë universale (a është fyese kjo pjesë e tekstit?). Është e rëndësishme të jesh i qëllimshëm nëse do të mbështetesh në gjykimet subjektive të anotuesve.'

Lidhur me qëllimin e tij specifik për të adresuar problemet në etiketimin e gjuhës së urrejtjes, gazeta e Sirakuzës vë në dukje se pyetjet më kategorike si p.sh. A ka një mace në këtë foto? janë dukshëm të ndryshme nga pyetja e një punonjësi të grumbullimit nëse një frazë është 'toksike':

“Duke marrë parasysh rrëmujën e realitetit social, perceptimet e njerëzve për toksicitetin ndryshojnë në mënyrë thelbësore. Etiketat e tyre të përmbajtjes toksike bazohen në perceptimet e tyre.'

Duke gjetur se personaliteti dhe mosha kanë një 'ndikim thelbësor' në etiketimin dimensional të gjuhës së urrejtjes, studiuesit e Sirakuzës përfundojnë:

"Këto gjetje sugjerojnë se përpjekjet për të siguruar konsistencën e shënimeve midis etiketuesve me prejardhje dhe personalitete të ndryshme për gjuhën e urrejtjes nuk mund të kenë kurrë sukses plotësisht."

Edhe gjyqtari mund të jetë i njëanshëm

Kjo mungesë objektiviteti ka të ngjarë të përsëritet edhe lart, sipas dokumentit të Syracuse, i cili argumenton se ndërhyrja manuale (ose politika e automatizuar, e vendosur gjithashtu nga një njeri) që përcakton 'fituesin' e votave të konsensusit duhet gjithashtu t'i nënshtrohet shqyrtimit. .

Duke e krahasuar procesin me moderimin e forumit, autorët deklarojnë*:

'Moderatorët e [një] komuniteti mund të vendosin fatin e postimeve dhe përdoruesve në komunitetin e tyre duke promovuar ose fshehur postimet, si dhe duke nderuar, turpëruar ose ndaluar përdoruesit. Vendimet e moderatorëve ndikojnë në përmbajtjen e ofruar anëtarët e komunitetit dhe audienca dhe si rrjedhojë ndikojnë edhe në përvojën e komunitetit në diskutim.

"Duke supozuar se një moderator njerëzor është një anëtar i komunitetit që ka homogjenitet demografik me anëtarët e tjerë të komunitetit, duket e mundur që skema mendore që ata përdorin për të vlerësuar përmbajtjen të përputhet me ato të anëtarëve të tjerë të komunitetit."

Kjo jep disa të dhëna se përse studiuesit e Sirakuzës kanë arritur në një përfundim kaq të dëshpëruar në lidhje me të ardhmen e shënimeve të gjuhës së urrejtjes; implikimi është se politikat dhe thirrjet e gjykimit ndaj opinioneve të kundërta nuk mund të zbatohen rastësisht sipas parimeve të 'pranueshme' që nuk janë të përfshira askund (ose nuk mund të reduktohen në një skemë të zbatueshme, edhe nëse ekzistojnë).

Njerëzit që marrin vendimet (punëtorët e turmës) janë të njëanshëm dhe do të ishin të padobishëm për detyra të tilla nëse do të ishin nuk i njëanshëm, pasi detyra është të japësh një gjykim të vlerës; njerëzit që gjykojnë për mosmarrëveshjet në rezultatet e punës së grumbulluar po bëjnë gjithashtu gjykime vlerësuese në përcaktimin e politikave për mosmarrëveshjet.

Mund të ketë qindra politika vetëm në një kuadër të zbulimit të gjuhës së urrejtjes, dhe nëse secila prej tyre nuk çohet deri në Gjykatën e Lartë, ku mund të lindë konsensusi 'autoritativ'?

Studiuesit e Google sugjerojnë këtë "[Mosmarrëveshjet] midis shënuesve mund të ngërthejnë nuanca të vlefshme rreth detyrës". Punimi propozon përdorimin e meta të dhënave në grupet e të dhënave që pasqyrojnë dhe kontekstualizojnë mosmarrëveshjet.

Megjithatë, është e vështirë të shihet se si një shtresë e tillë e të dhënave specifike për kontekstin mund të çojë ndonjëherë në metrika të ngjashme, të përshtatet me kërkesat e testeve standarde të vendosura ose mbështetje Ndonjë rezultate përfundimtare – me përjashtim të skenarit jorealist të adoptimit të të njëjtit grup studiuesish gjatë punës së mëvonshme.

Kurimi i Pool Annotator

E gjithë kjo supozon se ka edhe buxhet në një projekt kërkimor për shënime të shumta që do të çonin në një votim konsensus. Në shumë raste, studiuesit përpiqen të 'kurojnë' grupin e shënimeve të dhëna më pak duke specifikuar tiparet që punonjësit duhet të kenë, të tilla si vendndodhja gjeografike, gjinia ose faktorë të tjerë kulturorë, duke tregtuar pluralitetin për specifikat.

Gazeta e Google pretendon se rruga përpara nga këto sfida mund të jetë krijimi i kornizave të zgjeruara të komunikimit me annotues, të ngjashëm me komunikimet minimale që lehtëson aplikacioni Uber midis një shoferi dhe një kalorësi.

Një konsideratë e tillë e kujdesshme e shënuesve, natyrisht, do të ishte një pengesë për dhënien e jashtme të shënimeve në shkallë të lartë, duke rezultuar ose në grupe të dhënash më të kufizuara dhe me vëllim të ulët që kanë një arsyetim më të mirë për rezultatet e tyre, ose një vlerësim 'të nxituar' të anotuesve të përfshirë, duke marrë detaje të kufizuara. në lidhje me to, dhe duke i karakterizuar si 'të përshtatshme për detyrë' bazuar në shumë pak informacion.

Kjo është nëse anotuesit janë të sinqertë.

"Njerëzit që kënaqin" në etiketimin e të dhënave të jashtme

Me një fuqi punëtore në dispozicion që është i paguar pak, nën konkurrencë e ashpër për detyrat në dispozicion, dhe në depresion nga perspektiva të pakta për karrierë, shënuesit motivohen të japin shpejt përgjigjen 'e duhur' dhe të kalojnë në mini-detyrën tjetër.

Nëse 'përgjigja e duhur' është diçka më e ndërlikuar se Ka mace/Nuk ka mace, punimi i Sirakuzës pretendon se punëtori ka të ngjarë të përpiqet të nxjerrë një përgjigje "të pranueshme" bazuar në përmbajtjen dhe kontekstin e pyetjes*:

"Si përhapja e konceptualizimeve alternative dhe përdorimi i gjerë i metodave të thjeshtuara të shënimeve po pengojnë me siguri përparimin e kërkimit mbi gjuhën e urrejtjes në internet. Për shembull, Ross, et al. gjetur se shfaqja e përkufizimit të Twitter për sjelljen e urrejtjes për shënuesit bëri që ata të përputnin pjesërisht opinionet e tyre me përkufizimin. Ky riorganizim rezultoi në një besueshmëri shumë të ulët të ndërvlerësuesve të shënimeve.'

* Konvertimi im i citimeve të brendshme të gazetës në hiperlidhje.

Publikuar më 13 dhjetor 2021 – Përditësuar më 18 dhjetor 2021: Etiketat e shtuara

Temat e ngjashme:turq mekanik përpunimi i gjuhës natyrore NLP hulumtim

E rradhes

Sulmimi i sistemeve të përpunimit të gjuhës natyrore me shembuj kundërshtarë

Mos e humbas

AI përdor mësimin përforcues për të lundruar në oqeane

Martin Anderson

Shkrimtar për mësimin e makinerive, inteligjencën artificiale dhe të dhënat e mëdha.
Faqja personale: martinanderson.ai
Kontaktoni: [email mbrojtur]
Twitter: @manders_ai