Արհեստական բանականություն

«Անտեսանելի», հաճախ դժբախտ աշխատուժը, որը որոշում է AI-ի ապագան

Թարմացվել է on Դեկտեմբերի 9, 2022

Երկու նոր զեկույցներ, այդ թվում՝ Google Research-ի ղեկավարած փաստաթուղթը, մտահոգություն են հայտնում, որ մեքենայական ուսուցման համակարգերի համար հիմնարար ճշմարտություն ստեղծելու համար էժանագին և հաճախ թուլացած գլոբալ կոնֆերանսի աշխատողների հենվելու ներկայիս միտումը կարող է լուրջ հետևանքներ ունենալ AI-ի համար:

Մի շարք եզրակացությունների թվում Google-ի ուսումնասիրությունը պարզում է, որ ամբոխի աշխատողների սեփական կողմնակալությունը, ամենայն հավանականությամբ, կներառվի արհեստական ինտելեկտի համակարգերում, որոնց հիմնական ճշմարտությունները հիմնված կլինեն նրանց պատասխանների վրա. որ համատարած անարդար աշխատանքային պրակտիկան (ներառյալ ԱՄՆ-ում) crowdworking հարթակներում, հավանաբար, կնվազեցնի պատասխանների որակը. և որ «կոնսենսուսի» համակարգը (գործնականում «մինի ընտրություններ» որոշ գետնի ճշմարտության համար, որը կազդի Արհեստական ինտելեկտի ներքևի համակարգերի վրա), որը ներկայումս լուծում է վեճերը, իրականում կարող է նետիր լավագույն և/կամ ամենատեղեկացված պատասխանները:

Դա վատ նորությունն է. Ամենավատ նորությունն այն է, որ գրեթե բոլոր միջոցները թանկ են, ժամանակատար կամ երկուսն էլ:

Անապահովություն, Պատահական Մերժում և Վախկոտություն

Առաջին թուղթ, Google-ի հինգ հետազոտողներից, կոչվում է Ո՞ւմ հիմնավոր ճշմարտությունը: Տվյալների հավաքածուի անոտացիայի հիմքում ընկած անհատական և կոլեկտիվ ինքնությունների հաշվառում, Իսկ երկրորդ, Նյու Յորքի Սիրակուզի համալսարանի երկու հետազոտողներից կոչվում է Տվյալների պիտակավորողների միջև անհամաձայնության ծագումն ու արժեքը. Ատելության խոսքի անոտացիայի անհատական տարբերությունների ուսումնասիրություն.

Google թերթը նշում է, որ ամբոխի աշխատողները, որոնց գնահատականները հաճախ կազմում են մեքենայական ուսուցման համակարգերի որոշիչ հիմքը, որը կարող է ի վերջո ազդել մեր կյանքի վրա, հաճախ գործում են մի շարք սահմանափակումների ներքո, որոնք կարող են ազդել փորձարարական առաջադրանքներին արձագանքելու ձևի վրա:

Օրինակ, Amazon Mechanical Turk-ի ներկայիս քաղաքականությունը թույլ է տալիս հայցողներին (նրանք, ովքեր տալիս են առաջադրանքները) մերժել ծանոթագրողի աշխատանքը առանց հաշվետվության*.

«Ամբոխի աշխատողների մեծ մասը (94%) ունեցել են աշխատանք, որը մերժվել է կամ որի համար չեն վարձատրվել: Այնուամենայնիվ, հայցողները պահպանում են իրենց ստացած տվյալների նկատմամբ լիարժեք իրավունքները՝ անկախ այն բանից, թե նրանք ընդունում են կամ մերժում դրանք. Ռոբերտս (2016) նկարագրում է այս համակարգը որպես «աշխատավարձ գողանալու հնարավորություն»։

«Ավելին, աշխատանքից հրաժարվելը և վարձատրության պահումը ցավալի է, քանի որ մերժումները հաճախ պայմանավորված են անհասկանալի հրահանգներով և հետադարձ կապի բովանդակալից ուղիների բացակայությամբ. Շատ աշխատողներ նշում են, որ վատ հաղորդակցությունը բացասաբար է անդրադառնում իրենց աշխատանքի վրա»։

Հեղինակները խորհուրդ են տալիս, որ հետազոտողները, ովքեր օգտագործում են արտասահմանյան ծառայություններ տվյալների հավաքածուներ մշակելու համար, պետք է հաշվի առնեն, թե ինչպես է crowdworking հարթակը վերաբերվում իր աշխատողներին: Նրանք այնուհետև նշում են, որ Միացյալ Նահանգներում ամբոխի աշխատողները դասակարգվում են որպես «անկախ կապալառուներ», հետևաբար այդ աշխատանքը կանոնակարգված չէ և չի ծածկվում Արդար Աշխատանքի ստանդարտների ակտով սահմանված նվազագույն աշխատավարձով:

Համատեքստային հարցեր

Թերթը քննադատում է նաև կիրառումը ժամանակավոր գլոբալ աշխատանք անոտացիոն առաջադրանքների համար՝ առանց ծանոթագրողի նախապատմությունը հաշվի առնելու:

Այնտեղ, որտեղ բյուջեն թույլ է տալիս, սովորական է, որ AMT և նմանատիպ crowdwork հարթակներ օգտագործող հետազոտողները նույն առաջադրանքը տալիս են չորս ծանոթագրողների և հետևում են արդյունքների «մեծամասնության կանոնին»:

Համատեքստային փորձը, պնդում է թերթը, նկատելիորեն թերագնահատված է: Օրինակ, եթե առաջադրանքի հարցը կապված է սեքսիզմը պատահականորեն բաշխվում է 18-57 տարեկան երեք համաձայնող տղամարդկանց և 29 տարեկան մեկ այլակարծիք կնոջ միջև, տղամարդկանց դատավճիռը հաղթում է, բացառությամբ այն համեմատաբար հազվադեպ դեպքերի, երբ հետազոտողները ուշադրություն են դարձնում իրենց ծանոթագրողների որակավորմանը:

Նմանապես, եթե հարց է խմբավորման վարքագիծը Չիկագոյում բաշխված է 36-ամյա ԱՄՆ գյուղացի կնոջ, Չիկագոյի 42-ամյա տղամարդու և երկու ծանոթագրողների միջև համապատասխանաբար Բանգալորից և Դանիայից, անձը, ամենայն հավանականությամբ, ամենաշատը տուժում է խնդրից (Չիկագոյի տղամարդը) արդյունքի միայն քառորդ մասնաբաժինը ունի, ստանդարտ աութսորսինգի կոնֆիգուրացիա:

Հետազոտողները նշում են.

«Քրաուդսորսինգի պատասխաններում «մեկ ճշմարտության» հասկացությունը առասպել է. Անոտատորների միջև անհամաձայնությունը, որը հաճախ դիտվում է որպես բացասական, իրականում կարող է արժեքավոր ազդանշան տալ: Երկրորդ, քանի որ ամբոխի կողմից մշակված ծանոթագրողների խմբերը սոցիալ-ժողովրդագրական առումով շեղված են, հետևանքներ կան, թե որ պոպուլյացիաները ներկայացված են տվյալների շտեմարաններում, ինչպես նաև, թե որ պոպուլյացիաները բախվում են [crowdwork]-ի մարտահրավերներին:

«Անոտատորի ժողովրդագրության մեջ շեղումների հաշվառումը չափազանց կարևոր է տվյալների շտեմարանները համատեքստայինացնելու և ներքևում գտնվող պատասխանատու օգտագործումն ապահովելու համար: Կարճ ասած, արժեք ունի աշխատողի սոցիալ-մշակութային նախապատմությունը ճանաչելը և հաշվառելը` և՛ տվյալների որակի, և՛ հասարակության ազդեցության տեսանկյունից»:

Թեժ թեմաների վերաբերյալ «չեզոք» կարծիքներ չկան

Նույնիսկ այն դեպքում, երբ չորս ծանոթագրողների կարծիքները շեղված չեն, թե՛ ժողովրդագրական, թե՛ այլ չափորոշիչներով, Google թերթը մտահոգություն է հայտնում, որ հետազոտողները հաշվի չեն առնում ծանոթագրողների կյանքի փորձառությունները կամ փիլիսոփայական տրամադրվածությունը.

«Մինչդեռ որոշ առաջադրանքներ հակված են ճիշտ պատասխաններով օբյեկտիվ հարցեր առաջացնել (պատկերում մարդու դեմք կա՞.), հաճախ տվյալների հավաքածուները նպատակ ունեն գնահատել համեմատաբար սուբյեկտիվ առաջադրանքների վերաբերյալ՝ առանց համընդհանուր ճիշտ պատասխանի (տեքստի այս հատվածը վիրավորական է:) Կարևոր է դիտավորյալ լինել, թե արդյոք հենվել անոտատորների սուբյեկտիվ դատողությունների վրա:

Ինչ վերաբերում է ատելության խոսքի պիտակավորման հետ կապված խնդիրներին անդրադառնալու իր կոնկրետ նպատակին, Սիրակուզայի թերթը նշում է, որ ավելի կատեգորիկ հարցեր, ինչպիսիք են. Այս լուսանկարում կա՞ կատու: զգալիորեն տարբերվում են ամբոխի աշխատողին հարցնելուց, թե արդյոք արտահայտությունը «թունավոր է».

«Հաշվի առնելով սոցիալական իրականության խառնաշփոթը, թունավորության մասին մարդկանց ընկալումները էականորեն տարբերվում են: Նրանց թունավոր պարունակության պիտակները հիմնված են իրենց սեփական ընկալումների վրա:

Գտնելով, որ անհատականությունը և տարիքը «էական ազդեցություն» ունեն ատելության խոսքի ծավալային պիտակավորման վրա, Սիրակուզայի հետազոտողները եզրակացնում են.

«Այս բացահայտումները հուշում են, որ ատելության խոսքի համար տարբեր ծագում ունեցող և անհատականություն ունեցող պիտակավորողների շրջանում անոտացիայի հետևողականություն ձեռք բերելու ջանքերը երբեք չեն կարող լիովին հաջողության հասնել»:

Դատավորը նույնպես կարող է կողմնակալ լինել

Օբյեկտիվության այս բացակայությունը, ամենայն հավանականությամբ, կկրկնվի նաև դեպի վեր, ըստ Սիրակուզայի թղթի, որը պնդում է, որ ձեռքով միջամտությունը (կամ ավտոմատացված քաղաքականությունը, որը նույնպես որոշվում է մարդու կողմից), որը որոշում է կոնսենսուսի ձայների «հաղթողին» նույնպես պետք է ենթարկվի հսկողության։ .

Գործընթացը նմանեցնելով ֆորումի վարմանը՝ հեղինակները նշում են*.

«[A] համայնքի մոդերատորները կարող են որոշել ինչպես հրապարակումների, այնպես էլ օգտատերերի ճակատագիրը իրենց համայնքում՝ գովազդելով կամ թաքցնելով գրառումները, ինչպես նաև հարգելով, ամաչելով կամ արգելելով օգտատերերին։ Մոդերատորների որոշումներն ազդում են մատուցվող բովանդակության վրա համայնքի անդամներն ու հանդիսատեսները և ընդլայնելով նաև ազդել համայնքի քննարկման փորձի վրա:

«Ենթադրելով, որ մարդ մոդերատորը համայնքի անդամ է, որն ունի ժողովրդագրական միատարրություն համայնքի այլ անդամների հետ, հնարավոր է թվում, որ այն մտավոր սխեման, որը նրանք օգտագործում են բովանդակությունը գնահատելու համար, համընկնի համայնքի այլ անդամների հետ»:

Սա որոշակի հուշում է տալիս, թե ինչու են Սիրակուզայի հետազոտողները նման հուսահատ եզրակացության հանգել ատելության խոսքի անոտացիայի ապագայի վերաբերյալ. հետևանքն այն է, որ ամբոխի տարբեր կարծիքների վերաբերյալ քաղաքականությունը և դատողության կոչերը չեն կարող պատահականորեն կիրառվել «ընդունելի» սկզբունքների համաձայն, որոնք ամրագրված չեն որևէ տեղ (կամ չեն կարող կրճատվել կիրառելի սխեմայի վրա, նույնիսկ եթե դրանք գոյություն ունեն):

Մարդիկ, ովքեր որոշումներ են կայացնում (ամբոխի աշխատողները) կողմնակալ են և անօգուտ կլինեն նման առաջադրանքների համար, եթե նրանք լինեին. Նշում կողմնակալ, քանի որ խնդիրն արժեքային դատողություն տալն է. մարդիկ, ովքեր դատում են վեճերի վերաբերյալ crowdwork արդյունքներում, նույնպես արժեքավոր դատողություններ են անում վեճերի համար քաղաքականություն սահմանելիս:

Ատելության խոսքի բացահայտման միայն մեկ շրջանակում կարող են լինել հարյուրավոր քաղաքականություններ, և եթե յուրաքանչյուրը մինչև Գերագույն դատարան չվերցվի, որտեղի՞ց կարող է ծագել «հեղինակավոր» կոնսենսուսը:

Google-ի հետազոտողները դա են առաջարկում «Անոտատորների միջև տարաձայնությունները կարող են արժեքավոր նրբերանգներ ներառել առաջադրանքի վերաբերյալ». Թուղթն առաջարկում է մետատվյալների օգտագործումը տվյալների հավաքածուներում, որոնք արտացոլում և համատեքստում են վեճերը:

Այնուամենայնիվ, դժվար է տեսնել, թե ինչպես է համատեքստին հատուկ տվյալների նման շերտը կարող է հանգեցնել նման չափումների, հարմարվել սահմանված ստանդարտ թեստերի պահանջներին կամ աջակցել: ցանկացած վերջնական արդյունքներ – բացառությամբ հետազոտողների միևնույն խումբը հետագա աշխատանքի ընթացքում ընդունելու անիրատեսական սցենարի:

Annotator Pool-ի համադրում

Այս ամենը ենթադրում է, որ հետազոտական նախագծում նույնիսկ բյուջե կա բազմաթիվ անոտացիաների համար, որոնք կհանգեցնեն կոնսենսուսի քվեարկության: Շատ դեպքերում հետազոտողները փորձում են ավելի էժանորեն «կարգավորել» արտապատվիրված ծանոթագրությունների ֆոնդը՝ նշելով այն հատկանիշները, որոնք պետք է ունենան աշխատողները, ինչպես օրինակ՝ աշխարհագրական դիրքը, սեռը կամ այլ մշակութային գործոններ՝ բազմակարծությունը յուրացնելու համար:

Google թերթը պնդում է, որ այս մարտահրավերներից առաջ տանող ճանապարհը կարող է լինել ընդլայնված հաղորդակցման շրջանակների ստեղծումը ծանոթագրողների հետ, որոնք նման են նվազագույն հաղորդակցություններին, որոնք Uber հավելվածը հեշտացնում է վարորդի և վարորդի միջև:

Անոտատորների նման ուշադիր դիտարկումը, բնականաբար, խոչընդոտ կհանդիսանա հիպերմասշտաբային անոտացիայի աութսորսինգի համար, ինչը կհանգեցնի կա՛մ ավելի սահմանափակ և ցածր ծավալի տվյալների հավաքածուների, որոնք ավելի լավ հիմնավորում ունեն իրենց արդյունքների համար, կա՛մ ներգրավված ծանոթագրողների «շտապ» գնահատումը՝ ստանալով սահմանափակ մանրամասներ: դրանց մասին և բնութագրելով դրանք որպես «գործին պիտանի»՝ հիմնվելով չափազանց քիչ տեղեկատվության վրա:

Դա այն դեպքում, երբ ծանոթագրողները ազնիվ են:

«Մարդկանց գոհացնողները»՝ արտաքին տվյալների պիտակավորման մեջ

Մատչելի աշխատուժով դա է գերավճար, ներքեւում դաժան մրցակցություն հասանելի առաջադրանքների համար և ընկճված կարիերայի սակավ հեռանկարներ, ծանոթագրողները մոտիվացված են արագորեն տալ «ճիշտ» պատասխանը և անցնել հաջորդ մինի առաջադրանքին:

Եթե «ճիշտ պատասխանը» ավելի բարդ բան է, քան Ունի կատու/Կատու չկաՍիրակուզայի թերթը պնդում է, որ աշխատողը, ամենայն հավանականությամբ, կփորձի եզրակացնել «ընդունելի» պատասխան՝ հիմնվելով հարցի բովանդակության և համատեքստի վրա*.

«Ե՛վ այլընտրանքային հայեցակարգերի տարածումը, և՛ պարզեցված ծանոթագրման մեթոդների համատարած օգտագործումը, անկասկած, խոչընդոտում են առցանց ատելության խոսքի վերաբերյալ հետազոտության առաջընթացին: Օրինակ, Ross, et al. հայտնաբերել որ Twitter-ի կողմից ատելություն պարունակող վարքագծի սահմանումը ծանոթագրողներին ցույց տալը ստիպել է նրանց մասամբ համապատասխանեցնել իրենց սեփական կարծիքները սահմանմանը: Այս վերադասավորումը հանգեցրեց անոտացիաների շատ ցածր միջգնահատականի հուսալիությանը:'

* Թերթի ներքին մեջբերումների իմ փոխակերպումը հիպերհղումների:

Հրապարակվել է 13 թվականի դեկտեմբերի 2021-ին - Թարմացվել է 18 թվականի դեկտեմբերի 2021-ին: Ավելացված են պիտակներ

Հարակից թեմաներ.մեխանիկական թուրք բնական լեզվով մշակման գործընթացը nlp հետազոտություն

Հաջորդը

Հակառակ օրինակներով հարձակվել բնական լեզվի մշակման համակարգերի վրա

Բաց մի թողեք

AI-ն օգտագործում է ուժեղացման ուսուցում օվկիանոսներում նավարկելու համար

Մարտին Անդերսոն

Գրող մեքենայական ուսուցման, արհեստական ինտելեկտի և մեծ տվյալների մասին:
Անձնական կայք. martinanderson.ai
Հետադարձ: [էլեկտրոնային փոստով պաշտպանված]
Twitter՝ @manders_ai