Mesterséges Intelligencia

A „láthatatlan”, gyakran boldogtalan munkaerő, amely az AI jövőjéről dönt

korszerűsített on December 9, 2022

Két új jelentés, köztük a Google Research által vezetett tanulmány, aggodalmának ad hangot amiatt, hogy a jelenlegi tendencia, miszerint a véletlenszerű globális koncertmunkások olcsó és gyakran erőtlen csapatára támaszkodnak a gépi tanulási rendszerek alapjait, jelentős következményekkel járhat a mesterséges intelligencia számára.

A Google tanulmánya számos következtetés közül azt találja, hogy a tömegmunkások saját előítéletei valószínűleg beépülnek az AI-rendszerekbe, amelyek alapvető igazságai az ő válaszaikon fognak alapulni; hogy a tömegmunka platformokon széles körben elterjedt tisztességtelen munkagyakorlatok (az Egyesült Államokban is) valószínűleg rontják a válaszok minőségét; és hogy a „konszenzusos” rendszer (gyakorlatilag egy „mini-választás” bizonyos alapigazságra, amely hatással lesz a későbbi AI-rendszerekre), amely jelenleg megoldja a vitákat dobd el a legjobb és/vagy leginkább tájékozott válaszokat.

Ez a rossz hír; A legrosszabb hír az, hogy nagyjából az összes gyógymód drága, időigényes, vagy mindkettő.

Bizonytalanság, Véletlenszerű Elutasítás és Rancor

Az első papír, öt Google kutatótól, hívják Kié az alapigazság? Az adatkészlet-annotáció alapjául szolgáló egyéni és kollektív identitások elszámolása; a második, a New York-i Syracuse Egyetem két kutatójától, az úgynevezett Az adatcímkézők közötti nézeteltérés eredete és értéke: Esettanulmány a gyűlöletbeszéd-annotáció egyéni különbségeiről.

A Google közleménye megjegyzi, hogy a tömegmunkások – akiknek értékelései gyakran a gépi tanulási rendszerek meghatározó alapját képezik, amelyek végül hatással lehetnek az életünkre – gyakran olyan korlátok alatt működnek, amelyek befolyásolhatják a kísérleti feladatokra adott reakcióikat.

Például az Amazon Mechanical Turk jelenlegi irányelvei lehetővé teszik a kérelmezők számára (azok, akik kiadják a feladatokat), hogy elszámoltatás nélkül utasítsák el a jegyző munkáját*:

„A tömegmunkások nagy többsége (94%) olyan munkát végeztek, amelyet elutasítottak, vagy amelyért nem fizettek. Mindazonáltal a kérelmezők teljes jogukat fenntartják a kapott adatok felett, függetlenül attól, hogy elfogadják vagy elutasítják azokat; Roberts (2016) ezt a rendszert úgy írja le, mint amely „lehetővé teszi a bérlopást”.

„Ezen túlmenően a munka elutasítása és a fizetés visszatartása fájdalmas, mert az elutasításokat gyakran a nem egyértelmű utasítások és az értelmes visszacsatolási csatornák hiánya okozzák; sok crowdworker beszámol arról, hogy a rossz kommunikáció negatívan befolyásolja a munkáját.

A szerzők azt javasolják, hogy azok a kutatók, akik kiszervezett szolgáltatásokat használnak adatkészletek fejlesztéséhez, vegyék fontolóra, hogy egy crowdworking platform hogyan bánik a dolgozóival. Megjegyzik továbbá, hogy az Egyesült Államokban a crowdworkereket „független vállalkozóknak” minősítik, ezért a munka nem szabályozott, és nem vonatkozik rájuk a Fair Labour Standards Act által előírt minimálbér.

A kontextus számít

A lap a használatát is kifogásolja ad hoc globális munka az annotációs feladatokhoz, az annotátor hátterének figyelembevétele nélkül.

Ahol a költségvetés megengedi, gyakori, hogy az AMT-t és hasonló tömegmunka-platformokat használó kutatók négy annotátornak adják ugyanazt a feladatot, és betartják az eredményekre vonatkozó „többségi szabályt”.

A tanulmány szerint a kontextuális tapasztalatot kifejezetten alulértékelték. Például, ha egy feladatkérdés kapcsolódik a szexizmus véletlenszerűen oszlik el három egyetértő 18-57 éves férfi és egy 29 éves, ellentétes nő között, a férfiak ítélete nyer, kivéve azokat a viszonylag ritka eseteket, amikor a kutatók odafigyelnek annotátoraik képzettségére.

Hasonlóképpen, ha kérdés merül fel banda viselkedése Chicagóban egy vidéki, 36 éves amerikai nő, egy 42 éves chicagói férfi, valamint két bangalore-i, illetve dán jegyző között oszlik meg. A probléma által valószínűleg leginkább érintett személy (a chicagói férfi) csak negyedrésze van az eredményben. szabványos outsourcing konfiguráció.

A kutatók kijelentik:

„Az „egy igazság” fogalma a crowdsourcing válaszokban mítosz; az annotátorok közötti nézeteltérés, amelyet gyakran negatívnak tekintenek, valójában értékes jelzést adhat. Másodszor, mivel sok közösségi forrásból származó annotátorkészlet szocio-demográfiailag torz, következményei vannak annak, hogy mely populációk jelennek meg az adatkészletekben, valamint hogy mely populációknak kell szembenézniük a [tömegmunka] kihívásaival.

„Az annotátorok demográfiai adataiban előforduló torzulások figyelembevétele kritikus fontosságú az adatkészletek kontextusba helyezéséhez és a felelős továbbfelhasználáshoz. Röviden: értéket jelent a munkavállaló társadalmi-kulturális hátterének elismerése és számonkérése – mind az adatminőség, mind a társadalmi hatás szempontjából.

Nincsenek „semleges” vélemények az aktuális témákról

Még ha négy jegyző véleménye sem demográfiailag, sem más mérőszámok alapján nem torz, a Google-lap aggodalmának ad hangot amiatt, hogy a kutatók nem veszik figyelembe az annotátorok élettapasztalatait vagy filozófiai beállítottságát:

„Míg egyes feladatok objektív kérdéseket tesznek fel helyes válaszokkal (van emberi arc a képen?), az adatkészletek gyakran arra törekszenek, hogy viszonylag szubjektív feladatok megítélését rögzítsék általánosan helyes válasz nélkül (sértő ez a szövegrész?). Fontos, hogy tudatosan legyünk annak eldöntésében, hogy az annotátorok szubjektív ítéleteire hagyatkozzunk-e.

Ami a gyűlöletbeszéd címkézésével kapcsolatos problémák kezelésének sajátos körét illeti, a Syracuse-i lap megjegyzi, hogy a kategorikusabb kérdések, mint pl. Van macska ezen a képen? jelentősen különböznek attól, hogy megkérdezzük egy tömegmunkást, hogy egy kifejezés „mérgező”-e:

„Figyelembe véve a társadalmi valóság zűrzavarát, az emberek toxicitásról alkotott felfogása jelentősen eltér. A mérgező tartalomra vonatkozó címkéik saját felfogásukon alapulnak.

A szirakuszai kutatók arra a következtetésre jutottak, hogy a személyiségnek és az életkornak „jelentős befolyása van” a gyűlöletbeszéd dimenziós címkézésére:

"Ezek az eredmények azt sugallják, hogy a gyűlöletbeszéd miatt eltérő hátterű és személyiségű címkézők közötti annotációk következetességének megteremtésére irányuló erőfeszítések soha nem járnak sikerrel."

A bíró is elfogult lehet

Ez az objektivitás hiánya valószínűleg felfelé is ismétlődik, állítja a Syracuse dokumentum, amely szerint a konszenzusos szavazatok „győztesét” meghatározó manuális beavatkozást (vagy automatizált politikát, amelyet szintén egy ember dönt) szintén ellenőrizni kell. .

A folyamatot a fórum moderálásához hasonlítva a szerzők kijelentik*:

„[E] közösség moderátorai a bejegyzések népszerűsítésével vagy elrejtésével, valamint a felhasználók tiszteletben tartásával, megszégyenítésével vagy kitiltásával dönthetnek mind a bejegyzések, mind a közösségük felhasználóinak sorsáról. A moderátorok döntései befolyásolják a továbbított tartalmat a közösség tagjai és a közönség és tágabb értelemben befolyásolják a közösség megbeszélés élményét is.

"Feltételezve, hogy az emberi moderátor olyan közösségtag, aki demográfiai homogenitást mutat a közösség többi tagjával, lehetségesnek tűnik, hogy a tartalom értékelésére használt mentális séma megegyezik a közösség többi tagjával."

Ez némi támpontot ad ahhoz, hogy a szirakuszai kutatók miért jutottak ilyen elkeseredett következtetésre a gyűlöletbeszéd-annotáció jövőjét illetően; ebből az következik, hogy az eltérő tömegmunka-véleményekre vonatkozó irányelveket és ítéleteket nem lehet csak véletlenszerűen alkalmazni „elfogadható” elvek szerint, amelyeket sehol nem rögzítenek (vagy nem redukálhatók egy alkalmazható sémára, még akkor sem, ha léteznek).

A döntést hozó emberek (a tömegmunkások) elfogultak, és haszontalanok lennének ilyen feladatokra, ha nem elfogult, hiszen a feladat értékítélet adása; azok az emberek, akik a tömegmunka eredményeivel kapcsolatos vitákban ítélkeznek, szintén értékítéletet alkotnak a vitákra vonatkozó irányelvek meghatározásakor.

Lehetséges, hogy egyetlen gyűlöletbeszéd-észlelési keretrendszerben több száz irányelv létezik, és hacsak nem viszik vissza mindegyiket egészen a Legfelsőbb Bíróságig, honnan eredhet a „megbízható” konszenzus?

A Google kutatói ezt javasolják „[a] az annotátorok közötti nézeteltérések értékes árnyalatokat ágyazhatnak be a feladattal kapcsolatban”. A cikk metaadatok használatát javasolja olyan adatkészletekben, amelyek tükrözik és kontextusba helyezik a vitákat.

Nehéz azonban belátni, hogy egy ilyen kontextus-specifikus adatréteg hogyan vezethetne valaha is hasonló mérőszámokhoz, hogyan alkalmazkodhatna a bevett szabványos tesztek követelményeihez vagy támogatáshoz. bármilyen végleges eredményeket – kivéve azt az irreális forgatókönyvet, amikor ugyanazt a kutatócsoportot alkalmazzák a későbbi munkákban.

A jegyzők gyűjteménye

Mindez azt feltételezi, hogy egy kutatási projektben még költségvetés is van több olyan megjegyzésre, amely konszenzusos szavazáshoz vezetne. Sok esetben a kutatók megkísérlik olcsóbban „gondolni” a kiszervezett annotációs készletet, olyan tulajdonságok meghatározásával, amelyekkel a munkavállalóknak rendelkezniük kell, mint például a földrajzi elhelyezkedés, a nem vagy más kulturális tényezők, a pluralitást a specifikusságra cserélve.

A Google közleménye azt állítja, hogy az előrelépést ezekből a kihívásokból az lehet, ha kiterjesztett kommunikációs kereteket hoznak létre annotátorokkal, hasonlóan ahhoz a minimális kommunikációhoz, amelyet az Uber alkalmazás lehetővé tesz a sofőr és a motoros között.

Az annotátorok ilyen gondos mérlegelése természetesen akadályozná a hiperskálás annotáció kiszervezését, ami vagy korlátozottabb és kisebb volumenű adatkészleteket eredményezne, amelyek jobb indoklással bírnak az eredményekre, vagy az érintett annotátorok „sietett” értékelését eredményezné, és korlátozott részletekhez jutna. róluk, és túl kevés információ alapján „feladatra alkalmasnak” minősíti őket.

Ez az, ha az annotátorok őszinték.

Az „Emberek kedvelői” a kiszervezett adatkészlet-címkézésben

A rendelkezésre álló munkaerővel ez az rosszul fizetett, al kemény verseny az elérhető feladatokért, és lehangolt szűkös karrierlehetőségek, az annotátorok arra késztetnek, hogy gyorsan megadják a „helyes” választ, és folytassák a következő minifeladatot.

Ha a „helyes válasz” valami bonyolultabb annál Van macskája/Nincs macska, a Syracuse papír azt állítja, hogy a munkavállaló valószínűleg megpróbál egy „elfogadható” választ levezetni a kérdés tartalma és kontextusa alapján*:

„Mind az alternatív fogalomalkotások elterjedése, mind a leegyszerűsített annotációs módszerek széles körű alkalmazása vitathatatlanul hátráltatja az online gyűlöletbeszéddel kapcsolatos kutatások előrehaladását. Például Ross és mtsai. talált hogy a Twitter gyűlöletkeltő magatartásra vonatkozó definíciójának bemutatása az annotátoroknak arra késztette őket, hogy saját véleményüket részben összhangba hozzák a definícióval. Ez az átrendezés a megjegyzések nagyon alacsony interrater megbízhatóságát eredményezte.

* Az újság sorközi hivatkozásainak átalakítása hiperhivatkozásokká.

Közzétéve: 13. december 2021 – Frissítve 18. december 2021-án: címkék hozzáadva

Up Next

Természetes nyelvi feldolgozó rendszerek megtámadása ellentétes példákkal

Ne hagyd ki

A mesterséges intelligencia megerősítési tanulást használ az óceánokon való navigáláshoz

Martin Anderson

Író a gépi tanulásról, a mesterséges intelligenciáról és a big data-ról.
Személyes oldal: Martinanderson.ai
Kapcsolat [e-mail védett]
Twitter: @manders_ai