Tehisintellekt

Kas alavalitud hüperskaala AI-andmestikud on hullemad kui Internet ise?

Ajakohastatud on Detsember 9, 2022

Iirimaa, Ühendkuningriigi ja USA teadlased on hoiatanud, et hüpermastaabis tehisintellekti väljaõppe andmekogude kasv ähvardab levitada nende Interneti-allikate halvimaid aspekte, väites, et hiljuti avaldatud akadeemiline andmestik sisaldab funktsioone. „tüütud ja selgesõnalised pildid ja tekstipaarid vägistamisest, pornograafiast, pahatahtlikest stereotüüpidest, rassistlikest ja etnilistest solvangutest ja muust äärmiselt problemaatilisest sisust”.

Teadlased usuvad, et massiivsete alakureeritud või valesti filtreeritud multimodaalsete (nt pildid ja pildid) andmekogumite uus laine kahjustab vaieldamatult rohkem oma võimet tugevdada sellise negatiivse sisu mõju, kuna andmekogumid säilitavad kujutisi ja muud sisu. mis võidi sellest ajast alates kasutajakaebuste, kohaliku modereerimise või algoritmide kaudu veebiplatvormidelt eemaldada.

Lisaks märgivad nad, et andmekogu sisuga seotud pikaajaliste kaebuste lahendamiseks võib kuluda aastaid – võimsa ImageNeti andmestiku puhul terve kümnendi – ning et need hilisemad muudatused ei kajastu alati isegi nendest tuletatud uutes andmekogumites. .

. paberpealkirjaga Multimodaalsed andmekogumid: misogüünia, pornograafia ja pahaloomulised stereotüübid, pärineb University College Dublin & Lero, Edinburghi ülikooli teadlastelt ja UnifyID autentimisplatvormi peateadurilt.

Kuigi töö keskendub hiljutisele väljaandele CLIP- filtreeritud LAION-400M andmestik, vaidlevad autorid vastu üldisele suundumusele visata üha rohkem andmeid masinõppe raamistikesse, nagu närvikeele mudel GPT-3, ja väidavad, et tulemustele keskendunud tulemused aitavad paremini järeldada (ja isegi tehisintellekti [AGI] suunas). ), mille tulemuseks on kahjustavate andmeallikate ad hoc kasutamine hooletu autoriõiguste järelevalvega; potentsiaal tekitada ja soodustada kahju; ja võime mitte ainult põlistada ebaseaduslikke andmeid, mis muidu oleksid avalikust omandist kadunud, vaid ka selliste andmete moraalseid mudeleid tegelikult kaasata tehisintellekti allavoolu rakendustesse.

LAION-400M

Eelmisel kuul avaldati LAION-400M andmestik, mis lisab kasvavale hulgale multimodaalsetele keelelistele andmekogumitele, mis põhinevad Ühine indekseerimine hoidla, mis kraabib Internetti valimatult ja annab vastutuse filtreerimise ja kureerimise eest projektidele, mis seda kasutavad. Tuletatud andmestik sisaldab 400 miljonit teksti/pildi paari.

LAION-400M on Google AI suletud WIT-i (WebImageText) avatud lähtekoodiga variant. andmestik ilmus 2021. aasta märtsis ja sisaldab teksti-kujutise paare, kus andmebaasis olev pilt on seostatud kaasneva selgesõnalise või metaandmete tekstiga (näiteks pildi alternatiivtekst veebigaleriis). See võimaldab kasutajatel teostada tekstipõhist pildiotsingut, paljastades seosed, mille aluseks olev AI on nende domeenide kohta loonud (st 'loom', 'ratas', 'inimene', "mees", 'naine').

See pildi ja teksti vaheline suhe ning koosinussarnasus, mis võib päringutulemustesse kalduda, on paberi üleskutse täiustatud metoodikate keskmes, kuna väga lihtsad päringud LAION-400M andmebaasi võivad paljastada eelarvamusi.

Näiteks teerajaja naisastronaudi Eileen Collinsi pilt scitkit-image raamatukogus toob välja kaks seotud pealkirja LAION-400M-is: "See on Ameerika lipuga astronaudi portree" ja "See on foto naeratavast koduperenaisest Ameerika lipuga oranžis kombinesoonis".

Ameerika astronaut Eileen Collins saab LAION-400M all esimese naisena kosmoses kaks väga erinevat pilti. Allikas: https://arxiv.org/pdf/2110.01963.pdf

Teatatud koosinussarnasused, mille tõttu kumbki pealdis on tõenäoliselt rakendatav, on üksteisele väga lähedal ja autorid väidavad, et selline lähedus muudaks LAION-400M-i kasutavad tehisintellektisüsteemid suhteliselt tõenäoliseks, et nad esitaksid kumbagi sobiva subtiitrina.

Pornograafia tõuseb taas tippu

LAION-400M on teinud otsitava liidese saadaval, kus nupu „Ohutu otsing” eemaldamine näitab, mil määral domineerivad siltide ja klasside puhul pornograafilised kujutised ja tekstilised seosed. Näiteks, otsides 'nunn' (NSFW, kui te hiljem turvarežiimi keelate) tagastab andmebaasis tulemused, mis on enamasti seotud õuduse, cosplay ja kostüümidega, tegelikke nunnusid on saadaval väga vähe.

Kui lülitate turvarežiimi samal otsingul välja, ilmneb hulk selle terminiga seotud pornograafilisi pilte, mis suruvad kõik mittepornopildid otsingutulemuste lehelt alla, paljastades, mil määral on LAION-400M omistanud pornopiltidele suurema kaalu, sest need on Interneti-allikates levinud termini "nunn" jaoks.

Turvarežiimi vaikimisi aktiveerimine on võrguotsingu liideses petlik, kuna see kujutab endast kasutajaliidese veidrust, filtrit, mis mitte ainult ei pruugi tuletatud tehisintellektisüsteemides aktiveerida, vaid mis on teatud viisil üldistatud nunna domeeniks. mida ei ole algoritmilise kasutamise mõttes nii lihtne filtreerida ega (suhteliselt) SFW tulemustest eristada.

Paber sisaldab häguseid näiteid erinevate otsinguterminite kohta lõpus olevates lisamaterjalides. Hägustunud fotodega kaasneva teksti keele tõttu ei saa neid siin esile tuua, kuid teadlased märgivad, et piltide uurimine ja hägustamine neilt kulus, ning tunnistavad väljakutset sellise materjali kureerimiseks, et inimkond saaks jälgida suuri fotosid. mastaapsed andmebaasid:

"Meil (nagu ka meie kolleegidel, kes meid aitasid) kogesime andmestiku uurimise käigus erineval määral ebamugavust, iiveldust ja peavalu. Lisaks tabab sedalaadi töö avaldamisel ebaproportsionaalselt palju märkimisväärset negatiivset kriitikat kogu akadeemilises tehisintellektis, mis mitte ainult ei lisa emotsionaalset lisakoormust juba niigi raskele ülesandele selliste andmekogumite uurimisel ja analüüsimisel, vaid pärsib ka sarnast tulevast tööd, mis kahjustab AI valdkond ja ühiskond üldiselt.

Teadlased väidavad, et kuigi ahelas inimese kureerimine on kallis ja sellega kaasnevad isiklikud kulud, ei ole sellise materjali eemaldamiseks või muul viisil käsitlemiseks loodud automaatsed filtreerimissüsteemid ilmselgelt selle ülesande jaoks piisavad, kuna NLP-süsteemidel on raskusi solvava materjali eraldamisega või mahaarvamisega. materjal, mis võib kaabitud andmekogus domineerida ja mida hiljem suure mahu tõttu oluliseks pidada.

Keelatud sisu kehtestamine ja autoriõiguste kaitse kaotamine

Dokumendis väidetakse, et seda laadi alakureeritud andmekogumid jätkavad suure tõenäosusega vähemuste ärakasutamist ja käsitlevad seda, kas sarnastel avatud lähtekoodiga andmeprojektidel on õigus või moraalne õigus suunata materjali eest vastutusele. lõppkasutaja:

„Inimesed võivad oma andmed veebisaidilt kustutada ja eeldada, et need on igaveseks kadunud, samas kui need võivad endiselt eksisteerida mitme teadlase ja organisatsiooni serverites. Tekib küsimus, kes vastutab nende andmete eemaldamise eest andmekogumis? LAION-400M puhul on loojad delegeerinud selle ülesande andmestiku kasutajale. Arvestades, et sellised protsessid on sihilikult keeruliseks muudetud ja tavakasutajal puuduvad oma andmete eemaldamiseks tehnilised teadmised, kas see on mõistlik lähenemine?

Lisaks väidavad nad, et LAION-400M ei pruugi olla sobilik väljalaskmiseks selle vastuvõetud Creative Common CC-BY 4.0 litsentsimudeli alusel, hoolimata võimalikest eelistest suuremahuliste andmekogumite demokratiseerimisel, mis varem kuulusid hästi rahastatud ettevõtetele, nagu Google ja OpenAI.

LAION-400M domeen kinnitab, et andmekogumi kujutised "on nende endi autoriõigusega kaitstud" - "läbipääsu" mehhanism, mis on suuresti võimaldatud viimaste aastate kohtuotsuste ja valitsuse suuniste alusel, mis üldiselt kiidavad heaks veebikraapimise uurimiseesmärkidel. Allikas: https://rom1504.github.io/clip-retrieval/

Autorid väidavad, et rohujuure tasandil (st rahvahulgast pärit vabatahtlikud) võiksid mõned andmekoguprobleemid lahendada ja teadlased võiksid välja töötada täiustatud filtreerimistehnikad.

„Sellegipoolest jäävad andmesubjekti õigused siin käsitlemata. On hoolimatu ja ohtlik alahinnata selliste suuremahuliste andmekogumitega kaasnevaid kahjusid ning julgustada neid kasutama tööstus- ja kaubanduskeskkondades. Vastutus litsentsiskeemi eest, mille alusel andmestik esitatakse, lasub ainult andmestiku loojal.

Hüperskaalaandmete demokratiseerimise probleemid

Dokumendis väidetakse, et nii suured visiolingvistilised andmekogumid nagu LAION-400M ei olnud varem saadaval väljaspool suuri tehnoloogiaettevõtteid ja piiratud arvu uurimisasutusi, mis kasutavad nende võrdlemiseks, kureerimiseks ja töötlemiseks ressursse. Nad tervitavad veelgi uue väljaande vaimu, kritiseerides samal ajal selle täitmist.

Autorid väidavad, et mõiste "demokratiseerimine" aktsepteeritud määratlus, nagu see kehtib avatud lähtekoodiga hüperskaala andmekogumite kohta, on liiga piiratud ja "ei arvesta haavatavate üksikisikute ja kogukondade õigusi, heaolu ega huve, kellest paljud kannatavad tõenäoliselt kõige hullemini selle andmestiku ja selle põhjal koolitatud mudelite mõjude tõttu".

Kuna GPT-3 mastaabis avatud lähtekoodiga mudelite väljatöötamine on lõppkokkuvõttes kavandatud levitama miljonitele (ja puhverserveri kaudu, võib-olla miljarditele) kasutajatele üle maailma ning kuna uurimisprojektid võivad võtta kasutusele andmekogumeid enne nende hilisemat redigeerimist või isegi eemaldamist, mis iganes säilitab. probleemid olid mõeldud muudatustes käsitlemiseks, väidavad autorid, et alakureeritud andmekogumite hooletu väljalaskmine ei tohiks muutuda avatud lähtekoodiga masinõppe tavapäraseks funktsiooniks.

Džinni pudelisse tagasi panemine

Mõned andmestikud, mis suleti kaua pärast seda, kui nende sisu oli võib-olla lahutamatult läbi viidud pikaajalistesse AI projektidesse, on lisatud Duke MTMC (Multi-Target, Multi-Camera) andmestik, mis lõpuks eemaldati korduvad mured inimõigusorganisatsioonidelt selle kasutamise kohta Hiina repressiivsete võimude poolt; Microsoft Celeb (MS-Celeb-1M), 10 miljonist kuulsuste näokujutisest koosnev andmekogum selgus kaasata ajakirjanikke, aktiviste, poliitikakujundajaid ja kirjanikke, kelle biomeetriliste andmete avaldamist väljaannetes kritiseeriti tugevalt; ja andmestik Tiny Images, 2020. aastal tagasi võetud ennast tunnistavate "erapoolikute, solvavate ja eelarvamuslike piltide ning halvustava terminoloogia" eest.

Seoses andmekogumitega, mida kriitika tõttu muudeti, mitte tagasi võeti, on näideteks ülipopulaarne ImageNeti andmestik, mis, märgivad teadlased, võttis kümme aastat (2009–2019), et reageerida korduvale kriitikale privaatsuse ja mittekujundatavate klasside kohta.

Dokumendis märgitakse, et LAION-400M lükkab tõhusalt tagasi isegi need viivitavad täiustused, jättes suures osas tähelepanuta eelmainitud muudatused ImageNeti esituses uues versioonis, ja luurab sellega seoses laiemat suundumust*:

"See on esile tõstetud suuremate andmekogumite, nagu näiteks Tencent ML-piltide andmestik (veebruaris 2020), mis hõlmab enamikku neist mittekujundatavad klassid, täieliku ImageNet-21k andmestikuga koolitatud mudelite jätkuv kättesaadavus hoidlates nagu TF-hub, filtrita-ImageNet-21k jätkuv kasutamine uusimates SotA mudelites (nt Google'i uusim EfficientNetV2 ja CoAtNeti mudelid) ja selgesõnalised teadaanded, mis lubavad hea mainega võistlustel kasutada filtreerimata ImageNet-21k eeltreeningut nagu LVIS väljakutse 2021.

"Rõhutame seda üliolulist tähelepanekut: ImageNeti meeskond, kes haldab vähem kui 15 miljonit pilti, on nende võõrutuskatsetega siiani vaeva näinud ja ebaõnnestunud.

"Selle tohutu multimodaalse andmestiku ja potentsiaalselt miljardeid pilditiitrite paare hõlmava andmestiku põhjal koolitatud allavoolu mudelite põhjalikuks detoksifitseerimiseks vajalike hoolikate jõupingutuste ulatus on vaieldamatult astronoomiline."

* Teisendan autori tekstisisesed tsitaadid hüperlinkideks.