Mākslīgais intelekts

Vai nepietiekami atlasītas hiperskalas AI datu kopas ir sliktākas par pašu internetu?

Atjaunināts on Decembris 9, 2022

Pētnieki no Īrijas, Apvienotās Karalistes un ASV ir brīdinājuši, ka hipermēroga AI apmācības datu kopu pieaugums draud izplatīt viņu interneta avotu sliktākos aspektus, apgalvojot, ka nesen izlaista akadēmiskā datu kopa. “satraucoši un nepārprotami attēli un tekstu pāri ar izvarošanu, pornogrāfija, ļaundabīgi stereotipi, rasistiski un etniski apvainojumi un cits ārkārtīgi problemātisks saturs”.

Pētnieki uzskata, ka jauns masveida nepietiekami atlasītu vai nepareizi filtrētu multimodālu datu kopu (piemēram, attēlu un attēlu) vilnis neapšaubāmi vairāk kaitē to spējai pastiprināt šāda negatīva satura ietekmi, jo datu kopas saglabā attēlus un citu saturu. kas kopš tā laika, iespējams, ir noņemti no tiešsaistes platformām, izmantojot lietotāju sūdzības, vietējo regulēšanu vai algoritmus.

Viņi arī norāda, ka var paiet gadi — varenās ImageNet datu kopas gadījumā vesela desmitgade —, lai tiktu izskatītas ilgstošas sūdzības par datu kopas saturu, un ka šīs vēlākās pārskatīšanas ne vienmēr tiek atspoguļotas pat jaunās datu kopās, kas iegūtas no tām. .

Jūsu darbs IR Klientu apkalpošana papīrs, ar nosaukumu Multimodālas datu kopas: sieviešu vīdniecība, pornogrāfija un ļaundabīgi stereotipi, nāk no pētniekiem University College Dublin & Lero, Edinburgas Universitātē un UnifyID autentifikācijas platformas galvenā zinātnieka.

Lai gan darbs koncentrējas uz neseno izlaišanu CLIP- filtrēts LAION-400M datu kopa, autori iebilst pret vispārējo tendenci mest arvien lielāku datu apjomu mašīnmācīšanās sistēmām, piemēram, neironu valodas modelim GPT-3, un apgalvo, ka uz rezultātiem orientētais virzās uz labākiem secinājumiem (un pat uz mākslīgo vispārējo intelektu [AGI]). ), kā rezultātā tiek ad hoc izmantoti kaitīgi datu avoti ar nolaidīgu autortiesību uzraudzību; iespēja radīt un veicināt kaitējumu; un iespēja ne tikai iemūžināt nelikumīgus datus, kas citādi varētu būt pazuduši no publiskā domēna, bet arī faktiski iekļaut šādu datu morālos modeļus pakārtotās AI ieviešanā.

LAION-400M

Pagājušajā mēnesī tika izlaista LAION-400M datu kopa, kas papildināja arvien pieaugošo multimodālo lingvistisko datu kopu skaitu, kas balstās uz Kopējā pārmeklēšana repozitorijs, kas bez izšķirības skrāpē internetu un nodod atbildību par filtrēšanu un pārvaldību projektiem, kas to izmanto. Atvasinātajā datu kopā ir 400 miljoni teksta/attēla pāru.

LAION-400M ir Google AI slēgtā WIT (WebImageText) atvērtā pirmkoda variants. datu kopa izlaista 2021. gada martā, un tajā ir teksta-attēlu pāri, kur attēls datu bāzē ir saistīts ar pievienoto nepārprotamo vai metadatu tekstu (piemēram, attēla alternatīvo tekstu tīmekļa galerijā). Tas ļauj lietotājiem veikt teksta attēlu izgūšanu, atklājot asociācijas, ko pamatā esošais AI ir izveidojis par šiem domēniem (t. 'dzīvnieks', 'velosipēds', 'persona', "vīrietis", 'sieviete').

Šīs attiecības starp attēlu un tekstu un kosinusa līdzība, kas var iegult neobjektivitāti vaicājumu rezultātos, ir galvenais dokumenta aicinājums uzlabot metodoloģijas, jo ļoti vienkārši LAION-400M datubāzes vaicājumi var atklāt novirzes.

Piemēram, celmlauža sievietes astronaute Eileen Collins attēls scitkit attēlu bibliotēkā izgūst divus saistītos parakstus LAION-400M: "Šis ir astronauta portrets ar Amerikas karogu" un "Šī ir fotogrāfija ar smaidošu mājsaimnieci oranžā kombinezonā ar Amerikas karogu".

Amerikāņu astronaute Eilīna Kolinsa saņem divus ļoti atšķirīgus sasniegumus kā pirmā sieviete kosmosā zem LAION-400M. Avots: https://arxiv.org/pdf/2110.01963.pdf

Ziņotās kosinusa līdzības, kuru dēļ kāds no parakstiem, iespējams, ir piemērojams, ir ļoti tuvu viena otrai, un autori apgalvo, ka šāda tuvuma dēļ mākslīgā intelekta sistēmām, kas izmanto LAION-400M, ir salīdzinoši iespēja parādīt vienu vai otru kā piemērotu parakstu.

Pornogrāfija atkal paceļas uz augšu

LAION-400M ir izveidojis meklēšanas interfeisu pieejams, kur, noņemot atzīmi no pogas "Droša meklēšana", tiek atklāts, cik lielā mērā pornogrāfiski attēli un tekstuālas asociācijas dominē etiķetēs un klasēs. Piemēram, meklējot 'mūķene' (NSFW, ja pēc tam atspējojat drošo režīmu) datu bāzē atgriež rezultātus, kas galvenokārt saistīti ar šausmām, cosplay un kostīmiem, un ir pieejams ļoti maz faktisko mūķeņu.

Izslēdzot drošo režīmu tajā pašā meklēšanā, tiek atklāts liels skaits pornogrāfisku attēlu, kas saistīti ar šo terminu, kas meklēšanas rezultātu lapā nospiež visus nepornogrāfiskos attēlus, atklājot, cik lielā mērā LAION-400M ir piešķīrusi lielāku nozīmi pornogrāfiskajiem attēliem, jo Tie ir izplatīti terminam "mūķene" tiešsaistes avotos.

Noklusējuma drošā režīma aktivizēšana ir maldinoša tiešsaistes meklēšanas saskarnē, jo tā ir lietotāja interfeisa savdabība, filtrs, kas ne tikai ne vienmēr tiks aktivizēts atvasinātajās AI sistēmās, bet arī savā veidā ir vispārināts domēnā "mūķene". kas nav tik viegli filtrējams vai nošķirams no (relatīvi) SFW rezultātiem algoritmiskā lietojuma ziņā.

Darba beigās ir ietverti izplūduši piemēri dažādiem meklēšanas vienumiem papildu materiālos. Tos šeit nevar attēlot aizmiglotajām fotogrāfijām pievienotā teksta valodas dēļ, taču pētnieki atzīmē, ka attēlu izpēte un aizmiglošana viņiem radās, un atzīst izaicinājumu izveidot šādu materiālu, lai cilvēki varētu uzraudzīt lielus attēlus. - mēroga datu bāzes:

“Datu kopas pārbaudes laikā mēs (kā arī mūsu kolēģi, kas mums palīdzēja) piedzīvojām dažāda līmeņa diskomfortu, sliktu dūšu un galvassāpes. Turklāt šāda veida darbs nesamērīgi saskaras ar ievērojamu negatīvu kritiku visā akadēmiskajā AI sfērā pēc izlaišanas, kas ne tikai rada papildu emocionālu slodzi jau tā smagajam uzdevumam pētīt un analizēt šādas datu kopas, bet arī attur no līdzīga turpmāka darba, tādējādi kaitējot AI joma un sabiedrība kopumā”.

Pētnieki apgalvo, ka, lai gan cilvēka cilpā aprūpe ir dārga un saistīta ar personīgām izmaksām, automatizētās filtrēšanas sistēmas, kas paredzētas, lai noņemtu vai citādi risinātu šādus materiālus, acīmredzami nav piemērotas uzdevumam, jo NLP sistēmām ir grūtības izolēt vai izslēgt aizskarošus materiālus. materiāls, kas var dominēt izkoptajā datu kopā un pēc tam tikt uztverts kā nozīmīgs milzīgā apjoma dēļ.

Aizliegta satura nostiprināšana un autortiesību aizsardzības atcelšana

Rakstā tiek apgalvots, ka šāda veida nepietiekami atlasītas datu kopas, visticamāk, turpinās mazākumtautību personu ekspluatāciju un risina jautājumu par to, vai līdzīgiem atvērtā pirmkoda datu projektiem ir vai nav juridiskas vai morālas tiesības novirzīt atbildību par šo materiālu. galalietotājs:

“Privātpersonas var dzēst savus datus no vietnes un pieņemt, ka tie ir pazuduši uz visiem laikiem, kamēr tie joprojām var pastāvēt vairāku pētnieku un organizāciju serveros. Ir jautājums par to, kurš ir atbildīgs par šo datu noņemšanu no izmantošanas datu kopā? LAION-400M veidotāji ir deleģējuši šo uzdevumu datu kopas lietotājam. Tā kā šādi procesi ir apzināti sarežģīti un vidusmēra lietotājam trūkst tehnisko zināšanu, lai noņemtu savus datus, vai tā ir saprātīga pieeja?

Viņi arī apgalvo, ka LAION-400M var nebūt piemērots izlaišanai saskaņā ar pieņemto Creative Common CC-BY 4.0 licences modeli, neskatoties uz potenciālajiem ieguvumiem liela mēroga datu kopu demokratizācijā, kas iepriekš bija ekskluzīvs labi finansētu uzņēmumu, piemēram, Google un OpenAI.

LAION-400M domēns apgalvo, ka uz datu kopas attēliem “attiecas viņu pašu autortiesības” — “caurlaidības” mehānisms, ko lielā mērā nodrošina pēdējo gadu tiesas nolēmumi un valdības vadlīnijas, kas plaši apstiprina tīmekļa izkopšanu pētniecības nolūkos. Avots: https://rom1504.github.io/clip-retrieval/

Autori norāda, ka vietējās sabiedrības (ti, pūļa brīvprātīgie) varētu risināt dažas datu kopas problēmas un ka pētnieki varētu izstrādāt uzlabotas filtrēšanas metodes.

“Tomēr datu subjekta tiesības šeit netiek ņemtas vērā. Ir neapdomīgi un bīstami nenovērtēt kaitējumu, kas raksturīgs tik liela mēroga datu kopām, un mudināt tos izmantot rūpnieciskos un komerciālos apstākļos. Atbildība par licences shēmu, saskaņā ar kuru datu kopa tiek nodrošināta, gulstas tikai uz datu kopas veidotāju.

Hipermēroga datu demokratizēšanas problēmas

Rakstā tiek apgalvots, ka tik lielas vizolingvistiskās datu kopas kā LAION-400M iepriekš nebija pieejamas ārpus lielajiem tehnoloģiju uzņēmumiem un ierobežotā skaita pētniecības institūciju, kas izmanto resursus, lai tās apkopotu, atlasītu un apstrādātu. Viņi vēl vairāk sveic jaunā laidiena garu, vienlaikus kritizējot tā izpildi.

Autori apgalvo, ka pieņemtā “demokratizācijas” definīcija, kas attiecas uz atvērtā koda hipermēroga datu kopām, ir pārāk ierobežota un “neņem vērā neaizsargātu personu un kopienu tiesības, labklājību un intereses, no kurām daudzas, visticamāk, cietīs vissmagāk no šīs datu kopas un uz to apmācīto modeļu pakārtotās ietekmes”.

Tā kā GPT-3 mēroga atvērtā pirmkoda modeļu izstrāde galu galā ir izstrādāta, lai tos izplatītu miljoniem (un ar starpniekserveri, iespējams, miljardiem) lietotāju visā pasaulē, un tā kā pētniecības projektos var tikt pieņemtas datu kopas, pirms tās tiek rediģētas vai pat noņemtas, saglabājot visu. problēmas tika izstrādātas, lai tās risinātu modifikācijās, autori apgalvo, ka neuzmanīgai nepietiekami atlasītu datu kopu izlaišanai nevajadzētu kļūt par ierastu iezīmi atvērtā pirmkoda mašīnmācībā.

Džinja ievietošana atpakaļ pudelē

Dažas datu kopas, kas tika slēptas ilgi pēc tam, kad to saturs, iespējams, nesaraujami, tika iekļauts ilgtermiņa AI projektos, ir iekļauts Duke MTMC (Multi-Target, Multi-Camera) datu kopa, kas galu galā tika atsaukta, jo atkārtotas bažas no cilvēktiesību organizācijām par to, kā to izmanto represīvās iestādes Ķīnā; Microsoft Celeb (MS-Celeb-1M), datu kopa ar 10 miljoniem “slavenību” seju attēlu, kas atklājās iekļaut žurnālistus, aktīvistus, politikas veidotājus un rakstniekus, kuru biometrisko datu atklāšana izlaidumā tika smagi kritizēta; un Tiny Images datu kopa, atsaukts 2020. gadā par pašpārliecinātiem "neobjektivitātēm, aizvainojošiem un aizspriedumainiem attēliem un nievājošu terminoloģiju".

Attiecībā uz datu kopām, kuras pēc kritikas tika grozītas, nevis atsauktas, piemēri ietver ļoti populāro ImageNet datu kopu, kas, kā norāda pētnieki, prasīja desmit gadus (2009–2019), lai reaģētu uz atkārtotu kritiku par privātumu un neiedomājamām klasēm.

Rakstā norādīts, ka LAION-400M efektīvi atgriež pat šos kavējošos uzlabojumus, “lielā mērā ignorējot” iepriekšminētos ImageNet attēlojuma labojumus jaunajā laidienā, un izspiego plašāku tendenci šajā sakarā*:

"Tas ir uzsvērts, parādoties lielākām datu kopām, piemēram, Tencent ML attēlu datu kopa (2020. gada februārī), kas aptver lielāko daļu no tiem neiedomājamas klases, nepārtraukta to modeļu pieejamība krātuvēs, kas apmācīti, izmantojot pilnu ImageNet-21k datu kopu. piemēram, TF-hub, nepārtraukta nefiltrētā ImageNet-21k izmantošana jaunākajos SotA modeļos (piemēram, Google jaunākajā EfficientNetV2 un CoAtNet modeļiem) un skaidriem paziņojumiem, kas ļauj izmantot nefiltrētu ImageNet-21k priekšapmācību cienījamos konkursos piemēram, LVIS izaicinājums 2021.

"Mēs uzsveram šo būtisko novērojumu: ImageNet komanda, kas pārvalda mazāk nekā 15 miljonus attēlu, līdz šim ir cīnījusies un cietusi neveiksmi šajos detoksikācijas mēģinājumos.

"Rūpīgo centienu apjoms, kas nepieciešams, lai rūpīgi detoksicētu šo milzīgo multimodālo datu kopu un pakārtotos modeļus, kas apmācīti šajā datu kopā, kas aptver potenciāli miljardus attēlu parakstu pāru, nenoliedzami būs astronomisks."

* Mana autora iekļauto citātu pārvēršana par hipersaitēm.

Nākošais

Gartner atzīst vadošo datu platformu Weka par vizionāru

Nepalaidiet garām

Amazon Mechanical Turk maksā mazāk nekā 40% no ASV minimālās algas, liecina pētījumi

Mārtiņš Andersons

Rakstnieks par mašīnmācību, mākslīgo intelektu un lielajiem datiem.
Personīgā vietne: Martinanderson.ai
Sazinieties ar: [e-pasts aizsargāts]
Twitter: @manders_ai

Apvienojieties.AI

Vai nepietiekami atlasītas hiperskalas AI datu kopas ir sliktākas par pašu internetu?

Mākslīgais intelekts