Mākslīgais intelekts

Datorzinātnieki novērš neobjektivitāti AI

Atjaunināts on Decembris 9, 2022

Prinstonas un Stenfordas universitātes datorzinātnieki tagad ir mākslīgā intelekta (AI) neobjektivitātes problēmu risināšana. Viņi strādā pie metodēm, kas nodrošina godīgākas datu kopas, kurās ir cilvēku attēli. Pētnieki cieši sadarbojas ar ImageNet, kas ir vairāk nekā 13 miljonu attēlu datubāze. Pēdējo desmit gadu laikā ImageNet ir palīdzējis uzlabot datora redzējumu. Izmantojot savas metodes, pētnieki ieteica datubāzes uzlabojumus.

ImageNet ietver objektu, ainavu un cilvēku attēlus. Pētnieki, kas veido mašīnmācīšanās algoritmus, kas klasificē attēlus, izmanto ImageNet kā datu avotu. Tā kā datubāze ir ļoti liela, bija nepieciešama automatizēta attēlu vākšana un attēlu anotācija ar pūļa avotu palīdzību. Tagad ImageNet komanda strādā, lai labotu novirzes un citas problēmas. Attēlos bieži ir cilvēki, kas ir ImageNet konstrukcijas neparedzētas sekas.

Olga Russakovska ir Prinstonas datorzinātņu līdzautore un docente.

"Datorredze tagad darbojas ļoti labi, kas nozīmē, ka tā tiek izmantota visur un dažādos kontekstos," viņš teica. "Tas nozīmē, ka tagad ir pienācis laiks runāt par to, kāda veida ietekmi tas atstāj uz pasauli, un domāt par šāda veida godīguma jautājumiem."

Jaunajā dokumentā ImageNet komanda sistemātiski identificēja nevizuālus jēdzienus un aizskarošas kategorijas. Šīs kategorijas ietvēra rasu un seksuālus raksturojumus, un komanda ierosināja tos noņemt no datu bāzes. Komanda ir arī izstrādājusi rīku, kas lietotājiem ļauj norādīt un izgūt cilvēku attēlu kopas, un to var izdarīt pēc vecuma, dzimuma izteiksmes un ādas krāsas. Mērķis ir izveidot algoritmus, kas godīgāk klasificē cilvēku sejas un darbības attēlos.

Pētnieku paveiktais darbs tika prezentēts 30. janvārī Computing Machinery asociācijas konferencē par godīgumu, atbildību un pārredzamību Barselonā, Spānijā.

"Ir ļoti nepieciešami pētnieki un laboratorijas ar galvenajām tehniskajām zināšanām, lai iesaistītos šāda veida sarunās," sacīja Russakovskis. "Ņemot vērā realitāti, ka mums ir jāapkopo dati plašā mērogā, ņemot vērā realitāti, ka tas tiks darīts, izmantojot pūļa avotus, jo tas ir visefektīvākais un vispāratzītākais cauruļvads, kā mēs to izdarītu godīgāk — tas t neietilpst šādos iepriekšējos kļūmju veidos? Šī raksta galvenais vēstījums ir par konstruktīviem risinājumiem.

ImageNet 2009. gadā uzsāka Prinstonas un Stenfordas datorzinātnieku grupa. Tas bija paredzēts kā resurss akadēmiskajiem pētniekiem un pedagogiem. Sistēmas izveidi vadīja Prinstonas absolventi un mācībspēks Fei-Fei Li.

ImageNet varēja kļūt par tik lielu marķētu attēlu datubāzi, izmantojot pūļa avotus. Viena no galvenajām izmantotajām platformām bija Amazon Mechanical Turk (MTurk), un darbiniekiem tika maksāts, lai pārbaudītu kandidātu attēlus. Tas radīja dažas problēmas, un bija daudz aizspriedumu un neatbilstošu kategoriju.

Vadošais autors Kaiyu Yang ir datorzinātņu maģistrantūras students.

"Kad jūs lūdzat cilvēkus pārbaudīt attēlus, atlasot pareizos no liela kandidātu kopuma, cilvēki jūtas spiesti atlasīt dažus attēlus, un šiem attēliem parasti ir raksturīgas vai stereotipiskas iezīmes," viņš teica.

Pirmajā pētījuma daļā tika veikta potenciāli aizskarošu vai sensitīvu personu kategoriju filtrēšana no ImageNet. Aizskarošas kategorijas tika definētas kā rupjības vai rasu vai dzimuma aizskaršana. Viena no šādām sensitīvām kategorijām bija cilvēku klasifikācija, pamatojoties uz seksuālo orientāciju vai reliģiju. Divpadsmit absolventi no dažādām vidēm tika piesaistīti, lai komentētu kategorijas, un viņiem tika uzdots atzīmēt kategoriju sensitīvu, ja viņi nebija pārliecināti par to. Aptuveni 54% kategoriju tika likvidētas jeb 1,593 no 2,932 personu kategorijām ImageNet.

Pēc tam MTurk darbinieki novērtēja atlikušo kategoriju “attēlojamību” skalā no 1 līdz 5. 158 kategorijas tika klasificētas gan kā drošas, gan attēlojamas ar vērtējumu 4 vai augstāku. Šajā filtrētajā kategoriju komplektā bija vairāk nekā 133,000 XNUMX attēlu, kas var būt ļoti noderīgi datorredzes algoritmu apmācībai.

Pētnieki pētīja cilvēku demogrāfisko attēlojumu attēlos, un tika novērtēts ImageNet neobjektivitātes līmenis. Saturs, kas iegūts no meklētājprogrammām, bieži nodrošina rezultātus, kuros ir pārāk daudz vīriešu, gaišas ādas un pieaugušo vecumā no 18 līdz 40 gadiem.

"Cilvēki ir atklājuši, ka demogrāfisko datu sadalījums attēlu meklēšanas rezultātos ir ļoti neobjektīvs, un tāpēc arī ImageNet sadalījums ir neobjektīvs," sacīja Jans. "Šajā rakstā mēs centāmies saprast, cik neobjektīvs tas ir, kā arī piedāvāt metodi sadalījuma līdzsvarošanai."

Pētnieki apsvēra trīs atribūtus, kurus aizsargā arī ASV pretdiskriminācijas likumi: ādas krāsa, dzimuma izpausme un vecums. Pēc tam MTurk darbinieki attēlā atzīmēja katru katras personas atribūtu.

Rezultāti parādīja, ka ImageNet saturam ir ievērojama novirze. Visvairāk nepietiekami bija tumšādaini, sievietes un pieaugušie, kas vecāki par 40 gadiem.

Tika izstrādāts tīmekļa interfeisa rīks, kas ļauj lietotājiem iegūt demogrāfiski līdzsvarotu attēlu kopu lietotāja izvēlētā veidā.

"Mēs nevēlamies teikt, kāds ir pareizais veids, kā līdzsvarot demogrāfiskos rādītājus, jo tas nav ļoti vienkāršs jautājums," sacīja Jans. “Izplatība dažādās pasaules daļās var būt atšķirīga — ādas krāsu sadalījums ASV atšķiras no, piemēram, Āzijas valstīs. Tāpēc mēs atstājam šo jautājumu mūsu lietotāja ziņā, un mēs vienkārši nodrošinām rīku, lai izgūtu līdzsvarotu attēlu apakškopu.

ImageNet komanda tagad strādā pie tās aparatūras un datu bāzes tehniskiem atjauninājumiem. Viņi arī cenšas ieviest šajā pētījumā izstrādāto personu kategoriju filtrēšanu un līdzsvarošanas rīku. Paredzēts, ka ImageNet tiks atkārtoti izlaists kopā ar atjauninājumiem, kā arī aicinājums sniegt atsauksmes no datoru redzes pētniecības kopienas.

Raksta līdzautors bija arī Prinstonas Ph.D. students Klints Cjinami un datorzinātņu docents Jia Deng. Pētījumu atbalstīja Nacionālais zinātnes fonds.

Saistītās tēmas:AI Algoritmi mākslīgais intelekts Aizspriedums

Nākošais

Padziļināta mācīšanās, ko izmanto, lai atrastu ar slimībām saistītus gēnus

Nepalaidiet garām

NBA, izmantojot mākslīgo intelektu, lai radītu svarīgākos notikumus

Alekss Makfārlends

Alekss Makfārlends ir AI žurnālists un rakstnieks, kurš pēta jaunākos sasniegumus mākslīgā intelekta jomā. Viņš ir sadarbojies ar daudziem AI jaunizveidotiem uzņēmumiem un publikācijām visā pasaulē.