Tekoäly
Tietokoneen tutkijat käsittelevät aiheen puolueettomuuden ongelmaa tekoälyssä

Tietokoneen tutkijat Princetonista ja Stanfordin yliopistosta ovat nyt käsittelemässä tekoälyssä (AI) olevia puolueettomuuden ongelmia. He työskentelevät menetelmien parissa, jotka johtavat reilumpiin tietojoukkoihin, joissa on ihmisten kuvia. Tutkijat työskentelevät läheisessä yhteistyössä ImageNetin kanssa, joka on yli 13 miljoonan kuvan tietokanta. Viimeisen vuosikymmenen aikana ImageNet on edistänyt tietokoneen näkökykyä. Tutkijoiden menetelmien avulla he suosittavat parannuksia tietokantaan.
ImageNet sisältää kuvia esineistä, maisemista ja ihmisistä. Tutkijat, jotka luovat koneoppimisalgoritmeja, jotka luokittelevat kuvia, käyttävät ImageNetiä tietolähteenä. Tietokannan valtavan koon vuoksi oli tarpeen käyttää automaattista kuvien keräämistä ja joukkorahoitusta. Nyt ImageNetin tiimi työskentelee puolueettomuuden ja muiden ongelmien korjaamiseksi. Kuvissa on usein ihmisiä, jotka ovat ImageNetin rakentamisen tahattomia seurauksia.
Olga Russakovsky on yksi tekijöistä ja apulaisprofessori tietokoneen tieteen alalla Princetonissa.
“Tietokoneen näkökyky toimii nyt hyvin, mikä tarkoittaa, että sitä käytetään kaikkialla ja kaikissa yhteyksissä”, hän sanoi. “Tämä tarkoittaa, että nyt on aika puhua siitä, millainen vaikutus sillä on maailmaan ja miettiä näitä puolueettomuuden asioita.”
Uudessa tutkimuksessa ImageNetin tiimi tunnisti systemaattisesti ei-näkyvät käsitteet ja loukkaavat kategoriat. Nämä kategoriat sisälsivät rotu- ja sukupuolihahmotukset, ja tiimi ehdotti niiden poistamista tietokannasta. Tiimi on myös kehittänyt työkalun, joka sallii käyttäjien määritellä ja hakea kuvia, ja se voi tehdä sen ikän, sukupuolen ilmaisun ja ihonvärin perusteella. Tavoitteena on luoda algoritmeja, jotka luokittelevat ihmisten kasvoja ja toimintaa kuvissa reilummin.
Tutkijoiden tekemä työ esiteltiin 30. tammikuuta Association for Computing Machineryn konferenssissa Barcelonassa, Espanjassa.
“On todella tarpeen, että tutkijat ja laboratoriot, joilla on ydinosaamista tässä, osallistuvat näihin keskusteluihin”, sanoi Russakovsky. “Ottaen huomioon, että meidän on kerättävä data laajassa mittakaavassa, ottaen huomioon, että se tehdään joukkorahoituksella, koska se on tehokkain ja vakiintunut prosessi, miten tehdä se reilummin – miten välttää nämä aiemmat virheet? Tutkimuksen keskeinen viesti on rakentavista ratkaisuista.”
ImageNet lanseerattiin vuonna 2009 Princetonin ja Stanfordin yliopiston tietokonetiimien toimesta. Se oli tarkoitettu akateemisten tutkijoiden ja opettajien resursiksi. Järjestelmän luomisen johti Princetonin alumni ja henkilöstön jäsen Fei-Fei Li.
ImageNet pystyi kasvamaan niin suureksi kuvatietokannaksi joukkorahoituksen käytön ansiosta. Yksi pääasiallinen alusta, jota käytettiin, oli Amazon Mechanical Turk (MTurk), ja työntekijät maksettiin kuvien vahvistamisesta. Tämä aiheutti joitakin ongelmia, ja siinä oli paljon puolueettomuuden ja sopimattomien luokittelujen ongelmia.
Pääasiallinen tekijä Kaiyu Yang on jatko-opiskelija tietokoneen tieteen alalla.
“Kun pyydät ihmisiä vahvistamaan kuvia valitsemalla oikeat kuvat suuresta joukosta, ihmiset tuntevat painetta valita jotkut kuvat, ja ne kuvat ovat usein niitä, joissa on erityisiä tai stereotyyppisiä piirteitä”, hän sanoi.
Tutkimuksen ensimmäinen osa käsitteli mahdollisesti loukkaavia tai arkaluontoisia henkilöluokkien suodattamista ImageNetistä. Loukkaavat kategoriat määriteltiin niiksi, jotka sisälsivät sopimatonta kieltä tai rotu- tai sukupuolivittauksia. Yksi tällainen arkaluontoinen kategoria oli ihmisten luokittelu seksuaalisen suuntautumisen tai uskonnon perusteella. Kahdentoista eri taustasta olevan jatko-opiskelijan annettiin merkinnät kategorioille, ja heidät ohjeistettiin merkitsemään kategoria arkaluontoiseksi, jos he epäilivät sitä. Noin 54 % kategorioista poistettiin, eli 1 593 henkilöluokkaa ImageNetin 2 932:sta.
MTurk-työntekijät arvioivat sitten “kuvaamiskyvyn” jäljelle jääneistä kategorioista asteikolla 1-5. 158 kategoriaa luokiteltiin sekä turvallisiksi että kuvaamiskelpoisiksi, saaden 4 tai korkeamman arvosanan. Tämä suodatettu joukko kategorioita sisälsi yli 133 000 kuvaa, joita voidaan hyödyntää tietokoneen näkökyvyn algoritmien koulutuksessa.
Tutkijat tutkivat ihmisten demografiista edustusta kuvissa ja arvioivat ImageNetin puolueettomuuden tasoa. Hakumoottorien sisältämä materiaali usein tarjoaa tuloksia, jotka yliedustavat miehiä, vaaleaihoisia ihmisiä ja 18-40-vuotiaita.
“Ihmiset ovat havainneet, että kuvahakutuloksien demografiinen jakautuma on hyvin puolueellista, ja tämän vuoksi ImageNetin jakautuma on myös puolueellinen”, sanoi Yang. “Tässä tutkimuksessa yritimme ymmärtää, kuinka puolueellista se on, ja myös ehdottaa menetelmää tasapainottaa jakautumaa.”
Tutkijat tutkivat kolmea Yhdysvaltain syrjintälakien suojaamaa ominaisuutta: ihonväriä, sukupuolen ilmaisua ja ikää. MTurk-työntekijät merkitsivät sitten kunkin ominaisuuden kullekin henkilölle kuvassa.
Tulokset osoittivat, että ImageNetin sisältö on merkittävästi puolueellista. Aliedustetuimmat olivat tummaihoiset, naiset ja yli 40-vuotiaat.
Verkkorajapintaa suunniteltiin, joka sallii käyttäjien hakea kuvajoukon, joka on demografiisesti tasapainottunut tavalla, jonka käyttäjä valitsee.
“Emme halua sanoa, mikä on oikea tapa tasapainottaa demografiaa, koska se ei ole hyvin suoraviivainen asia”, sanoi Yang. “Jakautuma voi olla erilainen eri maissa – ihonvärin jakautuma Yhdysvalloissa on erilainen kuin Aasian maissa, esimerkiksi. Jätämme tämän kysymyksen käyttäjille, ja tarjoamme vain työkalun hakea tasapainotun kuvajoukon.”
ImageNetin tiimi työskentelee nyt teknisten päivitysten parissa laitteistoon ja tietokantaan. He yrittävät myös toteuttaa henkilöluokkien suodattamista ja tasapainotustyökalun, jonka tässä tutkimuksessa kehitettiin. ImageNet on tarkoitus julkaista uudelleen päivitysten kanssa, ja siinä on mukana pyyntö palautteesta tietokoneen näkökyvyn tutkimusyhteisöltä.
Tutkimus oli myös yhteistyössä Princetonin tohtorikoulutettavan Klint Qinamin ja apulaisprofessori Jia Dengin kanssa. Tutkimus oli tukenut National Science Foundation.












