Liity verkostomme!

Tekoäly

Tietojen monokulttuurit tekoälyssä: uhka monimuotoisuudelle ja innovaatioille

mm

Tekoäly muokkaa maailmaa terveydenhuollon muuttamisesta koulutuksen uudistamiseen. Se vastaa pitkäaikaisiin haasteisiin ja avaa mahdollisuuksia, joita emme koskaan uskoneet mahdollisiksi. Data on tämän vallankumouksen keskiössä – polttoaine, joka toimii jokaisessa tekoälymallissa. Sen avulla nämä järjestelmät voivat tehdä ennusteita, löytää malleja ja toimittaa ratkaisuja, jotka vaikuttavat jokapäiväiseen elämäämme.

Mutta vaikka tämä tiedon runsaus ajaa innovaatioita, yhtenäisten tietokokonaisuuksien hallitsevuus – joita usein kutsutaan datamonokulttuureiksi – aiheuttaa merkittäviä riskejä monimuotoisuudelle ja luovuudelle tekoälykehityksessä. Tämä on kuin viljelyn monokulttuuria, jossa saman sadon istuttaminen suurille pelloille jättää ekosysteemin herkäksi ja alttiiksi tuholaisille ja taudeille. Tekoälyssä yhtenäisiin tietokokonaisuuksiin luottaminen luo jäykkiä, puolueellisia ja usein epäluotettavia malleja.

Tässä artikkelissa perehdytään datamonokulttuurien käsitteeseen ja tarkastellaan, mitä ne ovat, miksi ne jatkuvat, mitä riskejä ne tuovat ja mitä voimme toteuttaa älykkäämpien, oikeudenmukaisempien ja kattavampien tekoälyjärjestelmien rakentamiseksi.

Tietojen monokulttuurien ymmärtäminen

Datamonokulttuuri syntyy, kun yksittäinen tietojoukko tai kapea joukko tietolähteitä hallitsee tekoälyjärjestelmien koulutusta. Kasvojentunnistus on hyvin dokumentoitu esimerkki datamonokulttuurista tekoälyssä. Opinnot MIT Media Lab havaitsi, että mallit, jotka harjoittelivat pääasiassa vaaleaihoisten henkilöiden kuvia, kamppailivat tummempiihoisten kasvojen kanssa. Tummempiihoisten naisten virheprosentti oli 34.7 %, kun taas vaaleaihoisten miesten luku oli vain 0.8 %. Nämä tulokset korostavat harjoitustietojen vaikutusta, koska ne eivät sisältäneet tarpeeksi monimuotoisuutta ihon sävyissä.

Samanlaisia ​​ongelmia esiintyy muillakin aloilla. Esimerkiksi suuret kielimallit (LLM), kuten OpenAI:n GPT ja Googlen Bard, on koulutettu tietojoukkojen perusteella, jotka ovat vahvasti riippuvaisia ​​englanninkielisestä sisällöstä, joka on peräisin pääasiassa länsimaisista yhteyksistä. Tämä monimuotoisuuden puute tekee niistä vähemmän tarkkoja muiden maailman osien kielen ja kulttuuristen vivahteiden ymmärtämisessä. Intian kaltaiset maat ovat kehittämällä LLM:t, jotka heijastavat paremmin paikallisia kieliä ja kulttuurisia arvoja.

Tämä ongelma voi olla kriittinen etenkin terveydenhuollon kaltaisilla aloilla. Esimerkiksi lääketieteellinen diagnostinen työkalu, joka on koulutettu pääasiassa Euroopan väestön tiedoista, voi toimia huonosti alueilla, joilla on erilaisia ​​geneettisiä ja ympäristötekijöitä.

Mistä datamonokulttuurit tulevat

Tietojen monokulttuurit syntyvät tekoälyssä useista syistä. Suositut tietojoukot, kuten IMAGEnet ja KOKO ovat massiivisia, helposti saatavilla ja laajalti käytettyjä. Mutta ne kuvastavat usein kapeaa, länsikeskeistä näkemystä. Erilaisten tietojen kerääminen ei ole halpaa, joten monet pienemmät organisaatiot luottavat näihin olemassa oleviin tietokokonaisuuksiin. Tämä riippuvuus vahvistaa monipuolisuuden puutetta.

Standardointi on myös avaintekijä. Tutkijat käyttävät usein laajalti tunnustettuja tietojoukkoja vertaillakseen tuloksiaan, mikä estää tahattomasti vaihtoehtoisten lähteiden etsimisen. Tämä suuntaus luo palautesilmukan, jossa kaikki optimoivat samoja vertailuarvoja todellisten ongelmien ratkaisemisen sijaan.

Joskus nämä ongelmat johtuvat huolimattomuudesta. Tietojoukon luojat saattavat tahattomasti jättää pois tietyt ryhmät, kielet tai alueet. Esimerkiksi Sirin kaltaisten ääniassistenttien varhaiset versiot eivät käsitelleet ei-länsimaisia ​​aksentteja hyvin. Syynä oli se, että kehittäjät eivät sisällyttäneet tarpeeksi tietoja kyseisiltä alueilta. Nämä laiminlyönnit luovat työkaluja, jotka eivät täytä maailmanlaajuisen yleisön tarpeita.

Miksi se koskee

Tekoälyllä on entistä näkyvämpi rooli päätöksenteossa, joten datamonokulttuureilla voi olla todellisia seurauksia. Tekoälymallit voivat lisätä syrjintää, kun ne perivät harhaa harjoitustiedoistaan. A palkkausalgoritmi Miesten hallitsemien teollisuudenalojen tietojen perusteella koulutetut voivat vahingossa suosia miesehdokkaita jättäen pätevät naiset huomioimatta.

Kulttuurien edustaminen on toinen haaste. Suositusjärjestelmät, kuten Netflix ja Spotify, ovat usein tehneet suosi Länsimaiset mieltymykset, syrjäyttäen sisällön muista kulttuureista. Tämä syrjintä rajoittaa käyttökokemusta ja hillitsee innovaatioita pitämällä ideat kapeina ja toistuvina.

Tekoälyjärjestelmät voivat myös haurastua, kun niitä koulutetaan rajoitetulle datalle. COVID-19-pandemian aikana lääketieteelliset mallit harjoittelivat pandemiaa edeltävien tietojen perusteella epäonnistui sopeutua maailmanlaajuisen terveyskriisin monimutkaisuuteen. Tämä jäykkyys voi tehdä tekoälyjärjestelmistä vähemmän hyödyllisiä odottamattomissa tilanteissa.

Datan monokulttuuri voi johtaa myös eettisiin ja juridisiin ongelmiin. Yritykset, kuten Twitter ja Apple, ovat kohdanneet julkista vastareaktiota puolueellisista algoritmeista. Twitterin kuvien rajaustyökalua syytettiin Rodullista puolueellisuutta, kun taas Apple Cardin luottoalgoritmi väitetään tarjosi naisille alempia rajoja. Nämä kiistat vahingoittavat luottamusta tuotteisiin ja herättävät kysymyksiä vastuullisuudesta tekoälykehityksessä.

Kuinka korjata datamonokulttuurit

Datamonokulttuurien ongelman ratkaiseminen edellyttää tekoälyjärjestelmien kouluttamiseen käytettävän datan valikoiman laajentamista. Tämä tehtävä edellyttää sellaisten työkalujen ja teknologioiden kehittämistä, jotka helpottavat tiedon keräämistä eri lähteistä. Projektit kuten Mozillan yhteinen ääniesimerkiksi kerätä ääninäytteitä ihmisiltä ympäri maailmaa ja luoda monipuolisempi tietojoukko erilaisilla aksenteilla ja kielillä – samoin aloitteet, kuten Unescon Data for AI, keskittyvät aliedustettujen yhteisöjen mukaan ottamiseen.

Eettisten ohjeiden laatiminen on toinen tärkeä askel. Kehykset, kuten Toronton julistus edistää avoimuutta ja osallisuutta sen varmistamiseksi, että tekoälyjärjestelmät ovat suunnittelultaan oikeudenmukaisia. Vahvat tiedonhallintakäytännöt, jotka ovat inspiroineet GDPR säännöillä voi myös olla suuri merkitys. Ne edellyttävät selkeää dokumentointia tietolähteistä ja pitävät organisaatiot vastuussa monimuotoisuuden varmistamisesta.

Myös avoimen lähdekoodin alustat voivat vaikuttaa asiaan. Esimerkiksi, halaa kasvojaDatasets Repository tarjoaa tutkijoille mahdollisuuden käyttää ja jakaa erilaisia ​​tietoja. Tämä yhteistyömalli edistää tekoälyekosysteemiä vähentäen riippuvuutta kapeista tietojoukoista. Myös läpinäkyvyys on tärkeässä roolissa. Käyttämällä selitettävä AI järjestelmät ja säännöllisten tarkistusten toteuttaminen voivat auttaa tunnistamaan ja korjaamaan harhoja. Tämä selitys on elintärkeä, jotta mallit pysyvät oikeudenmukaisina ja mukautuvina.

Erilaisten tiimien rakentaminen saattaa olla tehokkain ja yksinkertaisin askel. Tiimit, joilla on vaihteleva tausta, pystyvät paremmin havaitsemaan kuolleita kulmia tiedoissa ja suunnittelemaan järjestelmiä, jotka toimivat laajemmalle käyttäjäjoukolle. Osallistavat tiimit johtavat parempiin tuloksiin, mikä tekee tekoälystä kirkkaamman ja oikeudenmukaisemman.

Bottom Line

Tekoälyllä on uskomaton potentiaali, mutta sen tehokkuus riippuu sen tiedon laadusta. Datamonokulttuurit rajoittavat tätä potentiaalia tuottaen puolueellisia, joustamattomia järjestelmiä, jotka ovat irti todellisista tarpeista. Voittaakseen nämä haasteet kehittäjien, hallitusten ja yhteisöjen on tehtävä yhteistyötä monipuolistaakseen tietojoukkoja, toteuttaakseen eettisiä käytäntöjä ja edistääkseen osallistavia tiimejä.
Käsittelemällä näitä ongelmia suoraan voimme luoda älykkäämpää ja oikeudenmukaisempaa tekoälyä, joka heijastaa sen maailman monimuotoisuutta, jota sillä pyritään palvelemaan.

Dr. Tehseen Zia on vakinainen apulaisprofessori COMSATS University Islamabadissa, ja hänellä on tekoälyn tohtori Wienin teknillisestä yliopistosta, Itävallasta. Hän on erikoistunut tekoälyyn, koneoppimiseen, tietotieteeseen ja tietokonenäköön, ja hän on tehnyt merkittävän panoksen julkaisuilla arvostetuissa tieteellisissä aikakauslehdissä. Dr. Tehseen on myös johtanut erilaisia ​​teollisia projekteja päätutkijana ja toiminut tekoälykonsulttina.