Kunstig intelligens
Datamonokulturer i AI: Trusler mot mangfold og innovasjon

AI omformer verden, fra å transformere helsevesenet til å reformere utdanning. Det er å takle langvarige utfordringer og åpne muligheter vi aldri trodde var mulig. Data er i sentrum av denne revolusjonen – drivstoffet som driver hver AI-modell. Det er det som gjør disse systemene i stand til å lage spådommer, finne mønstre og levere løsninger som påvirker hverdagen vår.
Men mens denne overfloden av data driver innovasjon, utgjør dominansen av enhetlige datasett – ofte referert til som datamonokulturer – betydelig risiko for mangfold og kreativitet i AI-utvikling. Dette er som oppdrettsmonokultur, der planting av samme avling på store jorder gjør økosystemet skjørt og sårbart for skadedyr og sykdommer. I AI skaper avhengighet av enhetlige datasett rigide, partiske og ofte upålitelige modeller.
Denne artikkelen dykker ned i konseptet med datamonokulturer, undersøker hva de er, hvorfor de vedvarer, risikoen de medfører, og trinnene vi kan ta for å bygge AI-systemer som er smartere, rettferdigere og mer inkluderende.
Forstå datamonokulturer
En datamonokultur oppstår når et enkelt datasett eller et smalt sett med datakilder dominerer opplæringen av AI-systemer. Ansiktsgjenkjenning er et godt dokumentert eksempel på datamonokultur i AI. Studier fra MIT Media Lab fant at modeller trente hovedsakelig på bilder av lysere individer som slet med mørkere ansikter. Feilrater for mørkere kvinner nådde 34.7 %, sammenlignet med bare 0.8 % for lysere menn. Disse resultatene fremhever virkningen av treningsdata som ikke inkluderte nok mangfold i hudtoner.
Lignende problemer oppstår på andre felt. For eksempel er store språkmodeller (LLM) som OpenAIs GPT og Googles Bard trent på datasett som i stor grad er avhengig av engelskspråklig innhold hovedsakelig hentet fra vestlige kontekster. Denne mangelen på mangfold gjør dem mindre nøyaktige når det gjelder å forstå språk og kulturelle nyanser fra andre deler av verden. Land som India er utvikle LLM-er som bedre reflekterer lokale språk og kulturelle verdier.
Dette problemet kan være kritisk, spesielt i felt som helsetjenester. For eksempel kan et medisinsk diagnostisk verktøy trent hovedsakelig på data fra europeiske populasjoner gi dårlige resultater i regioner med forskjellige genetiske og miljømessige faktorer.
Hvor datamonokulturer kommer fra
Datamonokulturer i AI oppstår av en rekke årsaker. Populære datasett som IMAGEnet og COCO er massive, lett tilgjengelige og mye brukt. Men de gjenspeiler ofte et snevert, vestlig-sentrisk syn. Å samle ulike data er ikke billig, så mange mindre organisasjoner er avhengige av disse eksisterende datasettene. Denne avhengigheten forsterker mangelen på variasjon.
Standardisering er også en nøkkelfaktor. Forskere bruker ofte anerkjente datasett for å sammenligne resultatene deres, og utilsiktet fraråder leting av alternative kilder. Denne trenden skaper en tilbakemeldingssløyfe der alle optimaliserer for de samme referansene i stedet for å løse problemer i den virkelige verden.
Noen ganger oppstår disse problemene på grunn av tilsyn. Datasettskapere kan utilsiktet utelate visse grupper, språk eller regioner. For eksempel taklet ikke tidlige versjoner av stemmeassistenter som Siri ikke-vestlige aksenter godt. Årsaken var at utviklerne ikke inkluderte nok data fra disse regionene. Disse tilsynene skaper verktøy som ikke oppfyller behovene til et globalt publikum.
Hvorfor det gjelder
Ettersom AI tar på seg mer fremtredende roller i beslutningstaking, kan datamonokulturer få konsekvenser i den virkelige verden. AI-modeller kan forsterke diskriminering når de arver skjevheter fra treningsdataene sine. EN ansettelsesalgoritme trent på data fra mannsdominerte bransjer kan utilsiktet favorisere mannlige kandidater, og ekskludere kvalifiserte kvinner fra vurdering.
Kulturell representasjon er en annen utfordring. Anbefalingssystemer som Netflix og Spotify har ofte favoriserte Vestlige preferanser, sidelinjen innhold fra andre kulturer. Denne diskrimineringen begrenser brukeropplevelsen og demper innovasjon ved å holde ideene smale og repeterende.
AI-systemer kan også bli skjøre når de trenes på begrenset data. Under COVID-19-pandemien trente medisinske modeller på pre-pandemidata mislyktes å tilpasse seg kompleksiteten i en global helsekrise. Denne stivheten kan gjøre AI-systemer mindre nyttige når de står overfor uventede situasjoner.
Datamonokultur kan også føre til etiske og juridiske problemer. Selskaper som Twitter og Apple har møtt offentlig tilbakeslag for partiske algoritmer. Twitters bildebeskjæringsverktøy ble anklaget for Raseforspenning, mens Apple Cards kredittalgoritme angivelig tilbudt nedre grenser for kvinner. Disse kontroversene skader tilliten til produkter og reiser spørsmål om ansvarlighet i AI-utvikling.
Hvordan fikse datamonokulturer
Å løse problemet med datamonokulturer krever utvidelse av datautvalget som brukes til å trene AI-systemer. Denne oppgaven krever utvikling av verktøy og teknologier som gjør det enklere å samle inn data fra ulike kilder. Prosjekter som Mozillas vanlige stemme, for eksempel samle stemmeprøver fra mennesker over hele verden, og skape et rikere datasett med ulike aksenter og språk – på samme måte fokuserer initiativer som UNESCOs Data for AI på å inkludere underrepresenterte samfunn.
Etablering av etiske retningslinjer er et annet viktig skritt. Rammer som Toronto-erklæringen fremme åpenhet og inkludering for å sikre at AI-systemer er rettferdige ved design. Sterke retningslinjer for datastyring inspirert av GDPR reguleringer kan også utgjøre en stor forskjell. De krever tydelig dokumentasjon av datakilder og holder organisasjoner ansvarlige for å sikre mangfold.
Open source-plattformer kan også gjøre en forskjell. For eksempel klemmer ansiktet's Dataset Repository lar forskere få tilgang til og dele forskjellige data. Denne samarbeidsmodellen fremmer AI-økosystemet, og reduserer avhengigheten av smale datasett. Åpenhet spiller også en viktig rolle. Bruker forklarbar AI systemer og implementering av regelmessige kontroller kan bidra til å identifisere og korrigere skjevheter. Denne forklaringen er avgjørende for å holde modellene både rettferdige og tilpasningsdyktige.
Å bygge forskjellige team kan være det mest effektive og enkle trinnet. Team med variert bakgrunn er flinkere til å oppdage blindsoner i data og designe systemer som fungerer for et bredere spekter av brukere. Inkluderende team fører til bedre resultater, noe som gjør AI lysere og mer rettferdig.
Bunnlinjen
AI har et utrolig potensial, men effektiviteten avhenger av datakvaliteten. Datamonokulturer begrenser dette potensialet, og produserer partiske, lite fleksible systemer koblet fra virkelige behov. For å overvinne disse utfordringene må utviklere, myndigheter og lokalsamfunn samarbeide for å diversifisere datasett, implementere etisk praksis og fremme inkluderende team.
Ved å takle disse problemene direkte, kan vi skape mer intelligent og rettferdig AI, som gjenspeiler mangfoldet i verden den har som mål å tjene.