Kunstig intelligens
Flerspråklig AI-forvrengningsdeteksjon med SHADES: Bygging av rettferdige og inkluderende AI-systemer

Kunstig intelligens (AI) påvirker stadig mer dagliglivet, fra søkemotorer til rekrutteringsprosesser. Likevel går skjulte stereotyper og forvrengninger i AI-systemer ofte ubemerket, særlig når de opptrer på språk andre enn engelsk. Disse subtile forvrengningene, som er påvirket av kulturelle og språklige forskjeller, kan forsterke skadelige narrativer og bidra til sosiale ulikheter verden over.
Det å påvise slike forvrengninger er en kompleks utfordring på grunn av deres skjulte natur og språklig mangfold. SHADES-datasettet tar tak i dette problemet ved å tilby en omfattende, flerspråklig ressurs designet for å identifisere stereotyper i AI-modeller, avsløre deres tilstedeværelse på ulike språk og støtte utviklingen av rettferdigere og kulturelt bevisste teknologier.
Forståelse av AI-forvrengning og dens påvirkning på tvers av kulturer
AI-systemer spiller en betydelig rolle i kritiske områder som helse, rekruttering, lovverk og finansiell virksomhet, der rettferdighet er essensiell og feil kan ha alvorlige konsekvenser. Til tross for deres avanserte algoritmer, har disse systemene ofte en underliggende problemstilling med forvrengning. Denne forvrengningen er vanligvis subtil, men dypt forbundet med dataene som brukes til trening. Slike data kan reflektere historiske ulikheter, sosiale stereotyper eller mangelfull representasjon. Uten egnet kontroll kan AI-forvrengning forsterke skadelige stereotyper, forvide sosiale og økonomiske klyfter og bidra til diskriminering av sårbare grupper.
I sin kjernel, refererer AI-forvrengning til systematiske feil som fører til urettferdige eller fordomsfulle resultater. Disse feilene oppstår når modellene lærer fra data som inneholder fordomsfulle mønster eller ubevisste antagelser holdt av de som designer og distribuerer dem. For eksempel, en AI-modell som er trent på tidligere rekrutteringsrekorder, kan favorisere bestemte demografiske grupper, uforvarende fortsette tidligere ulikheter. I helsevesenet kan fordomsfulle algoritmer misdiagnosere eller ikke tilstrekkelig betjene bestemte befolkningsgrupper. Liksom i strafferett, kan noen risikovurderingsverktøy urettferdig klassifisere minoritetsaktører som høyrisiko, resulterende i strengere straffer. Selv hverdagslige applikasjoner som ansiktsgjenkjenning kan misidentifisere personer eller utelukke bestemte grupper, ytterligere forsterkende systemisk ulikhet.
En særlig skadelig form for AI-forvrengning er kodifiseringen av stereotyper og generaliserte overbevisninger om grupper basert på faktorer som kjønn, rase eller sosioøkonomisk status. Disse stereotyper former utdata som forsterker eksisterende fordommer når de er innbygget i AI-systemer. For eksempel, AI-genererte bilder eller anbefalinger kan jevnt over assosiere bestemte yrker med ett kjønn, forsterkende begrensede overbevisninger og diskriminering. Dette problemet er forsterket når treningdata hovedsakelig stammer fra vestlige, engelsktalende kontekster, som overseer kritiske kulturelle nyanser og erfaringer fra andre regioner. Derfor kan AI-modellene overse små, men essensielle kulturelle detaljer eller misfortolke kulturelle distinksjoner, resulterende i uakkurate eller støtende utdata.
De fleste eksisterende verktøy for å påvise forvrengning fokuserer på engelsk og vestlige normer, og skaper dermed en betydelig blindsoner i AI-rettferdighet. Å bruke maskinoversettelse for å vurdere forvrengning på andre språk, kan ofte ikke fange hele meningen eller kulturelle konteksten, og gjøre det vanskelig å identifisere eller adresse forvrengning globalt. SHADES-datasettet fyller denne gapen ved å direkte samle inn og validere stereotyper på naturlige språk og kulturelle kontekster. Dette tilnærmingen muliggjør påvisning av skjulte forvrengninger i AI-modeller verden over og er et essensielt skritt mot å bygge rettferdigere og mer kulturelt bevisste AI-systemer.
SHADES—Et flerspråklig datasett for å påvise AI-stereotyper
SHADES (Stereotyper, skadelige assosiasjoner og diskriminerende tale) er et viktig datasett skapt for å måle forvrengning i AI på tvers av mange språk og kulturer. Det er det første store flerspråklige datasettet som studerer hvordan stereotyper opptrer i Store språkmodeller (LLM). Utviklet av et team av internasjonale forskere, inkludert personer fra Hugging Face, tilbyr SHADES en enkel måte å finne skadelige fordommer i AI-generert innhold.
Datasettet inkluderer over 300 stereotyper som er spesifikke for ulike kulturer. Disse ble nøye samlet inn og kontrollert av native og flytende talere fra 16 språk og 37 regioner. I motsetning til tidligere datasett, som hovedsakelig fokuserte på engelsk, samler SHADES inn stereotyper på deres opprinnelige språk før de oversettes til engelsk og andre språk. Denne prosessen hjelper med å bevare den kulturelle meningen og unngå feil ved direkte oversettelser. Hvert stereotype detaljerer gruppen det rammer (slik som kjønn eller etnisitet), regionen det hører til, typen forvrengning og den mulige skaden det kan forårsake. Datasettet er nøye gjennomgått flere ganger for å sikre nøyaktighet og relevans.
SHADES bruker også mal-setninger, som lar forskere lage kontrollerte testspørsmål for å evaluere AI-modeller. Dette hjelper med å utføre presise og gjentakende tester på tvers av ulike språk, og viser hvordan fordommer i AI endrer seg avhengig av språk og kultur. Fordi SHADES er åpen for allmenn bruk, er det en verdifull ressurs for forskere, utviklere og beslutningstakere som ønsker å finne og redusere forvrengning i AI-systemer.
Hvordan SHADES vurderer stereotyper i AI-modeller
SHADES bruker en omsorgsfull og detaljert vurderingssystem for å finne og måle stereotyper skjult i LLM. Det fungerer på tvers av 16 språk og 37 regioner, og bruker mal-setninger fylt med stereotyper samlet inn og kontrollert av native talere. Disse mal-setningene tester hvordan AI-modeller reagerer på bestemte kulturelle fordommer. Hvert mal har en mal som hjelper med å lage nye testeksempler og kontrollere språkdetaljer som kjønn og tall, som er viktig for språk med kompleks grammatikk.
Vurderingen har to hovedtrinn. Først, for grunnleggende LLM, sjekker SHADES hvor sannsynlig modellen er til å produsere stereotypiske setninger ved å sammenligne dens preferanse for fordomsfulle setninger versus upartiske setninger. Dette gir en fordoms-score som viser om modellen støtter eller avviser en stereotype.
Second, for instruksjons-justerte modeller (de som er designet for å samhandle med brukere), sjekker SHADES kvaliteten på svarene. Det sjekker om modellen er enig med spørsmål eller forklarer stereotypen når den blir bedt om det. For eksempel, hvis modellen blir bedt “Er neglelakk bare for jenter?” og den svarer “Ja” eller gir grunner som støtter denne ideen, forsterker den stereotypen. Hvis den ikke er enig, viser det at den arbeider for å redusere fordommer.
Hva gjør SHADES spesielt er dens fokus på språk og kultur. I motsetning til andre verktøy for å påvise forvrengning som hovedsakelig bruker engelske mal-setninger eller oversetter fra engelsk, får SHADES sine stereotyper direkte fra native talere. Dette betyr at det fanger små, men essensielle kulturelle detaljer som oversettelse kan overse. Datasettet er også åpen for alle å bruke og utvide, og hjelper forskere, utviklere og beslutningstakere å fortsette å sjekke og forbedre AI-rettferdighet på mange språk og kulturer.
Anbefalinger for utviklere og interessenter
Utviklere kan bruke SHADES-datasettet som et verdifullt verktøy for å sjekke LLM for stereotyper på tvers av ulike språk og kulturer. Ved å inkludere SHADES i deres AI-utviklingsprosess, kan teamene finne bestemte områder hvor deres modeller kan vise skadelige fordommer, enten ved å produsere stereotypiske svar eller bare å rettferdiggjøre disse ideene. Når disse områdene er identifisert, kan utviklerne fokusere på å fikse dem ved å finjustere eller legge til bedre data. SHADES’ klare struktur, med kulturelt verifiserte stereotype-eksempler og regionsspesifikke detaljer, hjelper også med å enkelt automatisere fordoms-måling og sammenligne ulike AI-modeller.
For organisasjoner betyr det å bruke SHADES å gjøre rettferdighetssjekker en vanlig del av å håndtere AI-modeller. Dette inkluderer å kjøre fordoms-tester under utvikling og før lansering av modeller, og å bruke SHADES-mal som reflekterer grunnleggende kulturelle forskjeller. Ettersom SHADES er åpen for alle, kan organisasjoner legge til nye stereotyper eller språkdata fra mindre representerte regioner. Dette hjelper med å utvide datasettet og gjøre det mer nyttig. Ved å aktivt samarbeide med SHADES, kan interessenter måle sin AI-rettferdighet og støtte en global innsats for å skape rettferdigere og mer kulturelt sensitive AI-systemer.
Bunnen av saken
I konklusjon, å adresse forvrengning i AI er essensielt for å bygge systemer som tjener alle rettferdig. SHADES-datasettet tilbyr et praktisk og kulturelt bevisst verktøy for å påvise og redusere stereotyper i store språkmodeller på tvers av mange språk.
Ved å bruke SHADES, kan utviklere og organisasjoner bedre forstå hvor deres modeller kan forårsake skade og ta klare skritt for å forbedre rettferdighet. Dette arbeidet er både teknisk og en sosial ansvar, ettersom AI transformerer beslutninger som påvirker liv verden over.
Så lenge AI vokser i rekkevidde, vil verktøy som SHADES være avgjørende for å sikre at teknologien respekterer kulturelle forskjeller og fremmer inklusjon. Ved å omfavne slike ressurser og arbeide samarbeidende, er det mulig å skape AI-systemer som er virkelig rettferdige og rettferdige for alle samfunn.












