Kunstig intelligens
Ny studie forsøker å forbedre algoritmer for å oppdage hatytringer

Sosiale medie-selskaper, spesielt Twitter, har lenge vært kritisiert for hvordan de markerer tale og bestemmer hvilke kontoer som skal bli blokkert. Det underliggende problemet har nesten alltid å gjøre med algoritmene de bruker til å overvåke nettinnlegg. Kunstig intelligens-systemer er langt ifra perfekte når det gjelder denne oppgaven, men det pågår kontinuerlig arbeid for å forbedre dem.
Inkludert i dette arbeidet er en ny studie fra University of Southern California som forsøker å redusere visse feil som kan føre til rasistisk bias.
Feil i å gjenkjenne kontekst
En av problemene som ikke får så mye oppmerksomhet, har å gjøre med algoritmer som er ment å stoppe spredning av hatefulle ytringer, men i stedet forsterker rasistisk bias. Dette skjer når algoritmene ikke klarer å gjenkjenne kontekst og ender opp med å markere eller blokkere tweets fra minoritetsgrupper.
Det største problemet med algoritmene i forhold til kontekst, er at de er overfølsomme overfor visse gruppe-identifiserende termer som “svart”, “homofil” og “transperson”. Algoritmene betrakter disse som hatefulle ytringer, men de brukes ofte av medlemmer av disse gruppene og konteksten er viktig.
I et forsøk på å løse dette problemet med kontekst-blindhet, har forskerne utviklet en mer kontekst-følsom hatefulle ytringer-klassifisator. Den nye algoritmen er mindre sannsynlig til å feilmerke en post som hatefulle ytringer.
Algoritmen
Forskerne utviklet de nye algoritmene med to nye faktorer i mente: konteksten i forhold til gruppe-identifikatorer, og om det også er andre trekk ved hatefulle ytringer til stede i innlegget, som dehumaniserende språk.
Brendan Kennedy er en datavitenskaps-student og med-forfatter av studien, som ble publisert 6. juli på ACL 2020.
“Vi ønsker å bringe hatefulle ytringer-oppdaging nærmere å være klar for virkelighets-tilpasning,” sa Kennedy.
“Hatefulle ytringer-oppdaging-modeller bryter ofte sammen, eller genererer dårlige prediksjoner, når de introduseres til virkelighets-data, som sosiale medier eller andre nett-tekst-data, fordi de er forvrengt av dataene de er trent på å assosiere utseendet av sosiale identifikatorer med hatefulle ytringer.”
Grunden til at algoritmene ofte er upresise, er at de er trent på ubalanserte datasett med ekstremt høye rater av hatefulle ytringer. På grunn av dette, klarer algoritmene ikke å lære hvordan de skal håndtere hva sosiale medier faktisk ser ut i den virkelige verden.
Professor Xiang er en ekspert i naturlig språk-behandling.
“Det er nøkkel for modellene å ikke ignorere identifikatorer, men å matche dem med riktig kontekst,” sa Ren.
“Hvis du lærer en modell fra et ubalansert datasett, begynner modellen å plukke opp rare mønster og blokkere brukere upassende.”
For å teste algoritmen, brukte forskerne en tilfeldig utvalg av tekst fra to sosiale medie-sider som har en høy rate av hatefulle ytringer. Teksten ble først hånd-merket av mennesker som fordomsfulle eller dehumaniserende. State-of-the-art-modellen ble så målt mot forskernes egen modell for upassende merking av ikke-hatefulle ytringer, gjennom bruk av 12 500 New York Times-artikler med ingen hatefulle ytringer til stede. Mens state-of-the-art-modellene klarte å oppnå 77% nøyaktighet i å identifisere hatefulle ytringer vs ikke-hatefulle ytringer, var forskernes modell høyere med 90%.
“Dette arbeidet alene gjør ikke hatefulle ytringer-oppdaging perfekt, det er et stort prosjekt som mange jobber med, men det gjør inkrementelle fremgang,” sa Kennedy.
“I tillegg til å forhindre sosiale medie-innlegg fra medlemmer av beskyttede grupper fra å bli upassende censurert, håper vi vårt arbeid vil hjelpe med å sikre at hatefulle ytringer-oppdaging ikke gjør unødvendig skade ved å forsterke feilaktige assosiasjoner av fordom og dehumanisering med sosiale grupper.”










