Kunstig intelligens

AI Hate Speech Detection to Combat Stereotyping & Disinformation

Published August 13, 2023

Updated April 4, 2026

Haziqa Sajid

Featured Blog Image-AI Hate Speech Detection to Combat Stereotyping & Disinformation

I dag er internettet livsnerven i global kommunikasjon og tilknytning. Men med denne utenkelige online-konnektiviteten, vitner vi også til den mørke siden av menneskelig atferd, dvs. hatytringer, stereotyper og skadelig innhold. Disse problemene har trengt inn i sosiale medier, online-forumer og andre virtuelle rom, og påfører varige skader på enkeltindivider og samfunnet. Derfor er det behov for hatytrings-deteksjon.

Ifølge Pew Research Center, sier 41% av amerikanske voksne at de personlig har møtt internett-misbruk, og 25% er ofre for alvorlig trakassering.

For å fremme en mer positiv og respektfull online-miljø, er det avgjørende å omfavne proaktive tiltak og utnytte kraften i teknologi. I denne sammenhengen tilbyr kunstig intelligens (AI) innovative løsninger for å detektere og bekjempe hatytringer og stereotyper.

Begrensninger i nåværende mitigasjonsteknikker & Behov for proaktive tiltak

De nåværende tiltakene for å mitigere hatytringer er begrensede. De kan ikke effektivt stoppe spredningen av skadelig innhold online. Disse begrensningene inkluderer:

Reaktive tilnærminger, som hovedsakelig avhenger av menneskelig moderering og statiske algoritmer, sliter med å holde pace med den raske spredningen av hatytringer.
Det enorme volumet av online-innhold overvelder menneskelige moderatorer, resulterende i forsinkede responser og manglende eksempler på skadelig retorikk.
Også, kontekstuell forståelse og utvikling av språknyanser stiller utfordringer for automatiserte systemer til å identifisere og tolke hatytringer nøyaktig.

For å adresse disse begrensningene og fremme en tryggere online-miljø, er det avgjørende å gå over til proaktive tiltak. Ved å adoptere AI-drevne tiltak, kan vi styrke våre digitale samfunn, oppmuntre til inklusivitet og en samlet online-verden.

Identifisering og flagging av hatytringer med AI

I kampen mot hatytringer, oppstår AI som en formidabel alliert, med maskinlæring (ML) algoritmer for å identifisere og flagge skadelig innhold raskt og nøyaktig. Ved å analysere store mengder data, kan AI-modeller lære å gjenkjenne mønster og språknyanser assosiert med hatytringer, og kunne kategorisere og respondere på skadelig innhold effektivt.

For å trene AI-modeller for nøyaktig hatytrings-deteksjon, brukes supervisert og usupervisert læringsteknikker. Supervisert læring innebærer å tilby merket eksempler på hatytringer og ikke-skadelig innhold for å lære modellen å skille mellom de to kategoriene. I motsetning brukes usupervisert og semi-supervisert læringsteknikker for å utvikle modellens forståelse av hatytringer.

Utnyttelse av AI-motytalesteknikker for å bekjempe hatytringer

Motytale oppstår som en kraftfull strategi for å bekjempe hatytringer ved å direkte utfordre og adresse skadelig narrativ. Det innebærer å generere overbevisende og informerende innhold for å fremme empati, forståelse og toleranse. Det gir individer og samfunn mulighet til å aktivt delta i å skape en positiv digital miljø.

Mens spesifikke detaljer om enkelt motytalemodeller kan variere basert på AI-teknologi og utviklingsmetoder, inkluderer noen vanlige funksjoner og tekniker:

Naturlig språkgenerering (NLG): Motytalemodeller bruker NLG for å produsere menneske-lignende responser i skriftlig eller talt form. Responser er koherente og kontekstuell relevant for det spesifikke eksemplet på hatytringer det motarbeider.
Sentimentanalyse: AI-motytalemodeller bruker sentimentanalyse for å vurdere den emosjonelle tonen i hatytringer og tilpasse responser deretter. Dette sikrer at motytalen er både effektiv og empatisk.
Kontekstuell forståelse: Ved å analysere konteksten rundt hatytringer, kan motytalemodeller generere responser som addresserer spesifikke problemer eller misforståelser, og bidrar til mer effektiv og fokusert motytale.
Data-mangfold: For å unngå fordommer og sikre rettferdighet, trenes motytalemodeller på diverse datasett som representerer ulike perspektiver og kulturelle nyanser. Dette hjelper til å generere inklusive og kulturelt sensitive responser.
Læring fra bruker-tilbakemelding: Motytalemodeller kan kontinuerlig forbedre seg ved å lære fra bruker-tilbakemelding. Denne tilbakemeldingsløkken tillater modellen å finjustere responser basert på virkelige interaksjoner, og forbedre effektiviteten over tid.

Eksempler på å bekjempe hatytringer med AI

Et eksempel på en AI-motytalesteknikk er “Redirect Method” utviklet av Google’s Jigsaw og Moonshot CVE. Redirect Method bruker målrettet annonsering for å nå individer som er sårbare for ekstremistiske ideologier og hatytringer. Denne AI-drevne tilnærmingen sikter til å avskrekke individer fra å engasjere seg i skadelig innhold og fremme empati, forståelse og en skifte vekk fra ekstremistiske overbevisninger.

Forskere har også utviklet en ny AI-modell kalt BiCapsHate som fungerer som et potensielt verktøy mot online hatytringer, som rapportert i IEEE Transactions on Computational Social Systems. Den støtter en to-veisk analyse av språk, og forbedrer kontekst-forståelsen for nøyaktig bestemmelse av hatefulle innhold. Denne fremgangen søker å mildne den skadelige innvirkningen av hatytringer på sosiale medier, og tilbyr potensialet for tryggere online-interaksjoner.

Tilsvarende har forskere ved University of Michigan utnyttet AI for å bekjempe online hatytringer ved å bruke en tilnærming kalt Rule By Example (RBE). Ved å bruke dyp læring, lærer denne tilnærmingen regler for klassifisering av hatytringer fra eksempler på hatefulle innhold. Disse reglene brukes til å identifisere og forutsi online hatytringer nøyaktig.

Etiske overveielser for hatytrings-deteksjonsmodeller

For å maksimere effektiviteten av AI-drevne motytalemodeller, er etiske overveielser avgjørende. Det er likevel viktig å balansere ytringsfrihet og forbud mot å spre skadelig innhold for å unngå sensur.

Gjennomsiktighet i utvikling og utrulling av AI-motytalemodeller er essensiell for å fremme tillit og ansvar blant brukere og interessenter. Å sikre rettferdighet er likeledes viktig, da fordommer i AI-modeller kan videreforplante diskriminering og eksklusjon.

For eksempel kan AI designet for å identifisere hatytringer ufrivillig forsterke rasistiske fordommer. En studie fant at ledende hatytrings-AI-modeller var 1,5 ganger mer sannsynlig til å flagge tweets fra afro-amerikanere som offensive. De var 2,2 ganger mer sannsynlig til å flagge tweets som hatytringer som var skrevet på afro-amerikansk engelsk. Tilsvarende bevis kom fra en studie av 155 800 hatytrings-relaterte Twitter-innlegg, og fremhevet utfordringen med å adresse rasistiske fordommer i AI-innholdsmoderasjon.

I en annen studie testet forskere fire AI-systemer for hatytrings-deteksjon og fant at alle av dem slitet med å nøyaktig identifisere giftige setninger. For å diagnostisere de eksakte problemene i disse hatytrings-deteksjonsmodellene, skapte de en taksonomi av 18 hatytrings-typer, inkludert skjellsord og truende språk. De fremhevet også 11 scenarier som forvirrer AI, som å bruke banalitet i ikke-hatfulle uttalelser. Som resultat produserte studien HateCheck, en åpen kilde-datasett på nesten 4 000 eksempler, med mål om å forbedre forståelsen av hatytrings-nyanser for AI-modeller.

Bevissthet og digital litteratur

Å bekjempe hatytringer og stereotyper krever en proaktiv og multidimensjonal tilnærming. Derfor er det avgjørende å øke bevisstheten og fremme digital litteratur for å bekjempe hatytringer og stereotyper.

Å utdanne individer om innvirkningen av skadelig innhold fremmer en kultur av empati og ansvarlig online-atferd. Strategier som oppmuntre kritisk tenkning gir brukerne mulighet til å skille mellom legitim diskurs og hatytringer, og reduserer spredningen av skadelig narrativ. Å utstyre brukerne med ferdighetene til å identifisere og effektivt respondere på hatytringer er også avgjørende. Dette vil gi dem mulighet til å utfordre og motarbeide skadelig retorikk, og bidra til en tryggere og mer respektfull digital miljø.

Ettersom AI-teknologien utvikler seg, vokser potensialet for å adresse hatytringer og stereotyper med større presisjon og innvirkning eksponentielt. Derfor er det viktig å etablere AI-drevne motytale som et potensielt verktøy i å fremme empati og positiv engasjement online.

For mer informasjon om AI-trender og teknologi, besøk unite.ai.