Artificiell intelligens
Ny studie försöker förbÀttra algoritmer för upptÀckt av hatprat

Sociala medieföretag, särskilt Twitter, har länge fått kritik för hur de flaggar tal och beslutar vilka konton som ska stängas. Det underliggande problemet har nästan alltid att göra med de algoritmer som de använder för att övervaka onlineinlägg. Artificiell intelligens är långt ifrån perfekt när det gäller denna uppgift, men det pågår ständigt arbete för att förbättra dem.
Inkluderat i detta arbete är en ny studie från University of Southern California som försöker minska vissa fel som kan resultera i rasistisk bias.
Oförmåga att känna igen sammanhang
En av de frågor som inte får så mycket uppmärksamhet har att göra med algoritmer som är avsedda att stoppa spridningen av hatiskt tal, men som i själva verket förstärker rasistisk bias. Detta händer när algoritmerna inte kan känna igen sammanhang och slutar flagga eller blockera tweets från minoritetsgrupper.
Det största problemet med algoritmerna i fråga om sammanhang är att de är överkänsliga för vissa grupp-identifierande termer som “svart”, “homosexuell” och “transgender”. Algoritmerna betraktar dessa som hatprat-klassificerare, men de används ofta av medlemmar i dessa grupper och sammanhanget är viktigt.
I ett försök att lösa detta problem med sammanhangsblindhet skapade forskarna en mer sammanhangskänslig hatprat-klassificerare. Den nya algoritmen är mindre benägen att felaktigt märka en post som hatprat.
Algoritmen
Forskarna utvecklade de nya algoritmerna med två nya faktorer i åtanke: sammanhanget i förhållande till grupp-identifierarna, och om det också finns andra funktioner av hatprat närvarande i inlägget, som avhumaniserande språk.
Brendan Kennedy är en datavetenskaps-student och medförfattare till studien, som publicerades den 6 juli på ACL 2020.
“Vi vill föra hatprat-upptäckt närmare att vara redo för verklig tillämpning”, sa Kennedy.
“Hatprat-upptäcktsmodeller ‘kryper’, eller genererar dåliga förutsägelser, när de introduceras till verkliga data, såsom sociala medier eller andra online-textdata, eftersom de är fördomade av de data som de tränas på för att associera utseendet av sociala identifierare med hatprat.”
Anledningen till att algoritmerna ofta är inkorrekta är att de tränas på obalanserade datamängder med extremt höga halter av hatprat. På grund av detta misslyckas algoritmerna med att lära sig hur man hanterar vad sociala medier faktiskt ser ut i den verkliga världen.
Professor Xiang är expert på naturligt språkbehandling.
“Det är viktigt för modeller att inte ignorera identifierare, utan att matcha dem med rätt sammanhang”, sa Ren.
“Om du lär en modell från en obalanserad datamängd, börjar modellen plocka upp konstiga mönster och blockera användare på ett olämpligt sätt.”
För att testa algoritmen använde forskarna ett slumpmässigt urval av text från två sociala medieplatser som har en hög frekvens av hatprat. Texten var först handflaggad av människor som fördomsfull eller avhumaniserande. Den senaste modellen mättes sedan mot forskarnas egen modell för att olämpligt flagga icke-hatprat, genom användning av 12 500 New York Times-artiklar med inget hatprat närvarande. Medan den senaste modellen kunde uppnå 77% noggrannhet i att identifiera hat kontra icke-hat, var forskarnas modell högre på 90%.
“Detta arbete i sig gör inte hatprat-upptäckt perfekt, det är ett stort projekt som många arbetar på, men det gör inkrementellt framsteg”, sa Kennedy.
“Förutom att förhindra att sociala medieinlägg från medlemmar i skyddade grupper olämpligt censureras, hoppas vi att vårt arbete kommer att hjälpa till att säkerställa att hatprat-upptäckt inte gör onödig skada genom att förstärka felaktiga associationer av fördomar och avhumanisering med sociala grupper.”












