Umělá inteligence
Nová studie se snaží zlepšit algoritmy pro detekci hate speech

Společnosti provozující sociální média, zejména Twitter, čelily již dlouhou dobu kritice za to, jak označují projevy a rozhodují, které účty zakázat. Základním problémem je téměř vždy otázka algoritmů, které používají k monitorování online příspěvků. Systémy umělé inteligence jsou daleko od dokonalosti, co se týče této úlohy, ale neustále se na nich pracuje, aby je bylo možné zlepšit.
Tato práce zahrnuje i novou studii z Jižní Kalifornské university, která se snaží snížit určité chyby, které by mohly vést k rasovým předsudkům.
Nezjištění kontextu
Jedním z problémů, které nedostávají dostatečnou pozornost, je otázka algoritmů, které mají zastavit šíření nenávistných projevů, ale ve skutečnosti zesilují rasové předsudky. To se děje, když algoritmy nezjišťují kontext a nakonec označují nebo blokují tweety menšinových skupin.
Největším problémem algoritmů v souvislosti s kontextem je, že jsou příliš citlivé na určitá skupina identifikačních termínů, jako je „černý“, „gay“ a „transgender“. Algoritmy považují tyto termíny za klasifikátory hate speech, ale často je používají členové těchto skupin a kontext je důležitý.
V pokusu vyřešit tento problém kontextové slepoty vytvořili výzkumníci více kontextově citlivý klasifikátor hate speech. Nový algoritmus je méně pravděpodobně chybně označí příspěvek jako hate speech.
Algoritmus
Výzkumníci vyvinuli nové algoritmy s dvěma novými faktory: kontextem ve vztahu ke skupinovým identifikátorům a zda jsou v příspěvku přítomny i další rysy hate speech, jako je dehumanizující jazyk.
Brendan Kennedy je doktorand počítačové vědy a spoluautor studie, která byla zveřejněna 6. července na ACL 2020.
“Chceme přivést detekci hate speech blíže k reálnému použití,” řekl Kennedy.
“Modely detekce hate speech často „selhávají“ nebo generují špatné předpovědi, když jsou vystaveny reálným datům, jako jsou sociální média nebo jiná online textová data, protože jsou zkresleny daty, na kterých byly trénovány, aby spojily výskyt sociálních identifikačních termínů s hate speech.”
Důvod, proč jsou algoritmy často nepřesné, je ten, že jsou trénovány na nevyvážených datech s extrémně vysokými sazbami hate speech. V důsledku toho algoritmy nedokáží naučit se, jak zvládat to, jak vypadají sociální média ve skutečném světě.
Profesor Xiang je odborníkem na zpracování přirozeného jazyka.
“Je důležité, aby modely neignorovaly identifikátory, ale aby je spojily s pravým kontextem,” řekl Ren.
“Pokud učíte model z nevyváženého datasetu, model začíná zachycovat podivné vzorce a blokovat uživatele nevhodně.”
K otestování algoritmu použili výzkumníci náhodný vzorek textu ze dvou sociálních médií s vysokou mírou hate speech. Text byl nejprve ručně označen lidmi jako předsudkový nebo dehumanizující. Model současného stavu byl poté měřen proti modelu výzkumníků pro nevhodné označení ne-hate speech, a to pomocí 12 500 článků z New York Times bez hate speech. Zatímco modely současného stavu dosáhly 77% přesnosti při identifikaci hate vs non-hate, model výzkumníků dosáhl vyšší přesnosti 90%.
“Tato práce sama o sobě nedělá detekci hate speech dokonalou, to je obrovský projekt, na kterém pracuje mnoho lidí, ale dělá dílčí pokrok,” řekl Kennedy.
“Kromě prevence sociálních médií, aby příspěvky členů chráněných skupin nebyly nevhodně cenzurovány, doufáme, že naše práce pomůže zajistit, aby detekce hate speech nezpůsobovala zbytečné škody tím, že bude posilovat falešné asociace předsudků a dehumanizace se sociálními skupinami.”










