Umělá inteligence

Detekce nenávistných projevů umělé inteligence v boji proti stereotypům a dezinformacím

Zveřejněno

9 měsíci

Srpna 13, 2023

Doporučený blog Image-AI Hate Speech Detection pro boj proti stereotypům a dezinformacím

Dnes je internet mízou globální komunikace a spojení. S touto bezprecedentní online konektivitou jsme však svědky i temné stránky lidského chování, tj. nenávistných projevů, stereotypů a škodlivého obsahu. Tyto problémy pronikly do sociálních médií, online fór a dalších virtuálních prostorů a způsobily trvalé škody jednotlivcům i společnosti. Proto je potřeba detekce nenávistných projevů.

Podle Pew Research Center41 % dospělých Američanů uvedlo, že se osobně setkali se zneužíváním internetu a 25 % je obětí vážného obtěžování.

Pro podporu pozitivnějšího a ohleduplnějšího online prostředí je nezbytné přijmout proaktivní opatření a využít sílu technologie. V tomto ohledu poskytuje umělá inteligence (AI) inovativní řešení pro detekci a řešení nenávistných projevů a stereotypů.

Omezení současných zmírňujících technik a potřeba proaktivních opatření

Současná opatření ke zmírnění nenávistných projevů jsou omezená. Nemohou účinně omezit šíření škodlivého obsahu online. Mezi tato omezení patří:

Reaktivní přístupy, které se převážně spoléhají na lidskou umírněnost a statické algoritmy, se snaží udržet krok s rychlým šířením nenávistných projevů.
Naprostý objem online obsahu zahlcuje lidské moderátory, což má za následek opožděné reakce a zmeškané případy škodlivé rétoriky.
Kontextové porozumění a vyvíjející se jazykové nuance také představují výzvu pro automatizované systémy, aby přesně identifikovaly a interpretovaly případy nenávistných projevů.

K vyřešení těchto omezení a podpoře bezpečnějšího online prostředí je nezbytný posun k proaktivním opatřením. Přijetím opatření založených na umělé inteligenci můžeme posílit naše digitální komunity, podpořit inkluzivitu a soudržný online svět.

Identifikace a nahlašování nenávistných projevů pomocí AI

V boji proti nenávistným projevům se AI ukazuje jako impozantní spojenec s algoritmy strojového učení (ML), které rychle a přesně identifikují a označují škodlivý obsah. Analýzou obrovského množství dat se modely umělé inteligence mohou naučit rozpoznávat vzorce a jazykové nuance spojené s nenávistnými projevy, což jim umožňuje efektivně kategorizovat urážlivý obsah a reagovat na něj.

Na modely AI vlaků za přesné nenávistné projevy detekce, techniky učení pod dohledem a bez dozoru. Učení pod dohledem zahrnuje poskytování označených příkladů nenávistných projevů a obsahu, který není škodlivý, aby se model naučil rozlišovat mezi těmito dvěma kategoriemi. Naproti tomu metody učení bez dozoru a částečně pod dozorem využívají neoznačená data k rozvoji modelového chápání nenávistných projevů.

Využití technik protimluv AI pro boj s nenávistnými projevy

Protiřeč se ukazuje jako účinná strategie boje nenávistné projevy přímým zpochybňováním a řešením škodlivých narativů. Zahrnuje vytváření přesvědčivého a informativního obsahu na podporu empatie, porozumění a tolerance. Umožňuje jednotlivcům a komunitám aktivně se podílet na vytváření pozitivního digitálního prostředí.

I když se konkrétní detaily jednotlivých modelů protimluvy mohou lišit v závislosti na technologii AI a přístupech k vývoji, některé společné rysy a techniky zahrnují:

Generování přirozeného jazyka (NLG): Modely protimluvy používají NLG k vytváření lidských odpovědí v psané nebo mluvené formě. Odpovědi jsou koherentní a kontextově relevantní pro konkrétní případ nenávistných projevů, proti nimž se obrací.
Analýza sentimentu: Modely AI protiřečů využívají analýzu sentimentu k posouzení emocionálního tónu nenávistných projevů a podle toho přizpůsobují své reakce. To zajišťuje, že protiřeč je působivá a empatická.
Kontextové porozumění: Analýzou kontextu obklopujícího nenávistné projevy mohou modely protimluv generovat odpovědi týkající se konkrétních problémů nebo mylných představ, což přispívá k efektivnějšímu a cílenějšímu protiřeči.
Rozmanitost dat: Aby se předešlo předsudkům a zajistila se spravedlnost, jsou modely protimluvy trénovány na různých souborech dat představujících různé perspektivy a kulturní nuance. To pomáhá při vytváření inkluzivních a kulturně citlivých reakcí.
Poučení z uživatelské zpětné vazby: Modely protimluvy se mohou neustále zlepšovat učením se ze zpětné vazby od uživatelů. Tato smyčka zpětné vazby umožňuje modelu vylepšit své reakce na základě interakcí v reálném světě, což zvyšuje jeho efektivitu v průběhu času.

Příklady boje proti nenávistným projevům pomocí AI

Reálným příkladem techniky protiřeči umělé inteligence je „Metoda přesměrování“vyvinul Jigsaw společnosti Google a Moonshot CVE. Metoda přesměrování využívá cílenou reklamu k oslovení jedinců náchylných k extremistickým ideologiím a nenávistným projevům. Tento přístup založený na umělé inteligenci má za cíl odradit jednotlivce od zapojování se do škodlivého obsahu a podporovat empatii, porozumění a odklon od extremistických přesvědčení.

Výzkumníci také vyvinuli nový model umělé inteligence s názvem BiCapsHate který funguje jako účinný nástroj proti online nenávistným projevům, jak bylo uvedeno v IEEE transakce na výpočetních sociálních systémech. Podporuje obousměrnou analýzu jazyka, zlepšuje porozumění kontextu pro přesné určení nenávistného obsahu. Tento pokrok se snaží zmírnit škodlivý dopad nenávistných projevů na sociálních sítích a nabízí potenciál pro bezpečnější online interakce.

Podobně výzkumníci na University of Michigan využili AI k boji proti online nenávistným projevům pomocí přístupu tzv Pravidlo podle příkladu (RBE). Pomocí hlubokého učení se tento přístup učí pravidla klasifikace projevů nenávisti na příkladech nenávistného obsahu. Tato pravidla se používají pro zadávání textu, aby bylo možné přesně identifikovat a předvídat online nenávistné projevy.

Etická hlediska pro modely detekce nenávistných projevů

Chcete-li maximalizovat účinnost modelů protimluvy s umělou inteligencí, etické úvahy jsou prvořadé. Je však důležité vyvážit svobodu projevu a zákaz šíření škodlivého obsahu, aby se zabránilo cenzuře.

Transparentnost při vývoji a zavádění modelů protimluv AI je zásadní pro posílení důvěry a odpovědnosti mezi uživateli a zúčastněnými stranami. Stejně důležité je také zajištění spravedlnosti zkreslení v modelech AI může udržovat diskriminaci a vyloučení.

Například umělá inteligence určená k identifikaci nenávistných projevů se může nechtěně zesílit rasová zaujatost. Výzkum zjistil, že přední modely umělé inteligence s nenávistnými projevy měly 1.5krát vyšší pravděpodobnost, že označí tweety Afroameričanů za urážlivé. Je u nich 2.2krát vyšší pravděpodobnost, že označí tweety jako nenávistné projevy, které jsou napsány Afroamerická angličtina. Podobné důkazy vyplynuly ze studie 155,800 XNUMX příspěvků na Twitteru souvisejících s nenávistnými projevy, zdůrazňující problém řešení rasových předsudků při moderování obsahu AI.

v jiném studovat, výzkumníci testovali čtyři systémy umělé inteligence pro detekci nenávistných projevů a zjistili, že všechny mají potíže s přesnou identifikací toxických vět. Aby diagnostikovali přesné problémy v těchto modelech detekce nenávistných projevů, vytvořili taxonomii 18 typů nenávistných projevů, včetně nadávek a výhružných výrazů. Zdůraznili také 11 scénářů, které narušují umělou inteligenci, jako je například používání vulgárních výrazů v nenávistných prohlášeních. Výsledkem byla studie HateCheck, soubor dat s otevřeným zdrojem obsahující téměř 4,000 XNUMX příkladů, jehož cílem je zlepšit porozumění nuancím nenávistných projevů pro modely umělé inteligence.

Povědomí a digitální gramotnost

Boj proti nenávistným projevům a stereotypům vyžaduje proaktivní a vícerozměrný přístup. Zvyšování povědomí a podpora digitální gramotnosti je proto zásadní v boji proti nenávistným projevům a stereotypům.

Vzdělávání jednotlivců o dopadu škodlivého obsahu podporuje kulturu empatie a odpovědného online chování. Strategie, které podporují kritické myšlení, umožňují uživatelům rozlišovat mezi legitimním projevem a nenávistným projevem, čímž snižují šíření škodlivých narativů. Důležité je také vybavit uživatele dovednostmi identifikovat nenávistné projevy a účinně na ně reagovat. Umožní jim to napadnout škodlivou rétoriku a čelit jí, což přispěje k bezpečnějšímu a ohleduplnějšímu digitálnímu prostředí.

S vývojem technologie AI exponenciálně roste potenciál řešit nenávistné projevy a stereotypy s větší přesností a dopadem. Proto je důležité upevnit protiřeč s umělou inteligencí jako účinný nástroj pro podporu empatie a pozitivního zapojení online.

Další informace o trendech a technologii umělé inteligence naleznete na adrese unite.ai.