Artificial Intelligence

ヘイトスピーチ検出アルゴリズムの改善を目指す新たな研究

更新中 on 2022 年 12 月 9 日

ソーシャルメディア企業、特にTwitterは、言論に警告を発し、どのアカウントを禁止するかを決定する方法について長い間批判にさらされてきた。根本的な問題は、ほとんどの場合、オンライン投稿の監視に使用されるアルゴリズムに関係しています。人工知能システムは、このタスクに関しては完璧とは程遠いですが、改善するための取り組みが常に行われています。

その作品に収録されているのは、新しい研究人種的偏見につながる可能性のある特定の間違いを減らすことを試みる南カリフォルニア大学からの研究です。

コンテキストの認識の失敗

あまり注目されていない問題の XNUMX つは、ヘイトスピーチの拡散を阻止することを目的としているが、実際には人種的偏見を増幅させるアルゴリズムに関係しています。これは、アルゴリズムがコンテキストを認識できず、少数派グループのツイートにフラグを立てたりブロックしたりする場合に発生します。

コンテキストに関するアルゴリズムの最大の問題は、「黒人」、「ゲイ」、「トランスジェンダー」などの特定のグループを識別する用語に過敏であることです。アルゴリズムではこれらのヘイトスピーチ分類子が考慮されますが、これらはこれらのグループのメンバーによって使用されることが多く、その設定は重要です。

この文脈盲目の問題を解決するために、研究者らは、より文脈に敏感なヘイトスピーチ分類器を作成しました。新しいアルゴリズムにより、投稿がヘイトスピーチとして誤ってラベル付けされる可能性が低くなります。

アルゴリズム

研究者らは、XNUMX つの新しい要素を念頭に置いて新しいアルゴリズムを開発しました。それは、グループ識別子に関するコンテキスト、もう XNUMX つは人間性を奪う言葉など、投稿内にヘイトスピーチの他の特徴があるかどうかです。

ブレンダン・ケネディはコンピューターサイエンスの博士号を取得しています。この研究はACL 6で2020月XNUMX日に発表された。

「私たちはヘイトスピーチ検出を現実世界への応用に近づけたいと考えています」とケネディ氏は述べた。

「ヘイトスピーチ検出モデルは、ソーシャルメディアやその他のオンラインテキストデータなどの実世界のデータに導入されると、しばしば「壊れ」たり、悪い予測を生成したりします。ヘイトスピーチを含む社会的識別用語。」

アルゴリズムがしばしば不正確である理由は、アルゴリズムがヘイトスピーチの割合が非常に高い不均衡なデータセットでトレーニングされているためです。このため、アルゴリズムはソーシャルメディアが現実世界でどのように見えるかを処理する方法を学習できません。

Xiang教授は自然言語処理の専門家です。

「モデルにとって重要なのは、識別子を無視するのではなく、識別子を適切なコンテキストと照合することです」とレン氏は言います。

「不均衡なデータセットからモデルを教えると、モデルは奇妙なパターンを拾い始め、ユーザーを不適切にブロックし始めます。」

このアルゴリズムをテストするために、研究者らは、ヘイトスピーチの割合が高い 12,500 つのソーシャルメディアサイトからテキストのランダムサンプルを使用しました。この文章は最初、偏見または非人間的であるとして人間によって手動でフラグが付けられました。次に、ヘイトスピーチが存在しないニューヨークタイムズの記事 77 件を使用して、この最先端のモデルを、非ヘイトスピーチに不適切にフラグを立てるための研究者独自のモデルと比較して測定しました。最先端のモデルは憎悪と非憎悪の識別において 90% の精度を達成できましたが、研究者のモデルはそれを上回る XNUMX% でした。

「この作業だけでは、ヘイトスピーチの検出を完璧にすることはできません。これは、多くの人が取り組んでいる巨大なプロジェクトですが、漸進的な進歩を遂げています」と Kennedy 氏は述べています。

「保護されたグループのメンバーによるソーシャルメディアへの投稿が不適切に検閲されるのを防ぐことに加えて、私たちの仕事が、社会的グループとの偏見と非人間化の誤った関連付けを強化することにより、ヘイトスピーチの検出が不必要な害を及ぼさないようにするのに役立つことを願っています。」