人工知能4 years ago
機械学習を用いたプロパガンダの生成と識別
米国とカタールの新たな研究は、偽ニュースを識別する革新的な方法を提供しています。この方法は、人間が実際に偽ニュースを書く方法——すなわち、大部分は真実である文脈に不正確な記述を埋め込み、権威への訴えかけや扇動的言語といった一般的なプロパガンダ手法を用いる方法——で書かれた偽ニュースを対象としています。 このプロジェクトにより、これらの手法を取り入れた新しい偽ニュース検出トレーニングデータセット「PropaNews」が作成されました。研究著者らは、この新しいデータセットで訓練された検出器が、従来の最先端手法と比べて、人間が書いた偽情報を検出する精度が7.3~12%向上することを発見しました。 著者らは、彼らの知る限り、このプロジェクトは、偽ニュース検出器を強化することを目的とした機械生成テキストの例に、(単純な事実誤認ではなく)プロパガンダ手法を組み込んだ初めての試みであると主張しています。 彼らは、この分野における最近の研究の多くはバイアスを研究しているか、あるいは(おそらくアナリティカ事件以後、バイアスが資金調達しやすい機械学習分野となったため)バイアスの文脈で「プロパガンダ」データを再定義しているに過ぎないと論じています。 著者らは次のように述べています。 「対照的に、我々の研究はプロパガンダ手法を組み込み、正しい情報の大部分を保持することで偽ニュースを生成します。したがって、我々のアプローチは、人間が書いた偽ニュースに対する防御策を研究するのに適しています。」 彼らはさらに、より洗練されたプロパガンダ検出技術の必要性が高まっていることを*次のように説明しています。 「(人間が書いた)偽情報は、特定の集団を操作するためによく用いられ、2016年米国大統領選挙、Brexit、COVID-19パンデミック、そして最近のロシアによるウクライナ侵攻など、複数の出来事に壊滅的な影響を与えました。したがって、人間が書いた偽情報に対する防御メカニズムが緊急に必要とされています。」 この論文は、Faking Fake News for Real Fake News Detection: Propaganda-loaded Training Data Generationと題され、イリノイ大学アーバナ・シャンペーン校、コロンビア大学、カタールのハマド・ビン・ハリファ大学、ワシントン大学、アレン人工知能研究所の5人の研究者によるものです。 虚偽の定義 プロパガンダを定量化する課題は、主にロジスティックな問題です。トレーニングデータセットに含めるために、プロパガンダ的な特徴を持つ実世界の資料を認識し注釈を付ける人間を雇うのは非常に費用がかかり、一方で、「未見の」将来のデータに対して機能する可能性が高い高水準の特徴を抽出して利用する方が、はるかに安価である可能性があります。 より拡張性の高い解決策を目指して、研究者らはまず、Media Bias Fact Checkサイトを通じて、事実の正確性が低いと見なされるニュースソースから、人間が作成した偽情報記事を収集しました。...