Andersonの視点

AIが教えてくれるニュースの隠れた意図について

mm
ChatGPT-4o and Firefly.

ChatGPTスタイルのモデルは、ニュース記事が 実際に何について考えているかを検出するために訓練されています – その立場が引用、枠組み、または(時には不誠実な)「中立性」の下に埋もれている場合でも。 記事を見出し、導入部、引用、などのセグメントに分割する新しいシステムは、長編の専門的なジャーナリズムにおいてさえも偏見を検出することができます。

 

作家または話し手の真の見解を理解する能力 – 文献では立場検出として知られている – は、言語の最も難しい解釈上の問題の1つに取り組みます。内容が意図を隠したり曖昧にしたりするように設計されている場合でも、意図を内容から読み取ることです。

ジョナサン・スウィフトの謙虚な提案から、最近の政治家による演説まで、イデオロギー的対立者の論調を借用することは、発言の表面はもはやその意図の信頼できる指標ではなくなりました。アイロニー、トローリング、デマ、戦略的な曖昧さの台頭により、テキストがどちらの側に立っているか、または立っているかどうかを特定することは以前よりも困難になりました。

何が言及されないかは、 何が言及されるかと同じくらい重要です。特定のトピックを取り上げることを選択するだけでも、著者の立場を示すことがあります。

これにより、自動的な立場検出のタスクは例外的に課題的になります。効果的な検出システムは、単に孤立した文を「支持的」または「反対的」としてタグ付けするのではなく、意味の層を反復処理し、小さなヒントを全体の記事の形や流れと比較検討する必要があります。長編ジャーナリズムでは、調子が変化し、意見が直接表明されることはほとんどないため、これはより困難です。

変化のエージェント

これらの問題を解決するために、韓国の研究者は、長編ニュース記事の立場を検出するための新しいシステムJOA-ICL(ジャーナリズムガイドによるエージェントベースのコンテキスト内学習)を開発しました。

JOA-ICLの核となる考え方は、記事レベルの立場が、別の言語モデルエージェントによって生成されたセグメントレベルの予測を集約することによって推測されるというものです。出典: https://arxiv.org/pdf/2507.11049

JOA-ICLの核となる考え方は、記事レベルの立場が、別の言語モデルエージェントによって生成されたセグメントレベルの予測を集約することによって推測されるというものです。出典: https://arxiv.org/pdf/2507.11049

JOA-ICLは、記事全体を判断するのではなく、構造的な部分(見出し、導入部、引用、結論)に分割し、各セグメントに言語モデルを割り当てます。これらのローカルな予測は、記事全体の立場を決定するためのより大きなモデルに渡されます。

この方法は、2,000のニュース記事で構成される新しくコンパイルされた韓国語データセットでテストされました。各記事は、ジャーナリズムの専門家からの入力に基づいて、記事レベルとセグメントレベルの両方で注釈付けられました。データセットは、31のアウトレットから47の国家的に関連する問題をカバーする記事で構成されていました。

論文によると、JOA-ICLは、既存の立場検出方法を上回り、特に支持的な立場の検出において強みを示しました。さらに、同じ条件で適用されたドイツ語データセットでも有効であったため、言語形式に対する耐性が潜在的にあることが示唆されました。

著者は次のように述べています。

‘実験結果は、JOA-ICLが既存の立場検出方法を上回り、セグメントレベルのエージェントが長編ニュース記事の全体的な立場を捉える利点を強調していることを示しています。”

新しい論文は、ジャーナリズムガイドによるエージェントベースのコンテキスト内学習を用いたニュースの立場検出というタイトルで、ソウルの成信大学およびKAISTの未来戦略大学院のさまざまな学部から発表されました。

方法

AIを用いた立場検出の課題は、論理的な側面と、機械学習システムが一度に保持して結合できる信号の量に関連しています。

ニュース記事は、直接的な意見の表明を避け、代わりに、引用する情報源の選択、物語の枠組み、省略される詳細などを通じて、暗黙的または暗示的な立場を示唆しています。

記事が明確な立場を取った場合でも、信号はテキスト全体に散在しており、さまざまなセグメントが異なる方向を指しています。言語モデル(LM)はまだコンテキストウィンドウの制限に苦労しているため、これはモデルが短いコンテンツ(ツイートやその他の短いソーシャルメディア)と同じように立場を評価することを困難にします。

したがって、標準的なアプローチは、フルレングスジャーナリズムに適用されたときに、特に長編記事で、曖昧さが特徴である場合に、しばしば短所を示します。

論文では次のように述べられています。

‘これらの課題に対処するために、より小さなディスクールユニット(例:段落またはセクション)レベルの立場を最初に推測し、次にこれらのローカルな予測を統合して記事全体の立場を決定する階層的なモデリングアプローチを提案します。 ‘

‘このフレームワークは、ニュースストーリーのさまざまな部分がその全体的な立場にどのように貢献するかを評価する際に、ローカルなコンテキストを保持し、分散した立場のヒントを捉えるように設計されています。 ‘

この目的のために、著者は、2022年6月から2024年6月までの韓国語のニュース記事からなる新しいデータセットK-NEWS-STANCEをコンパイルしました。記事は、BigKindsを介して識別され、Naver NewsアグリゲーターAPIを使用してテキストが取得されました。最終的なデータセットは、31のアウトレットから47の国家的に関連する問題をカバーする2,000の記事で構成されていました。

各記事は、2回注釈付けられました。1回は記事全体の立場に対して、もう1回は個々のセグメント(見出し導入部結論直接引用)に対してです。

注釈付けは、ジャーナリズムの専門家であるJiyoung Hanによって行われ、メディア研究からの既存のヒント(情報源の選択、レキシカルフレーミング、引用のパターンなど)を使用して行われました。結果として、合計19,650のセグメントレベルの立場ラベルが得られました。

記事が有意義な見解の信号を含むことを確認するために、各記事はジャンルに分類され、分析または意見(主観的な枠組みが見られる)とラベル付けされたものだけが立場の注釈付けに使用されました。

2人のトレーニングされた注釈者がすべての記事を注釈付けし、立場が不明確な場合は関連記事を参照し、意見の相違は議論と追加のレビューを通じて解決されました。

K-NEWS-STANCEデータセットからのサンプルエントリを英語に翻訳しました。見出し、導入部、引用のみを表示しています。全体の本文は省略されています。引用のスタンスラベルを示すためにハイライトを使用しています。青は支持的、赤は反対的です。より明確な表示のために、引用されたソースPDFを参照してください。

K-NEWS-STANCEデータセットからのサンプルエントリを英語に翻訳しました。見出し、導入部、引用のみを表示しています。全体の本文は省略されています。引用のスタンスラベルを示すためにハイライトを使用しています。青は支持的、赤は反対的です。より明確な表示のために、引用されたソースPDFを参照してください。

JoA-ICL

著者は、記事を単一のテキストブロックとして扱うのではなく、構造的な部分(見出し、導入部、引用、結論)に分割し、各セグメントに言語モデルを割り当て、支持的反対的、または中立的とラベル付けします。

これらのローカルな予測は、2番目のエージェントに渡され、記事全体の立場を決定します。2つのエージェントは、プロンプトを準備し、結果を収集するコントローラーによって調整されます。

したがって、JOA-ICLは、コンテキスト内学習(モデルはプロンプト内の例から学習する)を、専門的なニュースストーリーが書かれる方法に合わせて適応させ、汎用的な入力ではなくセグメント認識プロンプトを使用します。

(注: 論文内のほとんどの例や図は長く、オンライン記事で明確に再現するのが難しいため、読者にオリジナルのソースPDFを参照するようお願いします。)

データとテスト

テストでは、研究者はマクロF1と精度を使用してパフォーマンスを評価し、42から51までのランダムなシードを使用して10回の結果を平均し、標準誤差を報告しました。トレーニングデータは、ベースラインモデルとセグメントレベルのエージェントをファインチューニングするために使用され、マクロF1と精度を使用して評価されました。

テストは、Python 3.9.19、PyTorch 2.5.1、Transformers 4.52.0、およびvLLM 0.8.5を使用して、3つのRTX A6000 GPU(各48GBのVRAM)で実行されました。

GPT-4o-miniClaude 3 Haiku、およびGemini 2 Flashは、温度1.0でAPIを介して使用され、連鎖的思考プロンプトの場合、最大トークンは1000に設定され、他の場合は100に設定されました。

Exaone-3.5-2.4Bの完全なファインチューニングの場合、AdamWオプティマイザは、5e-5の学習率で使用され、0.01の重み減衰、100のウォームアップステップ、およびバッチサイズ6で10のエポックでトレーニングされました。

ベースラインモデルとして、RoBERTaChain-of-Thought(CoT)エンベッディングLKI-BART、およびPT-HCLが使用されました。

K-NEWS-STANCEテストセットでの各モデルのパフォーマンス。結果はマクロF1と精度で示され、各グループのトップスコアは太字で示されています。

K-NEWS-STANCEテストセットでの各モデルのパフォーマンス。結果はマクロF1と精度で示され、各グループのトップスコアは太字で示されています。

JOA-ICLは、精度とマクロF1の両方で最高のパフォーマンスを達成し、テストされた3つのモデルバックボーン(GPT-4o-mini、Claude 3 Haiku、Gemini 2 Flash)すべてで優位性を示しました。

セグメントベースの方法は、全てのアプローチを一貫して上回り、特に支持的な立場の検出において著者は注目すべき優位性があると観察しています。

ベースラインモデルは全体的にパフォーマンスが低かった。RoBERTaとChain-of-Thoughtのバリアントは、繊細なケースで苦労し、PT-HCLとLKI-BARTは、JOA-ICLに比べて全体的にパフォーマンスが低かった。

最も正確な単一の結果は、JOA-ICL(Claude)から得られ、64.8%のマクロF1と66.1%の精度を示しました。

以下の画像は、モデルが各ラベルを正しく、または誤って識別した頻度を示しています。

ベースラインとJoA-ICLの混同行列の比較。両方の方法が「支持的」な立場を検出するのに苦労していることを示しています。

ベースラインとJoA-ICLの混同行列の比較。両方の方法が「支持的」な立場を検出するのに苦労していることを示しています。

JOA-ICLは、全てのカテゴリでベースラインよりも多くのラベルを正しく識別しました。ただし、両方のモデルは、特に支持的な記事で苦労し、ベースラインはほぼ半分を誤って中立的と判断しました。

JOA-ICLは、同じパターンを示しながら、より少ないミスを犯しましたが、「肯定的な」立場はモデルにとって検出が難しいことを強調しました。

JOA-ICLが韓国語の限界を超えて機能するかどうかをテストするために、研究者は、記事レベルの立場検出のためのドイツ語データセットであるCheeSEでテストしました。CheeSEにはセグメントレベルのラベルがないため、研究者は、遠隔監視を使用し、各セグメントに記事全体と同じ立場ラベルを割り当てました。

ドイツ語CheeSEデータセットでの立場検出の結果。JOA-ICLは、ゼロショットプロンプティングとファインチューニングされたベースラインを上回り、Gemini-2.0-flashが最も強力な結果をもたらしました。

ドイツ語CheeSEデータセットでの立場検出の結果。JOA-ICLは、ゼロショットプロンプティングとファインチューニングされたベースラインを上回り、Gemini-2.0-flashが最も強力な結果をもたらしました。

ノイズのある条件下でも、JOA-ICLは、ゼロショットプロンプティングとファインチューニングされたモデルを上回り、3つのテストされた言語モデルバックボーンすべてで優位性を示しました。Gemini-2.0-flashが最も強力な結果をもたらしました。

結論

機械学習における最も政治的に荷電されたタスクの1つは、立場予測です。しかしそれは、しばしば冷たい、機械的な用語で扱われ、より複雑ではない生成的なAIの問題(例:ビデオや画像の作成)に比べて、注目が少ないことがあります。

韓国の新しい研究で最も励ましい発展は、長編コンテンツ(ツイートや短いソーシャルメディアの投稿ではなく)を分析するための重要な貢献を提供していることです。

新しい研究と、立場予測コーパス全体で見られる注目すべき欠如は、ハイパーリンクへの考慮の欠如です。これらは、読者が主題についてさらに学ぶためのオプションのリソースとして引用文に代わることがあります。しかし、ハイパーリンクの選択は、主観的で、時には政治的なものである可能性があることは明らかです。

もっとも高級な出版物であるほど、ホストドメインから外へのリンクを含むことは少なくなります。これは、さまざまなSEOの使用とハイパーリンクの悪用とともに、明示的な引用、タイトル、または読者の意見に影響を与える可能性のある記事の他の部分と比較して、ハイパーリンクを数量化することをより困難にします。

 

2025年7月16日初版

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。