Andersonの視点

AIが教えてくれるニュースの隠れたアジェンダについて

Published July 16, 2025

Updated April 26, 2026

Martin Anderson

ChatGPTスタイルのモデルは、ニュース記事が 実際に何について考えているかを検出するためにトレーニングされています – その立場が引用、フレーミング、または（時には不誠実な）「中立性」の下に埋もれている場合でも。記事をヘッドライン、リード、引用、などのセグメントに分割することで、新しいシステムは、長編のプロフェッショナルジャーナリズムにおいても偏見を検出することができます。

その能力は、作家や話者の真の見解を理解する能力 – 文献では スタンス検出 と呼ばれています – が、言語の最も難しい解釈問題の1つである、意図を隠したり曖昧にしたりする可能性のあるコンテンツから意図を読み取ることを扱います。

ジョナサン・スウィフトの 謙虚な提案 から、最近の政治家によるパフォーマンスまで、イデオロギー的対立者のポレミックを借用するまで、声明の表面は、声明の意図を信頼できる指標ではなくなりました。アイロニー、トローリング、デマ、戦略的曖昧さの台頭により、テキストが実際にどちらの側に立っているか、またはどちらの側に立っているかどうかを特定することは、以前よりも困難になりました。

何が言及されていないかは、言及されていることと同じくらい重要であることが多く、トピックを取り上げることを選択するだけで、著者の立場を示すことができます。

それが、自動スタンス検出のタスクを異常に困難にする理由です。有効な検出システムは、単に個々の文を「支持」または「反対」としてタグ付けするのではなく、層の意味を反復処理し、小さなヒントを記事全体の形や流れと比較検討する必要があるからです。長編ジャーナリズムでは、トーンが変化し、意見がまれに明示的に述べられるため、これはより困難です。

変化のエージェント

これらの問題に対処するために、韓国の研究者は、長編ニュース記事のスタンスを検出するための新しいシステム Journalism-guided Agentic In-Context Learning（JOA-ICL） を開発しました。

JOA-ICLの基本的な考え方は、記事レベルのスタンスが、別の言語モデルエージェントによって生成されたセグメントレベルの予測を集約することによって推測されるというものです。ソース: https://arxiv.org/pdf/2507.11049

代わりに記事全体を評価するのではなく、JOA-ICLは記事を構造的な部分（ヘッドライン、リード、引用、結論）に分割し、それぞれに小さいモデルを割り当てて、それぞれを「支持」、「反対」、または「中立」とラベル付けします。これらのローカルな予測は、大きなモデルに渡され、記事全体のスタンスを決定するために使用されます。

この方法は、韓国語のニュース記事2,000件でテストされ、記事とセグメントの両方のスタンスを注釈付けしました。各記事は、ジャーナリズムの専門家の入力に基づいて、プロのニュース記事の構造にわたるスタンスの分布を反映してラベル付けされました。

著者は次のように述べています：

‘実験では、JOA-ICLが既存のスタンス検出方法を上回り、長編ニュース記事の全体的な立場を捉えるためのセグメントレベルのエージェンシーの利点を強調しています。’

新しい論文は、Journalism-Guided Agentic In-Context Learning for News Stance Detection と題され、ソウルの成信大学のさまざまな学部およびKAISTの未来戦略大学院から来ています。

方法

AIによるスタンス検出の課題は、論理的なものであり、機械学習システムが一度に保持して結合できる信号の量に関連しています。

ニュース記事は、直接的な意見の表明を避け、代わりに引用元の選択、物語の構成、省略された詳細などを通じて、暗黙の、または仮定されたスタンスを示唆しています。

記事が明確な立場を取った場合でも、信号はしばしばテキストに散在しており、さまざまなセグメントが異なる方向を指しています。言語モデル（LM）がまだ限られたコンテキストウィンドウに苦労しているため、これはモデルがスタンスを評価することを困難にします。短いコンテンツ（ツイートやその他の短いソーシャルメディア）では、テキストとターゲットの関係がより明示的です。

したがって、標準的なアプローチは、フルレングスのジャーナリズムに適用されたときに、しばしば短期間で失敗します。ここでは、曖昧さは欠陥ではなく機能です。

論文では次のように述べられています：

‘これらの課題に対処するために、より小さな談話単位（例：段落またはセクション）レベルでスタンスを推測し、次にこれらのローカルな予測を統合して記事全体のスタンスを決定する階層的なモデリングアプローチを提案します。’

‘このフレームワークは、ローカルなコンテキストを保持し、記事の全体的な立場を評価するために、ニュースストーリーのさまざまな部分がどのように貢献するかを捉えるために、散在したスタンスのヒントを捉えるように設計されています。’

この目的のために、著者は、2022年6月から2024年6月までの韓国語のニュース記事を収集した、新しいデータセット K-NEWS-STANCE をコンパイルしました。記事は、BigKinds を介して識別され、Naver NewsアグリゲータAPIを使用してフルテキストが取得されました。最終的なデータセットには、31のアウトレットから2,000件の記事が含まれ、47の全国的な問題を扱っていました。

各記事は2回注釈付けされました。1回は記事全体のスタンスに対して、もう1回は個々のセグメント（特に ヘッドライン、リード、結論、直接引用）に対してです。注釈付けは、ジャーナリズムの専門家であるJiyoung Hanによって行われ、メディア研究からの既成のヒント（例：ソースの選択、レクシカルフレーミング、引用パターン）を使用して行われました。

2人のトレーニング済みの注釈付け者がすべての記事を注釈付けし、不明確な場合には関連記事を参照し、追加のレビューを通じて意見の相違を解決するよう指示されました。

K-NEWS-STANCEデータセットのサンプルエントリ、英語に翻訳されています。ヘッドライン、リード、引用のみが表示され、全体の本文は省略されています。強調表示は、青が支持、赤が反対の引用のスタンスラベルを示します。より明確なレンダリングについては、引用されたソースPDFを参照してください。

JoA-ICL

代わりに記事全体を単一のテキストブロックとして扱う代わりに、著者は記事を構造的な部分（ヘッドライン、リード、引用、結論）に分割し、それぞれを言語モデルエージェントに割り当て、セグメントを「支持」、「反対」、または「中立」とラベル付けします。これらのローカルな予測は、記事全体のスタンスを決定する2番目のエージェントに渡されます。2つのエージェントは、コントローラーによって調整され、コントローラーはプロンプトを準備し、結果を収集します。

したがって、JOA-ICLは、プロのニュースストーリーが書かれる方法に合わせて、コンテキスト内での学習を適応させ、セグメントに感覚のあるプロンプトを使用するのではなく、単一の汎用的な入力を使用します。

(注: 論文のほとんどの例と図は長く、オンライン記事で明確に再現するのが難しいため、読者に元のソースPDFを参照することをお勧めします)

データとテスト

テストでは、研究者はマクロF1 と精度を使用してパフォーマンスを評価し、42から51までのランダムなシードで10回の結果を平均し、標準誤差を報告しました。トレーニングデータは、基準モデルとセグメントレベルのエージェントをファインチューンするために使用されました。少샷 サンプルは、KLUE-RoBERTa-large を使用した類似性検索によって選択されました。

テストは、RTX A6000 GPU（各々に48GBのVRAM）上で実行され、Python 3.9.19、PyTorch 2.5.1、Transformers 4.52.0、vLLM 0.8.5を使用しました。

GPT-4o-mini、Claude 3 Haiku、Gemini 2 Flash は、API経由で利用可能で、温度は1.0に設定され、チェーンオブソughtプロンプトの場合、最大トークンは1000に設定され、他の場合は100に設定されました。

Exaone-3.5-2.4B の完全なファインチューンの場合、AdamW オプティマイザは、5e-5 の学習率で使用され、0.01 の重み減衰、100 のウォームアップステップ、バッチサイズ 6 で 10 エポックでトレーニングされました。

基準として、著者は RoBERTa、Chain-of-Thought (CoT) Embeddings、LKI-BART、PT-HCL を使用しました。

K-NEWS-STANCEテストセットでの各モデルのパフォーマンス。結果はマクロF1と精度で示され、各グループのトップスコアは太字で表示されます。

JOA-ICLは、精度とマクロF1の両方で、全体的なパフォーマンスが最も高かった。テストされた3つのモデルバックボーン（GPT-4o-mini、Claude 3 Haiku、Gemini 2 Flash）すべてで優位性が見られた。

セグメントベースの方法は、一貫して他のすべてのアプローチを上回り、著者は注目すべき優位性が、共通の弱点である支援的なスタンスの検出にあると観察しました。

基準モデルは全体的に悪かった。RoBERTaとChain-of-Thoughtのバリエーションは、繊細なケースで苦労し、PT-HCLとLKI-BARTはよりよく機能しましたが、JOA-ICLを上回ることはできませんでした。最も正確な単一の結果は、JOA-ICL（Claude）から得られ、64.8%のマクロF1と66.1%の精度でした。

以下の画像は、モデルが各ラベルを正しく、または誤って取得した頻度を示しています。

基準とJOA-ICLの混同行列の比較。両方の方法が「支持」スタンスの検出で最も苦労していることを示しています。

JOA-ICLは、全体的に基準よりも良く機能し、すべてのカテゴリでラベルをより多く正しく取得しました。ただし、両方のモデルは、特に支持的な記事で苦労し、基準はこれらを中立的と間違えることが多かった。

JOA-ICLは、間違いを少なくしましたが、同じパターンを示し、「ポジティブ」なスタンスはモデルにとってより難しいことを示しました。

JOA-ICLが韓国語の限界を超えて機能するかどうかをテストするために、著者は、CheeSEと呼ばれる、記事レベルのスタンス検出のためのドイツ語データセットでテストしました。CheeSEにはセグメントレベルのラベルがないため、研究者は、遠隔監視を使用しました。ここで、各セグメントは、記事全体と同じスタンスラベルが付けられます。

ドイツ語CheeSEデータセットでのスタンス検出の結果。JOA-ICLは、ゼロショットプロンプティングと比較して一貫して改善し、ファインチューンされた基準を上回り、Gemini-2.0-flashが最も強力な全体的なパフォーマンスを示しました。

「ノイズ」の条件下でさえ、JOA-ICLはゼロショットプロンプティングとファインチューンされた基準モデルを上回りました。テストされた3つのバックボーンのうち、Gemini-2.0-flashが最も強力な結果をもたらしました。

結論

機械学習のタスクの中で、スタンス予測ほど政治的に燃えやすいものはありません。ただし、しばしば、機械的な用語で扱われ、より複雑な問題よりも、生成的なAIの問題（例：ビデオ作成や画像作成）に多くの注意が向けられます。

新しい韓国語の研究で最も励ましい発展は、フルレングス コンテンツの分析、つまりツイートや短いソーシャルメディアの代わりに、論文やその他の重要な作品への貢献を提供していることです。

新しい研究と、スタンス予測コーパス全体で見落とされている主な点は、ハイパーリンク に対する考慮の欠如です。これは、読者がトピックについてさらに学ぶためのオプションのリソースとして頻繁に引用文の代わりに使用されます。ただし、ハイパーリンクの選択は、主観的で、時には政治的なものである可能性があることは明らかです。

しかし、出版物の評判が高くなるにつれて、ホストドメインから外れるへのリンクを含むことは より少なくなり ます。SEOのさまざまな使用と悪用とともに、これはハイパーリンクを、明示的な引用、タイトル、または記事の他の部分と比較して、より難しく、量化しにくいものにします。記事の意見を意図的に、または無意識的に影響させる可能性があります。

最初に2025年7月16日に公開されました