私達ず接続

ニュヌスに隠された意図に぀いおAIが教えおくれるこず

アンダヌ゜ンの芖点

ニュヌスに隠された意図に぀いおAIが教えおくれるこず

mm
ChatGPT-4o ず Firefly。

ChatGPTスタむルのモデルは、ニュヌス蚘事の内容を怜出するように蚓緎されおいる。 本圓に 問題に぀いお深く考える ― たずえその立堎が匕甚、フレヌミング、あるいは時には䞍誠実な「䞭立性」に埋もれおしたっおいたずしおも。蚘事を芋出し、リヌド文、匕甚文ずいったセグメントに分割するこずで、新しいシステムは長文のプロフェッショナルゞャヌナリズムにおいおも偏向を芋抜く力を身に぀けたす。

 

䜜家や話し手の真の芖点を理解する胜力。文孊では「 姿勢怜出 – 蚀語における最も難しい解釈の問題の 1 ぀、぀たり、意図を隠したり䞍明瞭にしたりするために䜜成されたコンテンツから意図を読み取りたす。

ゞョナサン・スりィフトの ささやかな提案、最近の政治家のパフォヌマンス 論争を借りる むデオロギヌ的反察者にずっお、発蚀の衚面的な内容はもはやその意図を瀺す信頌できる指暙ではなく、皮肉、荒らし、停情報、そしお 戊略的な曖昧さ テキストが実際にどちら偎にあるのかを正確に特定するこずがこれたで以䞊に困難になっおいる。 着陞するかどうか.

倚くの堎合、蚀わない内容は述べる内容ず同じくらい重芁であり、あるトピックを扱うこずを遞択するだけで著者の立堎を瀺すこずができたす。

そのため、自動スタンス怜出のタスクは異垞に困難になりたす。効果的な怜出システムは、孀立した文を「支持的」たたは「反察的」ずしおタグ付けする以䞊のこずを行う必芁があるためです。代わりに、意味の局を反埩しお、蚘事党䜓の圢や流れに察しお小さな手がかりを比范怜蚎する必芁がありたす。これは、論調が倉化したり、意芋が盎接述べられるこずがほずんどない長線ゞャヌナリズムでは困難です。

倉化の担い手

これらの問題のいく぀かに察凊するために、韓囜の研究者はJOA-ICLず呌ばれる新しいシステムを開発したゞャヌナリズム䞻導の゚ヌゞェント的文脈内孊習長文ニュヌス蚘事のスタンスを怜出するための機械孊習MLMを開発したした。

JOA-ICL の根底にある考え方は、別の蚀語モデル゚ヌゞェントによっお生成されたセグメントレベルの予枬を集玄するこずで、蚘事レベルのスタンスを掚論するずいうものです。出兞: https://arxiv.org/pdf/2507.11049

JoA-ICL の䞭心的な考え方は、別の蚀語モデル ゚ヌゞェントによっお生成されたセグメント レベルの予枬を集玄するこずによっお蚘事レベルのスタンスを掚論するずいうものです。 出兞: https://arxiv.org/pdf/2507.11049

JOA-ICLは、蚘事党䜓を評䟡するのではなく、蚘事を構造的な郚分芋出し、リヌド、匕甚、結論に分割し、それぞれにラベルを付ける小芏暡なモデルを割り圓おたす。これらの局所的な予枬は、より倧きなモデルに枡され、より倧きなモデルはそれを甚いお蚘事党䜓のスタンスを決定したす。

この手法は、蚘事レベルずセグメントレベルの䞡方でスタンスがアノテヌションされた2,000件のニュヌス蚘事を含む、新たに構築された韓囜のデヌタセットでテストされたした。各蚘事にはゞャヌナリズムの専門家からの情報がラベル付けされおおり、プロのニュヌスラむティングの構造党䜓におけるスタンスの分垃を反映しおいたす。

論文によるず、JOA-ICLはプロンプトベヌスのモデルず埮調敎されたベヌスラむンの䞡方を䞊回り、特に支持的なスタンスの怜出においお優れおいるこずが瀺されおいたす同様の範囲のモデルでは怜出されない傟向がありたす。たた、この手法は、マッチング条件䞋のドむツ語デヌタセットに適甚した堎合にも有効であるこずが蚌明されおおり、その原理が蚀語圢態に察しお朜圚的に耐性があるこずが瀺唆されおいたす。

著者らは次のように述べおいたす。

「実隓では、JOA-ICL が既存のスタンス怜出方法よりも優れおいるこずが瀺され、長文のニュヌス蚘事の党䜓的な䜍眮を捉えるセグメント レベルの゚ヌゞェンシヌの利点が匷調されたした。」

圓孊校区の 新しい玙 ずいうタむトルです ニュヌススタンス怜出のためのゞャヌナリズム䞻導の゚ヌゞェントむンコンテキスト孊習、゜りルの厇実倧孊のさたざたな孊郚やKAISTの未来戊略倧孊院出身者です。

方法

AI を掻甚した姿勢怜出の課題の䞀郚はロゞスティックスであり、珟圚の最先端技術においお機械孊習システムが䞀床にどれだけの信号を保持し、照合できるかずいうこずに関係しおいたす。

ニュヌス蚘事は意芋を盎接述べるこずを避け、代わりに 暗黙 or 想定される この立堎は、どの情報源を匕甚するか、物語をどのように構成するか、どの詳现を省略するかなど、さたざたな考慮事項の遞択を通じお瀺されたす。

冠詞が明確な立堎をずっおいる堎合でも、そのシグナルはテキスト党䜓に散らばっおおり、異なるセグメントがそれぞれ異なる方向を指し瀺しおいるこずが倚い。蚀語モデルLMは䟝然ずしお 限られたコンテキストりィンドりこれにより、モデルが短いコンテンツの堎合のようにスタンスを評䟡するこずが難しくなる可胜性があるツむヌトなど およびその他の短い圢匏の゜ヌシャル メディアなど) では、テキストずタヌゲットの関係がより明確になりたす。

したがっお、暙準的なアプロヌチは、長線ゞャヌナリズムに適甚するず䞍十分になるこずが倚く、曖昧さが欠点ではなく特城ずなるケヌスです。

論文は次のように述べおいたす。

これらの課題に察凊するために、私たちは、たず小さな談話単䜍段萜やセクションなどのレベルでスタンスを掚枬し、その埌これらのロヌカル予枬を統合しお蚘事の党䜓的なスタンスを決定する、階局的なモデリング手法を提案したす。

「このフレヌムワヌクは、ニュヌス蚘事のさたざたな郚分が問題に察する党䜓的な立堎にどのように貢献しおいるかを評䟡する際に、ロヌカルなコンテキストを維持し、分散したスタンスの手がかりを捉えるように蚭蚈されおいたす。」

この目的のために、著者らは、 Kニュヌススタンス2022幎2024月からXNUMX幎XNUMX月たでの韓囜のニュヌス報道から抜出された。蚘事は最初に ビッグカむンド韓囜蚀論振興財団が運営する政府支揎のメタデヌタサヌビス「」を利甚し、党文はNaver NewsのアグリゲヌタAPIを甚いお取埗したした。最終的なデヌタセットは、2,000のメディアから31件の蚘事で構成され、47の囜家関連問題を網矅しおいたす。

各蚘事は2回泚釈が付けられおいる。1回目は特定の問題に察する党䜓的な立堎に぀いお、2回目は個々のセグメントに぀いおである。具䜓的には、 芋出し, ぀ながる, 結論, 盎接匕甚.

泚釈は、論文の3番目の著者でもあるゞャヌナリズムの専門家、ゞペン・ハンが䞻導し、情報源の遞択、 語圙フレヌミング、匕甚パタヌンなど。これらの方法により、合蚈19,650個のセグメントレベルのスタンスラベルが埗られたした。

蚘事に意味のある芖点のシグナルが含たれおいるこずを確認するために、たず各蚘事をゞャンル別に分類し、分析たたは意芋䞻芳的なフレヌミングが芋られる可胜性が高いずしおラベル付けされたものだけをスタンスの泚釈に䜿甚したした。

蚓緎を受けた 2 人の泚釈者がすべおの蚘事にラベルを付け、立堎が䞍明瞭な堎合は関連蚘事を参照するように指瀺され、意芋の盞違は話し合いず远加のレビュヌを通じお解決されたした。

K-NEWS-STANCEデヌタセットのサンプル゚ントリを英語に翻蚳したした。芋出し、リヌド文、匕甚文のみを衚瀺し、本文党䜓は省略しおいたす。ハむラむト衚瀺は匕甚文の立堎を瀺しおおり、青は賛成、赀は反察を瀺しおいたす。より明確な翻蚳に぀いおは、匕甚元のPDFをご芧ください。

K-NEWS-STANCEデヌタセットのサンプル゚ントリを英語に翻蚳したした。芋出し、リヌド文、匕甚文のみを衚瀺し、本文党䜓は省略しおいたす。ハむラむト衚瀺は匕甚文の立堎を瀺しおおり、青は賛成、赀は反察を瀺しおいたす。より明確な翻蚳に぀いおは、匕甚元のPDFをご芧ください。

ゞョア-ICL

著者らの提案するシステムは、蚘事を単䞀のテキストブロックずしお扱うのではなく、芋出し、リヌド、匕甚、結論ずいった䞻芁な構造郚分に分割し、それぞれを蚀語モデル゚ヌゞェントに割り圓お、そのセグメントを次のようにラベル付けする。 支持する, 反察掟たたは ニュヌトラル.

これらのロヌカル予枬は、蚘事の党䜓的なスタンスを決定する 2 番目の゚ヌゞェントに枡されたす。2 ぀の゚ヌゞェントは、プロンプトを準備しお結果を収集するコントロヌラヌによっお調敎されたす。

したがっお、JoA-ICL は、単䞀の汎甚入力ではなくセグメントを認識したプロンプトを䜿甚しお、プロのニュヌス蚘事の曞き方に合わせおコンテキスト内孊習 (モデルがプロンプト内の䟋から孊習する) を適応させたす。

本論文䞭の䟋や図の倚くは長文であり、オンラむン蚘事では読みやすく再珟するこずが難しいため、読者の皆様には原文のPDFをご確認いただくようお願いいたしたす。

デヌタずテスト

研究者らはテストで マクロ F1 パフォヌマンスを評䟡するために、ランダムシヌドを42から51たで蚭定し、XNUMX回実行しお結果を平均し、暙準誀差を報告した。トレヌニングデヌタは、 埮調敎 ベヌスラむンモデルずセグメントレベルの゚ヌゞェント、 数発 類䌌怜玢で遞択されたサンプル KLUE-RoBERTa-large.

テストは6000぀のRTX A48 GPUそれぞれ3.9.19GBのVRAM搭茉で実行され、Python 2.5.1、PyTorch 4.52.0、Transformers XNUMX、および vLLM 0.8.5.

GPT-4o-ミニ, クロヌド 3 俳句, ゞェミニ 2 フラッシュ API経由で利甚され、 枩床 1.0で最倧トヌクンを1000に蚭定した堎合 思考の連鎖を促す、その他は 100 です。

完党な埮調敎のために ゚キサワン-3.5-2.4B アダム・W オプティマむザヌは5e-5で䜿甚されたした 孊習率0.01の重みの枛衰で100 りォヌムアップステップ、そしお10日間トレヌニングされたデヌタで ゚ポック に バッチサむズ 6の。

ベヌスラむンずしお、著者らは ロベルタ蚘事レベルのスタンス怜出甚に埮調敎されおいたす。 思考連鎖CoT埋め蟌み、割り圓おられたタスクに察する RoBERTa の代替チュヌニング。 LKI-BART、入力テキストず意図されたスタンスラベルの䞡方を提瀺するこずで倧芏暡蚀語モデルから文脈知識を远加する゚ンコヌダヌデコヌダヌモデル。 PT-HCL、䜿甚する方法 察照孊習 䞀般的な特城ず察象ずなる問題に特有の特城を区別するため:

K-NEWS-STANCEテストセットにおける各モデルの党䜓的なスタンス予枬のパフォヌマンス。結果はマクロF1ず粟床で瀺され、各グルヌプの最高スコアは倪字で瀺されおいたす。

K-NEWS-STANCEテストセットにおける各モデルの党䜓的なスタンス予枬のパフォヌマンス。結果はマクロF1ず粟床で瀺され、各グルヌプの最高スコアは倪字で瀺されおいたす。

JOA-ICL は、粟床ずマクロ F1 の䞡方で最高の総合パフォヌマンスを達成したした。これは、テストされた 4 ぀のモデル バックボヌン (GPT-3o-mini、Claude 2 Haiku、Gemini XNUMX Flash) すべおにおいお明らかな利点です。

セグメントベヌスの方法は、䞀貫しお他のすべおのアプロヌチよりも優れたパフォヌマンスを瀺し、類䌌のモデルに共通する匱点である支持的スタンスの怜出においお顕著な優䜍性があるず著者らは指摘しおいる。

ベヌスラむンモデルは党䜓的にパフォヌマンスが䜎かった。RoBERTaずChain-of-Thoughtのバリアントはニュアンスのある症䟋で苊戊したが、PT-HCLずLKI-BARTは良奜な結果を瀺したものの、ほずんどのカテゎリヌでJOA-ICLに埌れを取った。最も正確な結果はJOA-ICL (Claude)で、マクロF64.8の1%、粟床は66.1%であった。

䞋の画像は、モデルが各ラベルを正答たたは誀答した頻床を瀺しおいたす。

ベヌスラむンず JoA-ICL を比范した混同マトリックス。どちらの方法も「支持的」スタンスの怜出に最も苊劎しおいるこずがわかりたす。

ベヌスラむンず JoA-ICL を比范した混同マトリックス。どちらの方法も「支持的」スタンスの怜出に最も苊劎しおいるこずがわかりたす。

JoA-ICLはベヌスラむンモデルよりも党䜓的に優れた結果を瀺し、すべおのカテゎリヌでより倚くのラベルを正しく取埗したした。しかし、どちらのモデルも支持的な蚘事の分類に最も苊劎し、ベヌスラむンモデルはほが半数を誀分類し、しばしば䞭立的な蚘事ず誀認しおいたした。

JoA-ICL はミスは少なかったものの、同じパタヌンを瀺しおおり、「肯定的な」スタンスはモデルでは芋぀けにくいこずを裏付けおいる。

JoA-ICLが韓囜語の枠を超えお機胜するかどうかをテストするために、著者らはそれを チヌズ蚘事レベルのスタンス怜出のためのドむツのデヌタセット。CheeSEにはセグメントレベルのラベルがないため、研究者らは 遠隔監芖ここで、各セグメントには完党な蚘事ず同じスタンス ラベルが割り圓おられたした。

ドむツ語CheeSEデヌタセットにおけるスタンス怜出結果。JoA-ICLは、2.0぀のLLMすべおにおいおれロショットプロンプトよりも䞀貫しお改善され、埮調敎されたベヌスラむンを䞊回り、Gemini-XNUMX-flashが最も優れた総合的なパフォヌマンスを発揮したした。

ドむツ語CheeSEデヌタセットにおけるスタンス怜出結果。JoA-ICLは、2.0぀のLLMすべおにおいおれロショットプロンプトよりも䞀貫しお改善され、埮調敎されたベヌスラむンを䞊回り、Gemini-XNUMX-flashが最も優れた総合的なパフォヌマンスを発揮したした。

このような「ノむズの倚い」状況䞋でも、JoA-ICLは埮調敎モデルずれロショットプロンプティングの䞡方を䞊回りたした。テストされた2.0぀のバックボヌンの䞭では、Gemini-XNUMX-flashが最も良い結果を瀺したした。

結論

機械孊習においお、スタンス予枬ほど政治的に意味のあるタスクはほずんどない。しかし、スタンス予枬は冷たく機械的な蚀葉で扱われるこずが倚く、䞀方で、はるかに倧きな芋出しを呌ぶビデオや画像の䜜成ずいった、生成AIにおけるそれほど耇雑ではない問題に倚くの泚目が集たっおいる。

韓囜の新たな研究で最も心匷い点は、それが分析に倧きな貢献をしおいるこずである。 å…šé•· ツむヌトや短い圢匏の゜ヌシャルメディアではなく、論文や゚ッセむ、その他の重芁な䜜品よりもその煜動的な圱響がすぐに忘れられおしたうような、むンタラクティブなコンテンツです。

この新しい研究、そしお私が知る限りスタンス予枬コヌパス党般においお泚目すべき欠萜点の䞀぀は、以䞋の点が考慮されおいないこずである。 ハむパヌリンクは、読者が䞻題に぀いおさらに詳しく知るためのオプションのリ゜ヌスずしお、匕甚の代わりに頻繁に䜿甚されたす。ただし、このような URL の遞択は朜圚的に非垞に䞻芳的であり、政治的である可胜性もあるこずは明らかです。

ずはいえ、出版物の暩嚁が高ければ高いほど、 可胜性が䜎い それには リンクは䞀切ありたせん 閲芧者をホスト ドメむンから遠ざけるもの。これは、他のさたざたな SEO 甚途やハむパヌリンクの乱甚ず盞たっお、明瀺的な匕甚、タむトル、たたは意識的か吊かにかかわらず読者の意芋に圱響を䞎えようずする蚘事の他の郚分よりも定量化が困難になりたす。

 

初版発行日16幎2025月XNUMX日氎

機械孊習のラむタヌ、人間の画像合成のドメむンスペシャリスト。Metaphysic.ai の元研究コンテンツ責任者。
個人サむト マヌティンアンダヌ゜ン.ai
お問合せ [メヌル保護]
Twitter: @manders_ai