Anderson 视角
人工智能揭示新闻中的隐秘议程

类似ChatGPT的模型正在被训练来检测新闻文章的真正立场,即使这种立场被引语、框架或(有时不真诚的)“中立”所掩盖。通过将文章分成标题、导语、引语和结论等部分,一个新系统可以学习到识别偏见,即使在长篇专业新闻报道中。
理解作者或演讲者的真正观点的能力——在文献中称为立场检测——解决了语言中最具挑战性的解释问题之一,即从可能旨在隐藏或模糊其意图的内容中提取意图。
从乔纳森·斯威夫特的谦逊的建议到最近的政治演员借用其意识形态对手的修辞,陈述的表面已经不再是其意图的可靠指标;讽刺、恶搞、虚假信息和战略性模糊性的兴起使得确定文本的立场变得比以往任何时候都更加困难,或者说,确定它是否有立场。
往往,未被说出的内容与被说出的内容一样重要,选择报道一个话题本身就可以表明作者的立场。
这使得自动立场检测的任务变得异常具有挑战性,因为有效的检测系统需要做的不仅仅是将孤立的句子标记为“支持”或“反对”,而是需要迭代遍历含义的层次,权衡小线索与整个文章的形状和趋势;而这在长篇新闻报道中更为困难,因为语气可能会转变,意见很少被明确表达。
变革的推动者
为了解决这些问题,韩国的研究人员开发了一种新的系统,称为JOA-ICL(基于新闻的代理上下文学习),用于检测长篇新闻文章的立场。

JOA-ICL的核心思想是通过聚合由单独语言模型代理生成的段级预测来推断文章级立场。来源:https://arxiv.org/pdf/2507.11049
与其将一篇文章作为一个整体来判断,JOA-ICL将其分解为结构部分(标题、导语、引语和结论),并为每个部分分配一个较小的模型来标记它。这些局部预测然后被传递给一个较大的模型,该模型使用它们来确定文章的整体立场。
该方法在一个新编制的韩语数据集上进行了测试,该数据集包含2000篇新闻文章,既有文章级也有段级立场注释。每篇文章都由新闻专家标注,反映了立场在专业新闻写作结构中的分布情况。
根据论文,JOA-ICL在检测支持性立场方面表现出色,尤其是在其他模型容易忽略的方面。该方法还被证明在应用于德语数据集时是有效的,表明其原理对语言形式具有潜在的鲁棒性。
作者们指出:
‘实验表明,JOA-ICL比现有的立场检测方法表现更好,突出了段级代理在捕捉长篇新闻文章整体立场的益处。’
新论文题为《基于新闻的代理上下文学习用于新闻立场检测》,来自韩国首尔的松岛大学和KAIST的未来战略研究生院。
方法
人工智能增强的立场检测的挑战部分是后勤方面的,涉及机器学习系统一次可以保留和整理多少信号。
新闻文章往往避免直接表达意见,而是通过引语来源的选择、叙事框架和省略的细节等方式暗示其立场。
即使一篇文章明确表达了立场,信号也常常分散在整个文本中,不同的部分指向不同的方向。由于语言模型(LM)仍然难以处理有限的上下文窗口,这使得模型难以像处理较短内容(如推文和其他短形式社交媒体)那样评估立场,在那里文本与目标之间的关系更为明确。
因此,标准方法在应用于全长新闻报道时往往不够用;在这种情况下,模糊性是特征而不是缺陷。
论文指出:
‘为了解决这些挑战,我们提出了一个分层建模方法,首先在较小的语篇单位(例如段落或部分)级别推断立场,然后将这些局部预测整合起来以确定文章的整体立场。’
‘该框架旨在保留局部上下文并捕捉分散的立场线索,以评估新闻故事的不同部分如何为其整体立场做出贡献。’
为此,作者编制了一个名为K-NEWS-STANCE的新数据集,涵盖了2022年6月至2024年6月的韩语新闻报道。文章首先通过BigKinds识别,BigKinds是一个由韩国新闻基金会运营的政府支持的元数据服务,然后使用Naver News聚合API检索全文。最终数据集由31个来源的2000篇文章组成,涵盖了47个国家相关问题。
每篇文章都被注释两次:一次是针对整体立场,另一次是针对个别段落;具体来说,是标题、导语、结论和直接引语。
注释由新闻专家Jiyoung Han领导,他也是论文的第三作者,通过使用媒体研究中已建立的线索(如来源选择、词汇框架和引语模式)来指导该过程。通过这种方式,总共获得了19,650个段级立场标签。
为了确保文章包含有意义的观点信号,每篇文章首先根据类型进行分类,只有那些被标记为分析或意见(更有可能包含主观框架)的文章才被用于立场注释。
两名受过训练的注释者标记了所有文章,并被指示在立场不明确的情况下参考相关文章,通过讨论和额外审查解决争议。

K-NEWS-STANCE数据集的样本条目,翻译成英文。仅显示标题、导语和引语;正文省略。引语的高亮表示立场标签,蓝色为支持,红色为反对。请参考引用的源PDF以获取更清晰的呈现。
JOA-ICL
与其将一篇文章作为一个单一的文本块,作者提出的系统将其分解为关键的结构部分:标题、导语、引语和结论,并为每个部分分配一个语言模型代理来标记它。这些局部预测然后被传递给第二个代理,该代理决定文章的整体立场,两个代理由一个控制器协调,控制器准备提示并收集结果。
这些局部预测然后被传递给第二个代理,该代理决定文章的整体立场,两个代理由一个控制器协调,控制器准备提示并收集结果。
JOA-ICL将上下文学习(模型从提示中的示例中学习)适应于专业新闻报道的写作方式,使用段级提示而不是单一的通用输入。
(请注意,论文中的大多数示例和插图都很长,难以在网页文章中清晰地复制。我们因此敦促读者查看原始源PDF)
数据和测试
在测试中,研究人员使用宏F1和准确率来评估性能,平均结果超过10次随机种子从42到51,并报告标准误差。训练数据用于微调基线模型和段级代理,使用少样本选择通过KLUE-RoBERTa-large进行的相似性搜索。
测试在三个RTX A6000 GPU(每个48GB VRAM)上运行,使用Python 3.9.19、PyTorch 2.5.1、Transformers 4.52.0和vLLM 0.8.5。
GPT-4o-mini、Claude 3 Haiku和Gemini 2 Flash通过API使用,在1.0的温度下,最大令牌数设置为1000用于连续思维提示,其他为100。
对于Exaone-3.5-2.4B的完全微调,使用AdamW优化器,学习率为5e-5,权重衰减为0.01,100个预热步骤,数据训练10个epoch,批大小为6。
对于基线,作者使用了RoBERTa,用于文章级立场检测的微调;连续思维嵌入,RoBERTa的另一种调谐,用于指定任务;LKI-BART,一个编码器-解码器模型,它通过提示大型语言模型输入文本和预期立场标签来添加上下文知识;以及PT-HCL,一种使用对比学习来区分一般特征和特定于目标问题的特征的方法:

每个模型在K-NEWS-STANCE测试集上的整体立场预测性能。结果以宏F1和准确率表示,顶级分数以粗体显示。
JOA-ICL在准确率和宏F1方面实现了最佳的整体性能,优势在所有三个测试的模型骨架中都很明显:GPT-4o-mini、Claude 3 Haiku和Gemini 2 Flash。
基于段的方法始终优于其他方法,作者观察到,在检测支持性立场方面表现出显著优势,这是类似模型的常见弱点。
基线模型的整体性能较差。RoBERTa和连续思维变体在细致入微的案例中挣扎,而PT-HCL和LKI-BART表现更好,但仍然落后于JOA-ICL。最准确的单个结果来自JOA-ICL(Claude),其宏F1为64.8%,准确率为66.1%。
下图显示了模型对每个标签的正确或错误次数:

比较基线和JOA-ICL的混淆矩阵,显示两种方法在检测“支持”立场时都存在困难。
JOA-ICL总体上比基线模型表现更好,在每个类别中都能正确标记更多标签。然而,两种模型都在支持性文章上遇到了困难,基线模型将近半数误分类为中立,而JOA-ICL虽然犯了较少的错误,但仍然表现出相同的模式,强调了“正面”立场对模型来说更难被识别的现象。
为了测试JOA-ICL是否可以超越韩语的局限性,作者在CheeSE上运行了它,这是一个用于文章级立场检测的德语数据集。由于CheeSE缺少段级标签,研究人员使用了远程监督,其中每个段被分配了与整个文章相同的立场标签。

JOA-ICL在德语CheeSE数据集上的立场检测结果。JOA-ICL在所有三个LLM和零样本提示上一致地改进,并且在Gemini-2.0-Flash上超越了微调基线,表现出最强的整体性能。












