AI å¯å¸ŽåŠč¯åĢâį˛įēĸឿļ˛âæ°éģ
如果利用人工智能使其听起来更具原创性和理性,那么旨在影响公众舆论而非服务公众的、受议程驱动的观点工厂可能更难被发现。因此,在“粉红粘液检测”的竞赛中,保持领先地位的角逐正在进行。 过去二十年间,传统地方媒体机构因媒体趋势的演变以及——最近——美国政府政策而资金枯竭,这给地方新闻报道留下了一个真空,并已被党派组织利用人工智能来推动其议程所热切填补。为了将“党派”一词置于语境中(考虑到没有任何新闻机构完全没有某种政治倾向),我们指的是石油公司在遥远地点运营地方新闻网站,没有任何真正的地方资源,但负有维护公司公众声誉的职责;在选举前动员起来的、缺乏任何收入来源的、受政治动机驱动的新闻网站;以及同样在临近投票时间凭空出现的整个支持共和党的新闻网站网络。据2024年估计,人工智能驱动的粉红粘液新闻已最终在数量上超过了真正的新闻机构;当时,一项澳大利亚调查发现,41%的消费者更喜欢粉红粘液来源而非“真实”来源。可以说,这种隐蔽的竞选活动已经从一种单纯的黑暗艺术,演变为对民主(就受政治动机驱动的媒体而言)以及对公众在报道中合理公平标准信任的生存威胁。因此,区分粉红粘液出版商和广播机构与更传统媒体机构的特征性产出的方法,将至少有助于理解当前信息环境中的参与者和驱动力是谁。就目前而言,真实新闻机构的套路和模板非常容易模仿,而人工智能使得可扩展的发布成为当前且负担得起的现实,其使用的许多技巧与预算紧张的“旧媒体”出版商和广播机构正在采用的相同。信号与噪声美国的一项新研究通过调查大型语言模型日益增长的使用(旨在使粉红粘液网站听起来不那么通用和易于识别),以及创建一个旨在跟上粉红粘液(PS)产出不断变化的学习框架,来解决这个问题。这项名为Exposing Pink Slime Journalism: Linguistic Signatures and Robust Detection Against LLM-Generated Threats的新研究来自德克萨斯大学的五位研究人员。这项新研究调查了大规模生产的PS地方新闻文章与合法报道有何不同,重点关注它们对简短、重复结构和模板化措辞的依赖,且变化极小;作者指出,PS文章倾向于重复使用旨在操纵公众舆论的相同模板,内容中情感诉求最为突出:针对这些特征训练的传统检测模型对此类内容表现良好,但当文章使用人工智能聊天机器人重写以显得更自然或复杂时,这些模型就会失效。作者自己的测试表明,即使是大型语言模型引入的微小风格变化,也能使检测准确率降低高达40%。为了缓解这个问题,他们提出了一个持续学习框架,该框架在原始文章和人工智能重写的文章上逐步重新训练检测模型,以适应不断变化的语言模式。方法为了建立项目数据,作者使用了粉红粘液数据集,该数据集包含2021-2023年间1,093个媒体的790万篇文章,经过过滤后他们从中获得了9,472篇粉红粘液文章。他们还使用了包含标注假新闻的LIAR数据集,以及仅包含美国文章的NELA-GT-2021集合*。为了准备训练和测试集,作者首先使用t分布随机邻域嵌入(t-SNE)算法将文章嵌入降至二维。然后,他们应用基于密度的空间聚类应用与噪声(DBSCAN)数据聚类算法来隔离相似的粉红粘液文章聚类。每个聚类被视为一组相关报道,尽管已努力处理重复项,但其中许多报道仍遵循相同的模板。为了防止相似文章同时出现在训练集和测试集中,整个聚类被随机选择,其中80%用于训练,20%用于测试。由于合法新闻文章没有形成清晰的聚类,因此采用了随机分割。这个过程重复了三次,以确保一致性并减少抽样偏差。粉红粘液的特征在评论PS与常规新闻的区别特征时,研究人员断言,PS风格的地方新闻文章明显比合法报道更短、更简单,平均每篇文章少于九句话。根据论文,简单句比例较高以及对形容词的严重依赖是粉红粘液的进一步特征,并表明其偏爱重复性、情感化的语言。使用根类型-标记比率(RTTR)测量了词汇丰富度,发现PS文章中的词汇丰富度明显较低,并且独特名词短语也少得多。这些模式表明词汇量有限且风格公式化,与合法的地方新闻形成对比,后者以围绕助动词、代词和连词构建的复杂词性模式为特征。相反,虚假文章偏爱基本的名词-介词结构,频繁使用基于标点的三元组,表明其写作风格不那么正式,更加零散。测试为了检查基于语言和结构特征的不同类型新闻文章之间的关联,使用4.35亿参数的stella_en_400M_v5模型生成嵌入,并使用主成分分析(PCA)和t-SNE进行降维以实现可视化。当投影到二维空间时,虚假地方新闻文章形成了小而密集的聚类,每个聚类对应着范围狭窄的主题,如犯罪统计数据、股票更新或慈善捐赠:正如我们在上面的可视化图中在一定程度上所看到的,这种模式表明了一种僵化的、模板驱动的格式,文章之间差异极小。有趣的是,被标记为“假新闻”的文章与虚假地方内容不同,其分布更接近真实新闻,这表明大规模生产的地方虚假内容可能不仅仅是真实性较低,而且在形式和构成上也可能存在机械性的区别。相比之下,“合法”地方新闻形成的聚类更少且间距更广,这与更多样化的语言和主题相一致,而全国性新闻文章显示出更大的分散性,反映了更广泛的主题范围和更松散的一致性风格。检测研究人员评估了两种检测粉红粘液内容的主要方法:基于手工制作的语言特征的分类;以及基于Transformer的微调。对于手工制作的方法,强调结构特征而非语义特征,使用的特征包括:句子数量;词汇丰富度;句法深度;词性共现概率;依存标签共现概率;可读性;以及词性计数。在此特征集上测试了三种模型:XGBoost;随机森林;和支持向量机(SVM)——其中随机森林总体上显示出稍强的结果。XGBoost和随机森林都为句子数量和独特名词短语数量等特征赋予了较高的预测重要性。可读性和词汇丰富度度量也对分类有很强影响,尽管模型对这些特征的权重不同,XGBoost偏爱Flesch和RTTR,而随机森林则倾向于CTTR:正如在之前的特征比较(上图)中所见,粉红粘液文章偏爱耸人听闻而非细节描述,词汇丰富度较低,独特名词短语较少——这强化了此类内容高度模板化和重复性的结论。词性三元组模式证实,合法地方新闻倾向于使用结构更复杂的形式,涉及助动词、代词和连词,而粉红粘液则偏爱零散或极简的句法。这些模式表明,区分合成地方内容与真实新闻存在可靠的基础。第二轮测试涉及在完整文章文本上微调Transformer模型,以捕捉语义内容和句法结构。测试了BERT、XLNet和Flan-T5,其中BERT获得了最高的F1分数,为89.31%——尽管论文指出性能差异在统计上并不显著。与手工制作的分类器不同,这些模型在训练期间更新所有权重,使其能够直接从数据中学习特定任务的表示。另一种基于嵌入的方法使用全连接下游分类器,其性能优于手工制作的模型,但未能达到完全微调的准确度。这些方法受益于更广泛的语言上下文——鉴于粉红粘液文章经常在不同媒体间回收内容,这是一个优势。相比之下,手工制作的特征仅依赖于表层句法,限制了其跨来源的泛化能力。利用LLM增强粉红粘液为了测试粉红粘液文章是否可以被改写得更难检测,研究人员使用大型语言模型对其进行了重写。提示词的设计旨在通过以下方式改进写作风格:扩展内容、增加句子复杂度、减少形容词的过度使用、强制使用中性语气、使用更多样化的词汇,以及增加独特名词短语的数量,目的是隐藏大多数检测系统所依赖的表层特征。测试的模型包括:Gemma‑2B;Mistral‑7B;Llama‑1B;Llama‑3B;Llama‑8B;Qwen‑7B;GPT‑4o mini;和Claude‑3.5‑Haiku。对于这些结果,作者评论道:“在开源模型中,Qwen在逃避检测方面最为有效:当针对先前微调的BERT分类器(基线F1分数:89%)进行测试时,它导致检测[性能]下降了28.34%。闭源模型则明显更强大,GPT-4o-mini和Claude-3.5-Haiku平均将F1分数降低了40%,突显了高质量LLM生成混淆所带来的挑战。”作者认为,这些结果表明了LLM可以多么容易地伪装粉红粘液内容,使得当前工具更难捕捉**。结论观点 这项研究包含一些有趣的困境,其中不乏这样一个事实:如此多的人(根据至少一项之前提到的调查)支持PS内容,并且知道它是什么,这使贬义的语境受到质疑。就好像人们知道“Soylent Green是人肉”,但他们耸耸肩继续吃;或者,从自由主义的角度来看,情况可能就是这样。公众对算法新闻的这种漠不关心可能会演变甚至倒退——但目前看来,它似乎正在加深。阅读论文时,另一个让我印象深刻的地方是,粉红粘液产出的简单散文和还原论被当作一种可以通过技术解决方案来弥补的缺陷,而其极简主义、情感主义和有限的词汇量可以说都是相当有意的。如果PS背后的各种利益集团想要将其影响力扩展到更知识分子或自由派的受众(尽管这可能不是他们的强项),他们似乎更有可能在更接近目标人群的地方建立据点,而不是改变一种在现有平台上似乎已经达到其目标的语言风格和语调。 * 由于论文中一些不幸的格式问题,地方新闻文章的额外来源没有明确的归属。请参考源论文并猜测哪个“Horne”引用适用。** 此处我们请读者参阅源论文,了解新论文结果部分结尾处的次要补充实验的详细信息。首次发布时间:2025年12月12日,星期五