人工智能
麻省理工学院:通过机器学习测量主要新闻媒体的媒体偏见
麻省理工学院的一项研究使用机器学习技术来识别美国及其他地区约 100 家最大、最有影响力的新闻媒体的偏见措辞,其中包括 83 家最有影响力的印刷新闻出版物。这项研究工作展示了通往自动化系统的道路,该系统可以对出版物的政治特征进行自动分类,并让读者更深入地了解媒体在他们可能热衷的主题上的道德立场。
这项工作的重点是如何用特定的措辞来解决主题,例如 无证移民 | 非法移民, 胎儿 | 未出生的婴儿, 示威者 | 无政府主义者.
该项目使用自然语言处理(NLP)技术来提取此类“收费”语言实例(假设明显更“中性”的术语也代表政治立场)并将其分类为揭示左倾和右倾偏见的广泛映射来自大约 100 个新闻媒体的超过 XNUMX 万篇文章,形成了一个可导航的 偏见景观 有关出版物的信息。
纸 来自麻省理工学院物理系的 Samantha D'Alonzo 和 Max Tegmark 指出,在众多“假新闻”丑闻之后,最近围绕“事实核查”的一些举措可以 被解释为不诚实 并为特定利益的事业服务。 该项目旨在提供一种更加数据驱动的方法来研究在所谓中立的新闻背景下偏见和“影响”语言的使用。
自然语言处理处理
研究的源数据来自开源 报纸3K数据库,包含从 3,078,624 个媒体新闻来源(包括 100 份报纸)获取的 83 篇文章。 这些报纸是根据其影响力选择的,而在线媒体来源还包括来自军事新闻分析网站的文章 防御一及 科学.
该论文报告称,下载的文本经过了“最低限度”的预处理。 直接引用被消除了,因为该研究对记者选择的语言感兴趣(尽管引用选择本身就是一种选择) 有趣的研究领域).
英国拼写改为美国拼写以标准化数据库,所有标点符号都被删除,除了序数之外的所有标点符号也被删除。 首句大写转换为小写,但保留所有其他大写。
识别出前 100,000 个最常见的短语,最后进行排名、清除并合并到短语列表中。 所有可以识别的冗余语言(例如“分享这篇文章”和“重新发布的文章”)也同样被删除。 基本相同的短语(即“大科技”和“大科技”、“网络安全”和“网络安全”)之间的变体已标准化。
“胡言乱语”
最初的测试主题是“黑人的命也是命”,能够识别数据中的短语偏见和同价同义词。
当我们沿着相关媒体的政治立场滑动时,“抗议者”从“无政府主义者”转变为“暴乱者”,但该论文指出,NLP 的提取和分析立场受到“胡言乱语”的做法的阻碍——媒体在这种情况下会引用社会不同政治部分认为有效的短语,并且(显然)可以依靠其读者来负面看待该短语。 该报援引“取消警察经费”作为例子。
当然,这意味着“左倾”短语出现在右翼背景中,对于依赖编纂短语作为政治立场标志的 NLP 系统来说,这是一个不寻常的挑战。
此类短语是“双价”[SIC],而某些其他短语具有普遍的负面含义(即“杀婴”),以至于它们在一系列渠道中始终被表示为负面含义。
该研究还揭示了堕胎、技术审查、美国移民和枪支管制等“热门”话题的类似映射。
爱好马
媒体中存在某些有争议的政治倾向,例如军费开支话题,它们不会以这种方式分裂。 该报发现,在这个问题上,“左倾”CNN 的排名仅次于右倾的《国家评论》和《福克斯新闻》。
然而,一般来说,政治立场可以通过其他短语来决定,例如更喜欢“军工综合体”这个短语,而不是更右倾的“国防工业”。 结果表明,前者被对机构至关重要的网点使用,例如 金丝雀 和 美国保守党,而福克斯和 CNN 则更常使用后者。
该研究还确立了从批评建制派语言到支持建制派语言的其他几个进展,包括从“枪杀”到更被动的“杀戮”的范围; “囚犯重罪犯”改为“被监禁者”; 从“石油生产国”到“石油大国”。
研究承认,媒体会“偏离”其基本政治立场,无论是在语言层面(例如使用双价短语),还是出于各种其他动机。 例如,备受尊敬的英国右翼出版物 旁观者成立于 1828 年,经常以左翼思想文章为特色,这些思想文章违背了其内容流的一般政治潮流。 这样做是出于公正的报道意识,还是定期煽动核心读者引发流量评论风暴,这都是一个猜测——对于寻找清晰一致标记的机器学习系统来说,这并不是一个简单的例子。
这些特殊的“爱好马”和个别新闻机构之间对“刺耳”观点的模糊使用在一定程度上混淆了研究最终提供的左右地图,尽管提供了广泛的政治立场指示。
保留意义
尽管该论文的日期为 2 月 2021 日并于 XNUMX 年 XNUMX 月底发表,但其吸引力相对较小。 部分原因可能是因为针对主流媒体的批判性研究不太可能受到主流媒体的热烈欢迎; 但这也可能是由于作者不愿意制作清晰、明确的图表来分层有影响力和强大的媒体出版物在各种问题上的立场,以及表明出版物偏左或偏右程度的汇总值。 实际上,作者似乎煞费苦心地抑制了结果的潜在煽动性影响。
同样,广泛的 公布的数据 该项目显示了单词事件的频率计数,但似乎是匿名的,因此很难清楚地了解所研究出版物中的媒体偏见。 如果不以某种方式实施该项目,则只剩下本文中选定的示例。
如果以后这种性质的研究不仅要考虑用于主题的措辞,而且还要考虑该主题是否被涵盖,那么它们可能会更有用,因为 沉默胜于雄辩,其本身具有独特的政治特征,通常不仅仅涉及预算限制或可能影响新闻选择的其他务实因素。
尽管如此,麻省理工学院的研究似乎是迄今为止同类研究中规模最大的,并且可以构成未来分类系统的框架,甚至可以构成诸如浏览器插件之类的二级技术,这些技术可能会提醒普通读者他们所阅读的出版物的政治色彩。目前正在阅读。
泡沫、偏差和反冲
此外,还必须考虑这样的系统是否会进一步加剧算法推荐系统最具争议的方面之一——倾向于引导观众进入他们从未看到对比或具有挑战性的观点的环境,这可能会进一步限制读者对核心问题的立场。
无论是否有这样一个 内容泡沫 是一个“安全环境”,是智力成长的障碍,还是对部分宣传的保护,是一种价值判断——一个很难从机器学习系统的机械、统计角度来处理的哲学问题。
此外,正如麻省理工学院的研究煞费苦心地让数据来定义结果一样,对短语政治价值的分类也不可避免地也是一种价值判断,而这种判断是无法轻易承受语言能力的。 重新编纂 将有毒或有争议的内容转化为手册、论坛规则或培训数据库中没有的新颖短语。
如果这种编纂被嵌入到流行的在线系统中,那么绘制主要新闻媒体的道德和政治温度的持续努力可能会发展成人工智能识别偏见的能力与出版商识别偏见的能力之间的冷战。用一种不断发展的惯用语来表达他们的立场,这种惯用语的设计速度通常超过机器学习对语义的理解。
14 年 09 月 21 日 – 1.41 GMT+2 – 将“100 家报纸”更改为“100 家新闻媒体”
下午 4:58 – 更正了论文引用,包括 Samantha D'Alonzo 以及相关更正。