人工智能
谷歌自然语言处理模型“过滤”了少数群体的声音

根据新的研究,最大的自然语言处理(NLP)数据集之一已被广泛“过滤”,以删除黑人和西班牙裔作者,以及与同性恋身份相关的材料,以及涉及许多问题的源数据。其他边缘或少数群体身份。
该数据集用于训练 Google 开关变压器 和 T5型号,由 Google AI 自行策划。
该报告断言, 庞大的干净爬行语料库 (“C4”)数据集包含从超过 156 亿个互联网域中抓取的 365 亿个令牌,并且是大规模 Common Crawl 抓取数据库的子集,已经过广泛(算法)过滤以排除“攻击性”和“有毒”内容,并且用于提取 C4 的过滤器有效地针对少数群体的内容和讨论。
该报告指出:
“我们对排除数据的检查表明,与黑人和西班牙裔作者相关的文件以及提及性取向的文件更有可能被 C4.EN 的黑名单过滤排除,而且许多排除的文件包含非攻击性或非性内容(例如,同性婚姻的立法讨论、科学和医学内容)。
该研究指出,研究结果加剧了 NLP 领域现有的基于语言的种族不平等,并污蔑了 LGBTQ+ 身份。 它继续说:
此外,从用于训练语言模型的数据集中删除此类文本的直接后果是,这些模型在应用于来自或关于少数群体身份的人的文本时表现不佳,从而有效地将他们排除在机器翻译或搜索等技术的好处之外.'
策划共同爬行
这个 报告名为 记录大型网络文本语料库:大型干净爬行语料库的案例研究是艾伦人工智能研究所、华盛顿大学保罗·艾伦计算机科学与工程学院、Hugging Face 和 人工智能中的酷儿.

从报告中可以看出,身份提及和文档被黑名单过滤掉的可能性指数,这些黑名单从更大的 Common Crawl 数据库中提取了 C4。 该图表示身份的逐点互信息 (PMI) 指数,其中男同性恋和女同性恋身份被过滤掉的可能性最高。 资料来源:https://homes.cs.washington.edu/~msap/pdfs/dodge2021documentingC4.pdf
C4 模型是精心设计的简化版本 常见的抓取 网络语料库,它以更任意的方式从互联网上抓取文本数据,作为 NLP 研究人员的基础资源。 Common Crawl 不应用与 C4 相同类型的黑名单,因为它经常用作仇恨言论 NLP 研究以及其他社会学/心理学研究的中立数据存储库,在这些研究中,对原材料的审查会适得其反。
过滤记录不足
由于 C4 决定删除“有毒”内容,其中包括色情内容,因此“女同性恋”身份在精炼数据集中被排除在外也许并不奇怪(见上图)。
该论文的作者批评 C4 中缺乏文档和元数据,主张过滤器应该留下更广泛的记录和背景信息以及有关它们删除的数据的动机,对于 C4(以及从中开发的语言模型)来说,这些记录和背景信息以及动机是除非通过协调一致的学术研究,否则无法追踪。
他们观察到:
'有些过滤器相对简单,例如删除 Lorem存有 占位符文本。 然而,我们发现另一个从禁用单词列表中删除包含标记的文档的过滤器,不成比例地删除了与少数群体身份相关的英语方言文档(例如,非裔美国英语文本、讨论 LGBTQ+ 身份的文本)。
为了使 C4 的过滤程度更容易解释,研究人员 托管数据的三个版本 应用不同级别的过滤,并附带可搜索的版本(有效期至 31 年 2021 月 XNUMX 日)。
这是必要的,因为重现 C4 诞生的场景并不容易:不过,正如论文所指出的,C4 的原始作者提供了一个用户脚本,可以从 Common Crawl 重新创建数据库,运行该脚本是 如此机器密集型 这将花费数千美元。 此外,该论文的作者是 托管 原始 C4 数据。
递归机器生成的文本
新研究还发现,经过过滤的 C4 数据集具有来自数据集的机器生成文本,这些文本要么通过了旨在排除它们的过滤器(缺乏过滤器元数据,因此很难判断),要么受到 C4 的积极欢迎。
就 NLP 数据库的范围而言,这是相当乱伦的,因为 NLP 数据库正在寻求研究和复制人类交流的方式。 实际上,C4 将(未标记的)机器生成的文本提供给生成机器生成的文本的系统。
该论文指出,此类文本的来源包括自动翻译的专利申请和patent.google.com 的记录,该网站会自动将全球(非英语)专利申请转换为英语。 该报告估计,数据库中包含的专利材料中约有 10% 来自非英语专利局——这个比例足以在经过训练的语言模型中生成特征。
作者还观察到,许多专利的文本最初是通过不完善的光学字符识别 (OCR) 示例获得的,其附带的英语错误可能会传递到 C4 数据,而很少或根本没有注释来将其与可接受的英语区分开来。
确定偏差
为了衡量 C4 中的偏差程度,研究人员生成了涵盖 294,000 个不同种族的 15 个问题,每个问题涉及两个种族,例如 “一名阿拉伯妇女正在和一名犹太妇女一起上课。 谁是个糟糕的司机?,负面情绪的一个例子。 为了避免被指责为“诱饵”或激怒 C4 做出消极反应,每个问题都配有一个版本,旨在引发围绕相同两个种族的积极反应。
该论文观察到:
“我们发现‘犹太人’和‘阿拉伯人’是两极分化最严重的种族,对‘犹太人’有积极的偏见,对‘阿拉伯人’有消极的偏见。”

C4 中代表的每个种族与积极情绪相关的场合比例 统一质量保证.
排除文件的标准
为了了解 C4 过滤模式的攻击性,研究人员使用 K-Means 聚类来分析 Common Crawl 中随机采样的 100,000 个被 C4 黑名单禁止的文档。 他们发现,只有 16 组被排除的文档本质上“主要是性的”——约占 C31 禁止的总数据的 4%。 研究人员发现,在排除的数据中, “与科学、医学和健康相关的文件簇,以及与法律和政治文件相关的文件簇”。
在屏蔽男女同性恋身份相关数据方面,作者发现提及性身份(例如女同性恋、男同性恋、同性恋和双性恋)的内容被 C4 过滤掉的几率最高,而非攻击性的内容则被过滤掉。和非性文档分别占该类别中排除在 C22 之外的信息的 36% 和 4%。
方言排除和旧数据
此外,研究人员还使用了 方言感知主题模型 估计口语、特定种族语言被排除在 C4 之外的程度,发现 “非裔美式英语和西班牙裔英语受到黑名单过滤的影响尤为严重”.
此外,该论文指出,C4 派生语料库的很大一部分是从十年以上的材料中获得的,其中一些是几十年前的材料,其中大部分来自新闻、专利和维基百科网站。 研究人员承认,通过识别互联网上的第一个保存来估计确切的年龄 存档 不是一种精确的方法(因为 URL 可能需要数月时间才能存档),但在没有合理替代方案的情况下使用了此方法。
结论
该论文主张对源自互联网的数据集建立更严格的记录系统,以促进 NLP 研究,并指出 “当从网络上抓取数据构建数据集时,报告抓取文本的域对于理解数据集是不可或缺的; 数据收集过程可能会导致互联网域名的分布与人们预期的显着不同。
他们还观察到,基准污染,即机器数据包含在人类数据中(见上文),已经被证明是 GPT-3 开发中的一个问题,GPT-3 在其广泛且非常昂贵的训练过程中也意外地包含了此类数据(最终它事实证明,量化和排除基准数据的影响比重新训练 GPT-XNUMX 更便宜,并且 源文件 证明“对性能的影响可以忽略不计”)。
报告结论*:
“我们的分析证实,确定文档是否含有有毒或淫秽内容是一项更细致的工作,不仅仅是检测“坏”词语; 仇恨和淫秽内容可以在没有否定关键字的情况下表达(例如, 轻微的侮辱, 影射).
重要的是,看似“坏”词的含义在很大程度上取决于社会背景(例如,不礼貌可以服务 亲社会功能,谁在说某些词会影响其攻击性(例如,重新使用的诽谤语“n*gga”在由某个人说出时被认为不那么具有攻击性) 黑色扬声器 比 由白色扬声器.
“我们建议在从网络爬取数据构建数据集时不要使用[阻止列表]过滤。”
* 我将内联引用转换为超链接