Anderson 视角

是否低度策展的超大规模人工智能数据集比互联网本身更糟糕?

mm

爱尔兰、英国和美国的研究人员警告说,超大规模人工智能训练数据集的增长可能会传播其互联网来源的最坏方面,他们认为最近发布的一个学术数据集包含“令人烦恼和明确的图像和文本对,包括强奸、色情、恶意刻板印象、种族主义和民族主义侮辱,以及其他极其有问题的内容”。

研究人员认为,一波新的、巨大规模的、未经策展或过滤的多模态(例如图像和图片)数据集可能更具破坏力,因为这些数据集保留了可能已经从在线平台中删除的图像和其他内容,删除的原因可能是用户投诉、当地管理或算法。

他们进一步观察到,解决数据集内容的长期投诉可能需要几年时间——在强大的ImageNet数据集的情况下,整整十年——并且这些后续修订并不总是反映在从它们派生的新数据集中。

该论文,题为《多模态数据集:厌女、色情和恶意刻板印象》,来自都柏林大学学院和Lero、爱丁堡大学以及UnifyID认证平台的首席科学家的研究人员。

虽然这项工作关注最近发布的CLIP过滤的LAION-400M数据集,但作者们反对一般趋势,即向机器学习框架(如神经语言模型GPT-3)投入越来越多的数据,并认为结果导向的推动力可能导致使用有害数据源和疏忽的版权监督;可能造成伤害;并且不仅可以延续可能已经从公共领域消失的非法数据,还可以将此类数据的道德模型纳入下游人工智能实现中。

LAION-400M

上个月,LAION-400M数据集被发布,增加了越来越多的多模态、语言数据集,这些数据集依赖于Common Crawl仓库,该仓库不加区别地抓取互联网,并将过滤和策展的责任转移给使用它的项目。派生的数据集包含4亿个文本/图像对。

LAION-400M是谷歌AI的封闭WIT(WebImageText)数据集的开源版本,该数据集于2021年3月发布,包含文本图像对,其中数据库中的图像已与伴随的明确或元数据文本(例如网页画廊中的图像alt文本)关联。这样可以让用户执行基于文本的图像检索,揭示底层AI关于这些域(例如“动物”、“自行车”、“人”、“男人”、“女人”)形成的关联。

图像和文本之间的关系,以及可以将偏见嵌入到查询结果中的余弦相似度,是论文呼吁改进方法的核心,因为对LAION-400M数据库的非常简单的查询可以揭示偏见。

例如,scitkit-image库中埃琳·柯林斯的图像在LAION-400M中检索出两个关联的字幕:“这是一个带有美国国旗的宇航员的肖像”和“这是一个带有美国国旗的橙色连体服的微笑的家庭主妇的照片”。

美国宇航员埃琳·柯林斯在LAION-400M下获得了她作为第一位女性太空飞行员成就的两种截然不同的解读。来源:https://arxiv.org/pdf/2110.01963.pdf

美国宇航员埃琳·柯林斯在LAION-400M下获得了她作为第一位女性太空飞行员成就的两种截然不同的解读。 来源:https://arxiv.org/pdf/2110.01963.pdf

作者认为,这两种字幕的余弦相似度非常接近,因此使用LAION-400M的AI系统可能会将两者都呈现为合适的字幕。

色情内容再次登顶

LAION-400M提供了一个可搜索的界面,可用,取消“安全搜索”按钮后,会显示色情图像和文本关联在标签和类别中占据主导地位。例如,在数据库中搜索“修女”(如果随后禁用安全模式,则不适合工作场所)会返回与恐怖、角色扮演和服装相关的结果,真正的修女很少。

关闭同一搜索的安全模式会显示一大堆与该术语相关的色情图像,这些图像将任何非色情图像推到搜索结果页面的底部,揭示LAION-400M为这些图像分配了更大的权重,因为它们在在线来源中对于“修女”一词很常见。

在线搜索界面的默认安全模式是欺骗性的,因为它代表了一个UI怪癖,即一个过滤器,不仅可能不会在派生的AI系统中激活,而且已经以一种不容易过滤或区分于相对安全的结果的方式泛化到“修女”域中,从而在算法使用中造成了混淆。

论文在末尾的补充材料中以各种搜索词为特征的模糊示例。由于与模糊照片相关的文本语言,这些示例无法在此处展示,但研究人员指出,检查和模糊这些图像的过程对他们(以及他们的同事)造成了不适、恶心和头痛,并承认了人工监督大型数据库的挑战。

“我们(以及帮助我们的同事)在探索数据集的过程中经历了不同程度的不适、恶心和头痛。另外,这种工作在学术AI领域发布后往往会遇到大量负面批评,这不仅为已经很艰巨的研究和分析此类数据集的任务增加了情感上的负担,而且会阻碍未来类似的工作,对AI领域和整个社会都有害。”

确立禁止内容并剥夺版权保护

该论文认为,这种类型的数据集很可能会延续对少数群体个人的剥削,并解决了类似开源数据项目是否有权或道德上有责任将对材料的责任转嫁给最终用户的问题。

“个人可能会从网站中删除他们的数据,并假设它会永远消失,但它可能仍然存在于几个研究人员和组织的服务器上。谁负责从数据集中删除该数据?对于LAION-400M,创建者将此任务委托给了数据集用户。考虑到这些过程故意被复杂化,并且平均用户缺乏删除其数据的技术知识,这是一个合理的方法吗?”

他们还认为,LAION-400M可能不适合在其采用CC-BY 4.0许可证模式下发布,尽管大规模数据集的民主化可能带来好处,但这可能是之前仅限于像谷歌和OpenAI这样的大型公司的专属领域。

LAION-400M域声称数据集图像“归其自身版权所有”- 这是一种“传递”机制,近年来由法院判决和政府指南大致批准,用于研究目的的网页抓取。来源:https://rom1504.github.io/clip-retrieval/

LAION-400M域声称数据集图像“归其自身版权所有”- 这是一种“传递”机制,近年来由法院判决和政府指南大致批准,用于研究目的的网页抓取。 来源:https://rom1504.github.io/clip-retrieval/

“尽管如此,数据主体的权利仍然没有解决。低估使用此类大规模数据集的危害是鲁莽和危险的,鼓励在工业和商业环境中使用它们。数据集提供的许可方案下的责任完全归数据集创建者所有。”

民主化超大规模数据的问题

该论文认为,像LAION-400M这样的视听数据集以前在大型科技公司和拥有资源来收集、策划和处理它们的有限研究机构之外是不可用的。他们赞扬了新发布的精神,但批评了其执行。

作者认为,应用于开源超大规模数据集的“民主化”的公认定义过于狭隘,“未能考虑到弱势个体和社区的权利、福利和利益,他们可能会最严重地受到该数据集及其训练模型的下游影响”

由于GPT-3规模的开源模型最终旨在向全球数百万用户(甚至数十亿用户)分发,并且研究项目可能会在数据集被编辑甚至删除之前采用它们,因此作者认为,粗心发布未经策划的数据集不应成为开源机器学习的常见特征。

把精灵放回瓶子里

一些数据集由于各种原因被压制,可能是因为其内容已经不可逆转地进入了长期AI项目,包括杜克MTMC(多目标、多摄像头)数据集,该数据集最终因人权组织对其被中国压迫当局使用的担忧而被撤回;Microsoft Celeb(MS-Celeb-1M),一个包含1000万张“名人”面部图像的数据集,事实证明,其中包括记者、活动家、政策制定者和作家,他们的生物识别数据的曝光遭到了严厉批评;以及Tiny Images数据集,该数据集于2020年因“偏见、攻击性和歧视性图像以及贬义性术语”而被撤回。

关于在受到批评后被修改而不是撤回的数据集,例子包括极其流行的ImageNet数据集,研究人员指出,它花了十年(2009-2019年)才对关于隐私和非可图像类别的重复批评做出反应。

论文观察到,LAION-400M实际上通过“基本上忽略”ImageNet中提到的修订,在新发布中退步了,即使这些修订是在ImageNet的表示中进行的。

“这在更大数据集的出现中得到了体现,例如Tencent ML-Images数据集(2020年2月),它包含了这些不可图像化类别中的大多数,非图像化类别,以及在TF-Hub等存储库中继续使用未过滤的ImageNet-21k数据集,例如在Google最新的EfficientNetV2和CoAtNet模型中,以及在LVIS挑战2021等声誉良好的比赛中明确允许使用未过滤的ImageNet-21k预训练。”

“我们强调这一关键观察:像ImageNet这样的团队,即使管理少于1500万张图像,也难以彻底清除这些数据集中的有害内容。”

“彻底清除这个巨大的多模态数据集以及训练在这个数据集上可能涉及数十亿图像-字幕对的下游模型所需的谨慎努力的规模将是不可否认的天文数字。”

* 作者的内联引用被我转换为超链接。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai