Connect with us

人工智能

基于网络抓取的AI数据集和隐私:为什么CommonPool值得关注

mm
Web-Scraped AI Datasets and Privacy: Why CommonPool Deserves a Look

人工智能(AI)已经成为日常生活的一部分。它在医疗聊天机器人中指导患者,在生成工具中协助艺术家、作家和开发人员。这些系统看起来很先进,但它们依赖于一个基本资源:数据。

大部分用于训练AI系统的数据来自公共互联网。自动程序从在线平台收集大量文本、图像和音频。这些集合构成了著名模型的基础,例如GPT-4Stable Diffusion和许多其他模型。然而,这种大量的收集引发了关于隐私、所有权和知情同意的未解决问题。

训练数据集的市场反映了这种活动的规模。截至目前,全球AI数据集的价值估计为32亿美元。根据预测,到2034年,它可能会增长到163亿美元,年增长率为20.5%。在这些数字背后存在一个重要的挑战。收集的材料中很大一部分是没有明确许可的情况下获得的。它经常包含个人数据、受版权保护的作品和其他敏感内容,这些内容从来没有打算用于机器学习系统。

为了应对这些问题,人们正在探索数据管理的替代方法。一个例子是CommonPool,它于2023年4月作为DataComp基准的一部分发布。它是一个大型数据集,包含128亿张图像-文本对,用于多模态AI研究。与传统的抓取工作不同,它应用过滤方法,强调透明度,并在其开发中包含社区参与。虽然它仍然存在争议,但CommonPool表明了建立更负责和可审计的AI训练数据实践的尝试。这种倡议凸显了在人工智能未来的道德标准的必要性。

网络抓取数据在推进人工智能方面的作用

数据是AI的核心,系统性能与可用于训练的信息量和多样性密切相关。近年来,网络抓取已经成为大规模组装数据集的标准方法。通过收集公开可访问的在线内容,研究人员和开发人员获得了大量和多样化的数据资源。

一个流行的例子是Common Crawl,截至2025年,已经存储了通过每月爬取超过250TB的数据而收集的数百万个网页的文本。这个数据集被广泛用于训练基于文本的AI模型。另一个例子是LAION-5B,它包含大约58.5亿张图像-文本对。它对于诸如Stable Diffusion之类的应用程序非常重要,Stable Diffusion可以从书面提示中创建逼真的图像。

这些数据集很有价值,因为它们提高了模型的准确性,通过多样化的内容提高了泛化能力,并允许较小的团体,包括大学,参与AI开发。斯坦福AI指数2025年显示,大多数先进模型仍然依赖于抓取的数据,数据集的规模正在迅速增长。这种需求也推动了大量投资,2024年仅数据中心和计算能力的投资就超过了570亿美元。

同时,网络抓取并非没有挑战。它提出了关于隐私、所有权和法律权利的问题,因为大部分收集的内容并非最初用于机器使用。法院案件和政策讨论表明,这些挑战变得越来越紧迫。AI数据收集的未来将取决于在进步和道德责任之间找到平衡。

抓取数据的隐私问题

网络抓取工具会收集信息,而不清楚地区分一般内容和敏感细节。除了文本和图像外,它们经常捕获个人可识别信息(PII),例如姓名、电子邮件地址和面部照片。

2025年7月对CommonPool数据集的审计显示,即使经过过滤,0.1%的样本仍然包含可识别的面部、政府ID和文件,如简历和护照。虽然百分比看起来很小,但在数十亿记录的规模下,它转化为数亿受影响的个人。审查和安全审计确认这种材料的存在并非罕见,其风险包括身份盗窃、有针对性的骚扰和私人数据的未经授权的披露。

法律纠纷也越来越多,因为人们对数据所有权和合理使用的担忧进入法庭。2023年至2024年,像OpenAI和Stability AI这样的公司因未经同意使用个人和受版权保护的数据而面临诉讼。2025年2月,美国联邦法院裁定,训练AI使用未经许可的个人信息构成侵权。这个决定鼓励了更多的集体诉讼。版权也是一个主要问题。许多抓取的数据集包含书籍、文章、艺术品和代码。作家和艺术家认为他们的作品被未经许可或付费使用。正在进行的纽约时报诉OpenAI案件质疑AI系统是否非法复制受保护的内容。视觉艺术家也提出了类似的投诉,声称AI复制了他们的个人风格。2025年6月,美国一家法院支持了一家AI公司在合理使用方面的立场,但专家说,裁决仍然不一致,法律框架仍然不明确。

AI训练中缺乏同意已经削弱了公众的信任。许多人发现他们的博客、创作作品或代码被包含在数据集中,而他们毫不知情。这引发了道德问题,并呼吁更大的透明度。作为回应,政府正在通过促进AI模型公平开发和数据谨慎使用的法律向更严格的监督转变。

为什么抓取数据集难以替代

尽管存在关于隐私和同意的担忧,但抓取数据集仍然是AI训练所必需的。原因在于规模。现代AI模型需要数万亿个文本、图像和其他媒体的令牌。仅通过许可或策划的来源构建这样的数据集将花费数亿美元。这对于大多数初创公司或大学来说是不切实际的。

高成本并不是策划数据集的唯一挑战。它们通常缺乏多样性,并倾向于关注特定的语言、地区或社区。这种狭隘的覆盖范围使AI模型变得不那么平衡。相比之下,抓取的数据尽管嘈杂和不完美,但却捕捉到了更广泛的文化、主题和观点。这种多样性使AI系统能够在应用于现实世界时表现更好。

然而,风险在于严格的法规可能会限制对抓取数据的访问。如果发生这种情况,小型组织可能会苦于跟进。拥有私有或专有数据集的大公司,如谷歌或Meta,将继续推进。这种不平衡可能会减少竞争并减缓AI的开放创新。

就目前而言,抓取数据集是AI研究的核心。同时,像CommonPool这样的项目正在探索构建大量、以道德为来源的集合的方法。这些努力对于保持AI生态系统更加开放、公平和负责是必要的。

CommonPool:朝着负责的大规模数据工程

CommonPool是最具技术雄心的努力之一,旨在构建一个开放的大规模多模态数据集。它包含大约128亿张图像-文本对,用于多模态AI研究。与传统的抓取工作不同,它应用过滤方法,强调透明度,并在其开发中包含社区参与。虽然它仍然存在争议,但CommonPool表明了建立更负责和可审计的AI训练数据实践的尝试。这种倡议凸显了在人工智能未来的道德标准的必要性。

CommonPool数据集的构建遵循一个结构化的三阶段管道。第一阶段涉及从2014年到2022年收集的Common Crawl快照中提取原始样本。图像和相关文本(如字幕或周围段落)都被收集。为了评估语义对齐,维护者应用CLIP-based相似性评分,丢弃图像和文本嵌入之间对齐度弱的图像-文本对。这个早期过滤步骤大大减少了噪音,相比之下,简单的抓取管道会产生更多噪音。

第二阶段,数据集经过大规模的去重复。使用感知哈希和MinHash技术来识别和删除近似重复的图像,防止冗余主导模型训练。额外的过滤器被应用来排除损坏的文件、断开的链接和低分辨率图像。在这一阶段,管道还包括文本归一化和自动语言识别,允许创建针对特定领域或语言的子集。

第三阶段专注于安全和合规性。自动面部检测和模糊被应用,而儿童相关图像和个人标识符(如姓名、电子邮件地址和邮政地址)被删除。管道还尝试检测受版权保护的材料。虽然没有自动方法可以保证完美的过滤,但这些安全措施代表了一个重大的技术改进,相比之下,LAION-5B的过滤主要局限于成人内容和毒性启发式。

除了数据处理外,CommonPool引入了一个治理模型,它将其与静态数据集发布区分开来。它被维护为一个活跃的数据集,具有版本化的发布、结构化的元数据和记录的更新周期。每个样本都包含许可信息(如果有),支持遵守版权法规。一个下架协议允许个人和机构请求删除敏感内容,解决了欧盟AI法案和相关监管框架提出的问题。元数据(如源URL和过滤分数)提高了透明度和可复制性,允许研究人员跟踪包含和排除决策。

来自DataComp倡议的基准测试结果说明了这些设计选择的技术影响。当相同的视觉-语言架构在LAION-5B和CommonPool上进行训练时,后者产生了模型,其下游性能更稳定,特别是在细粒度检索和零次分类任务中。这些结果表明,CommonPool的更高的对齐质量可以弥补一些规模优势。然而,2025年的独立审计提醒我们,即使是最先进的自动过滤管道也存在残余风险:大约0.1%的数据集仍然包含未模糊的面部、敏感的个人文件和医疗记录。

总体而言,CommonPool代表了数据集工程从优先考虑原始规模转向平衡规模、质量和合规性的转变。对于研究人员来说,它提供了一个更可复制和更安全的基础用于大规模预训练。对于监管机构来说,它展示了如何将隐私和问责机制直接嵌入数据集构建中。相比之下,CommonPool表明了过滤管道、治理实践和基准测试框架如何将大规模的网络数据转化为更技术上健全和更负责任的多模态AI资源。

将CommonPool与传统的网络抓取数据集进行比较

与早期的大规模网络抓取数据集(如LAION-5B(5.85B样本)、COYO-700M(700M样本)和WebLI(400M样本)相比,CommonPool强调结构、可复制性和治理。它保留了元数据(如URL和时间戳),支持可追溯性和部分许可检查。此外,它应用CLIP-based语义过滤来删除低质量或对齐度弱的图像-文本对,从而提高数据质量。

相比之下,LAION-5B和COYO是从Common Crawl中组装的,过滤有限,没有详细的许可文档。这些数据集经常包含敏感材料,包括医疗记录、身份证件和未模糊的面部。WebLI,由OpenAI内部使用,也缺乏透明度,因为它从未发布用于外部审查或复制。

CommonPool试图通过排除个人可识别信息和NSFW内容来解决这些问题,同时承认用户同意仍然未解决。这使得它比早期的替代方案更可靠、更符合道德。

结论

CommonPool的开发反映了大规模AI数据集的构建和维护方式的重要转变。虽然早期的集合优先考虑规模而忽视监督,但CommonPool表明了透明度、过滤和治理可以被整合到数据集构建中,而不会损害其可用性。

通过保留元数据、应用语义对齐检查和嵌入隐私保障,CommonPool提供了一个更可复制和更可问责的资源。同时,独立审计提醒我们,即使是最先进的自动保障措施也不能完全消除风险,凸显了持续警惕的必要性。

阿萨德·阿巴斯博士(Dr. Assad Abbas)是巴基斯坦伊斯兰堡COMSATS大学的终身副教授,他在美国北达科他州立大学获得了博士学位。他的研究重点是包括云计算、雾计算、边缘计算、大数据分析和人工智能在内的先进技术。阿巴斯博士在著名的科学期刊和会议上发表了大量的论文,并做出了重要的贡献。他也是 MyFastingBuddy 的创始人。