关注我们.

思想领袖

欧盟委员会的新 GPAI 模板——这对 AI 培训意味着什么?

mm

7 月,欧盟委员会 (EC) 发布了新的 通用人工智能(GPAI) 模板。这意味着人工智能提供商必须披露输入模型进行训练的内容。此前数月,关于创作者的新闻头条频频出现。 指控内容未经同意被用于训练人工智能.

通过这一新模板,欧盟明确了其立场:透明度如今不容商榷。黑箱训练(即在不透露其内部工作原理的情况下创建某些东西)将不再是人工智能开发者的选择。这标志着一个重大转变,因为在欧洲运营现在需要完全透明地了解模型输入和训练数据来源,这迫使人们重新评估数据的收集和使用。

许多人指出,这与最近发布的 美国人工智能行动计划重点关注放松管制。与任何新法律或法规一样,企业现在必须评估并准确评估GPAI模板将如何影响运营。

如果他们跨地区运营,他们也会对美国《人工智能行动计划》采取同样的措施,这会让事情变得更加混乱。由于这些措施的复杂性,以及以这种方式监管人工智能发展是一个未知领域,开发人员的成果可能会有很大差异。

剖析通用人工智能模型模板

今年7月,欧盟委员会发布了针对GPAI提供商的强制性模板,以便他们能够公开发布用于训练其模型的数据摘要。根据《欧盟人工智能法案》,提供商必须披露数据类别,例如公开可用的数据集、私人授权数据、抓取的网络内容、用户数据和合成数据。此举旨在使版权所有者、用户和下游开发者能够根据欧盟法律行使合法权利。

通用技术 (GPT) 需要大量数据进行训练;然而,在当前市场中,关于这些数据来源的信息非常有限。本模板提供的公开摘要将全面概述用于训练模型的数据,列出主要的数据集,并解释所使用的其他来源。

比较和对比美国人工智能行动计划

相比之下, 美国坚定不移 今年夏初,特朗普政府宣布了其《人工智能行动计划》,这意味着美国将赢得这场人工智能竞赛,并保持对中国的竞争优势。这项新的人工智能框架旨在通过放宽环境法规,加速建设为人工智能系统提供动力的能源密集型数据中心。同时,该计划还寻求扩大美国人工智能技术的全球出口。该计划包含90条建议,反映出美国为保持领先于全球竞争对手而做出的不懈努力。

该计划围绕三大核心支柱——加速创新、建设美国的人工智能基础设施以及培养国际人工智能外交和安全方面的领导地位。

作为其中的一部分,该计划的一个关键要点强调了美国推动“开源”以促进创新和可及性。同样,该计划也强调了美国政府将如何“以身作则' 谈到人工智能的发展——通过培训、人才交流和扩大跨行业的应用。

通过这项计划,美国旨在精简所有现行技术法规,尤其是环境法规,以确保立法不会减缓增长,同时鼓励美国人工智能软件和硬件在国际上更广泛地推广。这种“反监管”的做法标志着美国已从早期以道德、透明度和负责任的创新为中心的框架明显转向更积极的“创新优先”行动计划。

失落的一角

在此阶段,值得我们退一步思考,思考这些法案虽然各有不同,但是否可能存在相同的缺陷,导致开发者认为遵守这些法案毫无价值。欧盟和美国的做法在人工智能训练数据集的知识产权方面留下了一个关键的空白。欧盟《人工智能法案》规定了训练数据摘要和版权合规政策,但并未建立一个可扩展的框架来识别或授权受版权保护的作品。

在美国,根本没有具体的规则——人工智能公司只能在由法院裁决和与权利人持续不断的纠纷塑造的、不断演变的法律框架中摸索前行。除了法律文本之外,缺少的是实践层面;这两种方法都没有提出可行的、全行业适用的方法来大规模检测受保护内容、验证合法使用或简化许可流程。在这些解决方案确定之前,人工智能训练中版权的不确定性仍将是该行业面临的重大挑战。

企业忽略人工智能可追溯性的隐性成本

尽管这些法规存在一些缺陷,人们仍会认为它们会导致人工智能开发者高度关注如何在法律层面上生存——但事实并非总是如此。事实上,目前人工智能领域的真正分歧并非在于欧盟和美国监管之间的差异,而在于那些正在投资可追溯性的公司和那些押注于未来无需投资的公司之间的差异。这与我们多年前《通用数据保护条例》(GDPR) 实施时的情况如出一辙——那些早期构建隐私设计的公司不仅避免了罚款,还赢得了消费者的信任,并更顺利地进入了后来效仿 GDPR 标准的其他市场。

同样的模式可能也出现在人工智能领域。训练数据和模型决策的可追溯性很可能成为全球基准,而那些拖延的企业未来将不得不重新设计其系统。回头在现有系统中添加文档、来源追踪和审计功能,比从一开始就构建这些功能要昂贵得多,也复杂得多,这会分散公司对更注重投资回报率(ROI)的关注。

换句话说,可追溯性和透明度并非可有可无的附加功能;它们必须从第一天起就嵌入到人工智能系统中。如果企业将它们视为事后诸葛亮,则可能会阻碍创新,面临监管方面的强烈抵制,并最终在竞争中彻底失败。

道德人工智能需要全球团结

从宏观角度来看,这些两极分化的做法给全球企业带来了真正的问题。在美国等监管较为宽松的市场,企业可以在短期内更快地扩张,但当它们决定进入欧盟时,却面临着合规壁垒:《人工智能法案》的可追溯性和文档记录规则要求企业具备一些它们从未构建过的能力。

将来源追踪、文档记录和审计功能改造到现有系统中成本高昂、速度缓慢且容易造成干扰,尤其考虑到可追溯性是合规性中最耗费资源的部分之一。这与我们在《通用数据保护条例》(GDPR) 中看到的模式相同:隐私设计的后来者面临着昂贵的改革和市场准入延迟的困境,而先行者则获得了持久的优势。

Viktorija Lapenyte 是 氧实验室Viktorija Lapėnytė 在 IT 领域拥有十多年的法律经验,作为公司内部法律顾问,她在应对复杂的商业和监管挑战方面积累了深厚的专业知识。如今,Viktorija 担任市场领先的网络情报收集平台 Oxylabs 的产品法律顾问主管。Viktorija 的团队专注于新兴数据技术的法律复杂性,涵盖合规性和监管风险管理、数据隐私以及关于负责任数据采集的行业讨论等诸多领域。