Unite.AI - AI News & Research

思想领袖8 months ago

欧洲委员会的新GPAI模板 – 这对AI训练意味着什么？

在七月，欧洲委员会（EC）发布了一个新的通用人工智能（GPAI）模板。这意味着AI提供者必须披露输入模型的内容以训练它们。这是在头条新闻中指控创作者未经许可使用内容来训练AI几个月后发生的。有了这个新模板，欧盟已经明确了其立场：透明度现在是不可谈判的。黑盒训练，即创建某些东西而不透露其内部工作原理，对于AI开发人员来说将不是一个选项。欧洲的操作现在需要对模型输入和训练数据来源有完整的可见性，这将迫使重新评估数据收集和使用。许多人指出，这与最近发布的美国AI行动计划之间的鲜明差异，该计划重点关注放松管制。像任何新法律或法规一样，企业现在必须采取库存并评估GPAI模板将如何影响业务。如果他们在各个地区运营，他们将同时执行美国AI行动计划，这将进一步混淆事情。由于这些的复杂性以及以这种方式监管AI开发是未经探索的领域，开发人员的输出可能会有很大差异。解析通用人工智能模型模板今年七月，欧洲委员会为GPAI提供者发布了一个强制模板，以便他们可以发布一个关于训练模型所用数据的公共摘要。作为欧盟AI法案的一部分，提供者必须披露诸如公开可用数据集、专有许可数据、网页内容、用户数据和合成数据等数据类别。目标是使版权持有者、用户和下游开发人员能够在欧盟法律下行使其法律权利。GPTs是使用大量数据训练的；然而，在当前市场中，关于这些数据的来源的信息有限。该模板概述的公共摘要将提供对训练模型所用数据的全面概述，列出主要数据集合，并解释其他使用的来源。比较和对比，美国AI行动计划相比之下，美国坚持认为它将赢得AI竞赛，并将在AI方面保持其竞争优势超过中国，因为特朗普政府在夏季早些时候宣布了其AI行动计划。这个新的AI框架旨在通过放松环境法规来加速耗能数据中心的建设，这些数据中心为AI系统提供动力。同时，它还旨在增加美国AI技术的全球出口。该计划包括90个建议，反映了美国加速其全球竞争对手的努力。该计划围绕三个核心支柱建立 – 加速创新，建设美国的AI基础设施，并促进国际AI外交和安全的领导地位。作为这一计划的一部分，一个关键的要点是美国的“开源”推动力，以促进创新和可访问性。同样，该计划强调了美国政府将“以身作则”来促进AI增长 – 通过培训、人才交流和跨行业的采用扩张。通过这一计划，美国旨在简化所有当前的技术法规，特别是环境法规，以确保立法不会阻碍增长，同时鼓励美国AI软件和硬件的更广泛的国际分销。这一“反监管”方法标志着一个明显的转变，从以前的以道德、透明度和负责任的创新为中心的框架转变为更激进的“创新优先”行动计划。缺失的部分值得在这一阶段退一步，考虑这些行为（尽管不同）是否会因相同的缺陷而遭受损失，这些缺陷会导致开发人员认为遵守这些行为没有价值。欧盟和美国的方法在AI训练数据集的知识产权方面留下了一个关键的空白。欧盟AI法案要求训练数据摘要和版权合规政策，但它没有建立一个可扩展的框架来识别或许可受版权保护的作品。在美国，没有特定的规则 – 这让AI公司不得不在不断演变的法律框架中导航，并与权利持有者进行持续的纠纷。超越法律文本，缺失的是实践方面；两种方法都没有制定出可行的、行业范围内的方法来大规模检测受保护的内容、验证合法使用或简化许可。直到这些解决方案被定义，AI训练中的版权不确定性将仍然是该行业的一个重大挑战。企业跳过AI可追溯性的隐藏成本尽管这些法规存在一些缺陷，但人们会假设它们会导致AI开发人员高度关注如何从法律角度保持领先地位 – 但这并不总是如此。事实上，AI领域当前的真正分歧并不是欧盟和美国法规之间的差异，而是在今天投资可追溯性和那些打赌他们不需要的人之间的差异。这是我们几年前在实施通用数据保护条例（GDPR）时看到的重演 – 早期建立隐私保护的公司不仅避免了罚款，还获得了消费者的信任和进入其他市场的更顺畅的通道，这些市场后来模仿了GDPR标准。同样的模式可能正在AI领域出现。训练数据和模型决策的可追溯性可能会成为全球基准，延迟的公司将不得不在未来重新设计他们的系统。回头添加文档、来源跟踪和审计功能到现有系统中比从一开始就构建它们要昂贵和复杂得多，也会将焦点从公司想要完成的更有回报的构建中转移开。换句话说，可追溯性和透明度不是可选的附加项；它们必须从一开始就嵌入到AI系统中。将它们视为事后思考的企业冒着停滞创新、面临监管反弹和永远输掉竞争的风险。道德AI需要全球统一从宏观角度来看，这些两极化的方法为全球企业创造了一个真正的问题。位于轻松监管市场（如美国）的公司可以在短期内更快地扩张，但当他们决定进入欧盟时，他们面临着合规壁垒：AI法案的可追溯性和文档规则需要他们从未建立的能力。将来源跟踪、文档和审计功能重新融入现有系统是一项昂贵、缓慢且具有破坏性的过程，尤其是因为可追溯性是合规性中最耗资源的部分。这与我们在GDPR中看到的模式相同，晚期采用隐私保护的公司苦于昂贵的改造和延迟的市场准入，而早期采用者获得了持久的优势。