人工智能
谷歌如何将 AI 训练需求减少 10,000 倍

人工智能行业面临着一个基本的悖论。虽然机器可以处理大量的数据,但学习过程却出奇地低效,面临着边际效应递减的挑战。传统的机器学习方法需要大量的标记数据,这些数据的成本可能高达数百万美元,并且需要数年时间来创建。这些方法通常遵循“更多数据意味着更好的 AI 模型”的信念。然而,谷歌的研究人员最近引入了一种创新方法,挑战了这一长期的信念。他们证明,类似的 AI 性能可以用远远少于 10,000 倍的训练数据来实现。这种发展有可能从根本上改变我们对 AI 的方法。在这篇文章中,我们将探讨谷歌研究人员如何实现这一突破,未来这一发展的潜在影响,以及前方的挑战和方向。
AI 中的大数据挑战
几十年来,人工智能行业遵循着“更多数据意味着更好的 AI”的信念。像 GPT-4 这样的大型语言模型在训练过程中消耗了数万亿个标记。这种数据饥渴的方法为缺乏大量资源或专用数据集的组织创造了一个重大的障碍。首先,人类标记的成本非常高。专家标记员收取高额费用,数据的庞大体量使得项目变得昂贵。其次,收集的大部分数据通常是冗余的,不能在学习过程中发挥关键作用。传统方法还难以应对不断变化的需求。当政策发生变化或出现新的问题内容时,公司必须从头开始标记过程。这一过程创造了一个昂贵的数据收集和模型重新训练的循环。
使用主动学习解决大数据挑战
解决这些数据挑战的一种方法是通过主动学习。这种方法依赖于一个仔细的策划过程,识别出最有价值的训练示例供人类标记。其基本思想是,模型从它们最困惑的示例中学习得最好,而不是被动地消耗所有可用的数据。与传统的 AI 方法不同,主动学习采取了一种更有针对性的方法,专注于收集最具信息量的示例。这种方法有助于避免标记明显或冗余数据的低效,这些数据对模型的价值很小。相反,主动学习针对边缘情况和不确定的示例,这些示例有可能显著提高模型的性能。
通过集中专家的努力于这些关键示例,主动学习使模型能够更快、更有效地学习,使用的数据点远远少于传统方法。这种方法有可能同时解决数据瓶颈和传统机器学习方法的低效。
谷歌的主动学习方法
谷歌的研究团队成功地采用了这一范式。他们的新主动学习方法表明,精心策划的、高质量的示例可以取代大量的标记数据。例如,他们展示了在少于 500 个专家标记的示例中训练的模型可以匹配或超过在 100,000 个传统标记中训练的系统的性能。
该过程通过谷歌所谓的“LLM-as-Scout”系统工作。大量语言模型首先扫描大量未标记的数据,识别出它最不确定的场景。这些边界情况代表了模型需要人类指导来改进其决策的确切场景。该过程从一个使用基本提示标记大型数据集的初始模型开始。然后,该系统根据预测的分类对示例进行聚类,并识别出模型在不同类别之间显示混淆的区域。这些重叠的聚类揭示了专家人类判断可以变得最有价值的确切点。
该方法明确针对距离最近但带有不同标记的示例对。这些边界情况代表了人类专业知识最重要的场景。通过集中专家标记的努力于这些混淆的示例,系统实现了显著的效率增益。
质量优于数量
研究揭示了一个关于数据质量的关键发现,挑战了人工智能中一个常见的假设。它证明了,具有高保真度的专家标记一致地优于大规模的众包注释。他们使用 科恩卡帕 这一统计工具来衡量这一点,科恩卡帕评估模型的预测与专家意见的一致性程度,超出了偶然性的程度。在谷歌的实验中,专家注释者实现了 0.8 以上的科恩卡帕评分,显著优于众包通常提供的评分。
这种更高的一致性使得模型能够从远远少于的示例中有效地学习。在使用 Gemini Nano-1 和 Nano-2 的测试中,模型仅使用 250-450 个精心选择的示例就匹配或超过了专家对齐,而传统的随机众包标记需要大约 100,000 个标记。这种方法的好处不仅仅在于使用更少的数据。使用这种方法训练的模型通常优于使用传统方法训练的模型。对于复杂任务和更大的模型,性能改进达到 55-65%,表明与政策专家更为一致。
为什么这一突破现在很重要
这一发展出现在人工智能行业的关键时刻。随着模型变得越来越大、越来越复杂,传统的扩大训练数据的方法变得越来越不可持续。训练大型模型的 环境成本 持续增长,许多组织面临着高昂的经济障碍。
谷歌的方法 解决了 多个行业挑战。标记成本的显著降低使得 AI 开发更加容易被小型组织和研究团队所接受。更快的迭代周期使得快速适应不断变化的需求成为可能,这在内容审查或网络安全等动态领域至关重要。
这种方法还对 AI 安全性和可靠性有更广泛的影响。通过关注模型最不确定的场景,这种方法自然地识别出潜在的故障模式和边缘情况。这种过程创建了更强大的系统,它们更好地理解自己的局限性。
AI 发展的更广泛影响
这一突破表明,我们可能正在进入一个新的 AI 发展阶段,在这个阶段,效率比规模更重要。传统的“越大越好”的训练数据方法可能会让位于更复杂的方法,这些方法优先考虑数据质量和战略选择。
仅环境影响就具有重要意义。目前,训练大型 AI 模型需要巨大的计算资源和能耗。如果类似的性能可以用远远少于的数据来实现,AI 开发的碳足迹可能会大大减少。
民主化的影响可能同样重要。以前无法承担大量数据收集工作的较小研究团队和组织现在有了一条通往具有竞争力的 AI 系统的道路。这一发展可能会加速创新,并在 AI 开发中创造出更多样化的视角。
局限性和考虑
尽管其前景广阔,这种方法仍面临着几个实际挑战。需要具有 0.8 以上科恩卡帕评分的专家注释者,这可能会限制在缺乏足够专业知识或明确评估标准的领域中的应用性。研究主要关注分类任务和内容安全应用。是否同样的显著改进也适用于其他类型的 AI 任务,如语言生成或推理,仍有待观察。
主动学习的迭代性质也引入了与传统批处理方法相比的复杂性。组织必须开发新的工作流程和基础设施来支持使模型持续改进的查询-响应循环。
未来的研究可能会探索自动化维持专家级注释质量的方法,并开发核心方法的领域特定适应。将主动学习原则与其他效率技术(如 参数高效微调)相结合可能会带来额外的性能增益。
结论
谷歌的研究表明,针对性、高质量的数据可以比大量数据更有效。通过仅标记最有价值的示例,他们将训练需求减少了多达 10,000 倍,同时提高了性能。这种方法降低了成本,加快了开发速度,减少了环境影响,并使高级 AI 更加容易被访问。它标志着人工智能开发向高效和可持续发展的转变。












