思想领袖
合成数据的真相:为什么人类专业知识对于LLM成功至关重要

LLM开发人员越来越多地转向合成数据,以加速开发并降低成本。几款顶级模型(如LLama 3、Qwen 2和DeepSeek R1)的研究人员在研究论文中提到,他们使用合成数据来训练模型。从外部来看,这似乎是一个完美的解决方案:一个无限的信息源,可以加速开发并降低成本。但是,这个解决方案带来了一个隐藏的成本,企业领导者无法忽视。
简单来说,合成数据是由AI模型生成的,用于创建人工数据集,以训练、细化和评估LLM和AI代理。与传统的人类注释相比,它允许数据管道快速扩展,这在AI开发的快速变化和竞争激烈的环境中至关重要。
企业可能有其他理由使用“伪造”的数据,例如保护金融或医疗保健环境中的敏感或机密信息,通过生成匿名版本。合成数据也是一个良好的替代品,当专有数据不可用时,例如在产品发布之前或当数据属于外部客户时。
但是,合成数据是否正在革新AI开发?简短的答案是一个有资格的是:它具有巨大的潜力,但如果没有严格的人类监督,它也可能使LLM和代理暴露于关键漏洞之中。LLM生产者和AI代理开发人员可能会发现,使用不充分的审查合成数据训练的AI模型可能会产生不准确或有偏见的输出,造成声誉危机,并导致不符合行业和道德标准。投资于人类监督以改进合成数据是直接投资于保护底线,维护利益相关者信任和确保负责任的AI采用。
通过人类的输入,合成数据可以转化为高质量的训练数据。有三个关键原因需要改进生成的数据,然后再用它来训练AI:填补源模型知识的空白,提高数据质量和减少样本大小,以及与人类价值观保持一致。
我们需要捕捉独特的知识
合成数据主要是由LLM生成的,LLM是训练在公开可用的互联网源上,创建了一个固有的局限性。公共内容很少捕捉到在现实世界中工作中使用的实践、手工知识。像设计营销活动、准备财务预测或进行市场分析这样的活动通常是私有的,并且不在线上记录。此外,来源往往反映了美国中心的语言和文化,限制了全球代表性。
为了克服这些局限性,我们可以让专家创建数据样本,以覆盖我们怀疑合成数据生成模型无法覆盖的领域。回到公司的例子,如果我们希望最终模型能够有效地处理财务预测和市场分析,训练数据需要包括来自这些领域的真实任务。找出这些空白并用专家创建的样本来补充合成数据是很重要的。
专家通常在项目早期参与,以定义工作范围。这包括创建一个分类法,概述模型需要执行的特定知识领域。例如,在医疗保健领域,普通医学可以分为营养、心血管健康、过敏等子主题。一个面向医疗保健的模型必须在所有预期涵盖的子领域中进行训练。定义分类法后,LLM可以快速、按比例生成数据点,具有典型的问题和答案。然而,人类专家仍然需要审查、纠正和改进此内容,以确保它不仅准确,而且安全和语境适当。在高风险应用中,例如医疗保健,质量保证过程是必要的,以确保数据准确性和减轻潜在危害。
质量优于数量:通过更少、更好的样本驱动模型效率
当领域专家为LLM和AI代理创建数据时,他们创建分类法、编写提示、制作理想答案或模拟特定任务。所有这些步骤都经过精心设计,以适应模型的目的,质量由相应领域的主题专家保证。
合成数据生成并不完全复制这个过程。它依赖于用于创建数据的底层模型的优势,结果质量通常不如人类策划的数据。因此,合成数据通常需要更大的体积来实现令人满意的结果,推动计算成本和开发时间的增加。
在复杂的领域中,有些细微差别只有人类专家才能发现,特别是在异常值或边缘情况下。人类策划的数据始终提供更好的模型性能,即使使用明显较小的数据集。通过将人类专业知识战略性地融入数据创建过程中,我们可以减少模型有效运行所需的样本数量。
在我们的经验中,解决这个挑战的最佳方法是让主题专家参与构建合成数据集。当专家设计数据生成规则、定义数据分类法并审查或纠正生成的数据时,数据的最终质量会更高。这种方法使我们的客户能够使用更少的数据样本实现强大的结果,导致更快、更高效的上市路径。
建立信任:人类在AI安全和对齐中的不可替代作用
自动化系统无法预测所有漏洞或确保与人类价值观的对齐,特别是在边缘情况和模糊场景中。专家人类审查者在识别新出现的风险和确保部署前道德结果方面发挥着至关重要的作用。这是一层保护,AI至少目前无法完全自行提供。
因此,为了建立一个强大的红队数据集,仅仅依靠合成数据是不够的。让安全专家尽早参与这个过程至关重要。他们可以帮助绘制潜在攻击的类型并指导数据集的结构。LLM可以然后被用来生成大量的例子。之后,专家需要验证和改进数据,以确保它是真实的、高质量的,并且对测试AI系统有用。例如,LLM可以生成成千上万的标准黑客提示,但人类安全专家可以制作出利用细微心理偏见的新型“社会工程”攻击——一种创造性的威胁,自动化系统难以独立发明。
在使用自动化反馈对齐LLM方面已经取得了显著进展。在论文“RLAIF vs. RLHF:使用AI反馈扩展强化学习”中,研究人员表明,基于AI的对齐在许多情况下可以与人类反馈一样表现良好。然而,虽然AI反馈随着模型的改进而改进,但我们的经验表明,RLAIF在复杂领域和边缘情况或异常值方面仍然存在困难,这些领域的性能可能会根据应用程序的不同而至关重要。人类专家在处理任务细微差别和上下文方面更为有效,使他们在对齐方面更可靠。
AI代理也从自动化测试中受益,以解决广泛的安全风险。虚拟测试环境使用生成的数据来模拟代理行为,例如与在线工具交互和在网站上执行操作。为了最大限度地提高测试覆盖率,在现实场景中,人类专业知识对于设计测试用例、验证自动化评估结果和报告漏洞至关重要。
合成数据的未来
合成数据是一种开发大型语言模型的宝贵技术,特别是在今天快速发展的环境中,扩展和快速部署至关重要。虽然合成数据本身没有根本的缺陷,但它需要改进才能发挥其全部潜力并提供最大的价值。将自动化数据生成与人类专业知识相结合的混合方法是开发能够和可靠的模型的有效方法,因为最终模型的性能更依赖于数据质量而不是总体积。这个集成过程,使用AI进行扩展和人类专家进行验证,产生了更强大、安全性和对齐性更好的模型,这对于建立用户信任和确保负责任的部署至关重要。












