超过 13 年,Gediminas Rickevicius 一直是全球领先的 IT、广告和物流公司的增长动力。他一直在改变传统的商业发展和销售方法,通过将大数据融入战略决策中。作为 Oxylabs 的全球合作伙伴高级副总裁,Gediminas 继续他的使命,赋予企业最先进的公共网络数据采集解决方案。
当人类面临新事物时,会本能地寻找比较。一个学习原子的孩子可能会听到电子围绕原子核“像行星围绕太阳一样”旋转。一个企业家可能会将他们的初创公司描述为“宠物美容的优步”。一位科学家可能会告诉非专业人士,大脑处理信息“像计算机一样”。这种精神飞跃——看到一件事物如何在其深层结构上与另一件事物相似——被称为类比推理。它可能是区分人类智慧和人工智能的关键因素。如果我们希望开发出真正的人工智能,我们必须弄清楚机器是否能够学习类比推理。如果答案是“否”,那么即使是最先进的人工智能系统也将永远只能是高级计算器。它们将无法解决需要更多数据处理的复杂问题。理解的架构类比推理在结构层面上发挥作用,而不是表面层面。例如,什么使得心脏和水泵相似?当然不是它们的外观。它们都执行相同的功能,即在系统中循环流体。这种能力使人类的学习、创造力和问题解决能力独一无二。现实世界中有很多例子。奥古斯特·凯库勒,一位杰出的德国化学家,曾经通过一个梦境获得了关于苯的结构的提示,他梦见一条蛇咬住了自己的尾巴。今天,程序员在编写代码时会应用厨房组织的原则,教师会通过比较电流和水流来解释电流的原理。然而,当前的人工智能系统却发现这种认知技能很难掌握。当被要求解释类比时,现代的大型语言模型(LLM)很乐意解释为什么“时间就是金钱”,或者完成语言推理谜题。但是,越来越多的证据表明,它们经常从事复杂的模式匹配,而不是真正的结构映射。当研究人员向这些模型提出新颖的类比问题时,它们的性能往往会大幅下降。这是因为LLM擅长复制以前见过的类比,但在被要求建立新联系时却会失败。没有类比推理,就没有真正的人工智能显然,类比推理是真正的人工智能的必要条件。如果没有它,人工智能系统将变得脆弱,无法将一个领域的知识应用于另一个领域。例如,想象一辆已经学会在加利福尼亚阳光明媚的街道上行驶的自动驾驶汽车,但无法将这种知识应用于雪地行驶。这种人工智能系统只是一个昂贵的模式匹配器,而不是真正的智能系统。真正的智能需要在不同情况下识别结构相似性的认知灵活性。同样的原理也适用于其他领域。类比思维也推动了科学、医学诊断、法律推理和创造性事业的进步。没有这种能力的人工智能系统就像一位已经记住了整个图书馆但无法跨学科综合知识的学者。令人印象深刻,但仅限于狭窄的范围。构建类比思维那么,开发出能够像人类一样进行类比推理的人工智能系统需要什么?基于新兴研究和类比思维的基本性质,似乎有几个关键条件和技术是必要的。结构丰富和多样的训练数据第一个要求是人工智能系统需要在超越表面层次的文本模式的数据上进行训练。互联网是一个很好的起点,因为它有大量的科学论文、技术文档、创作作品和解释性内容。但是,并不是任何互联网数据都适用。所需的是结构多样性。换句话说,为了引导人工智能系统学习识别抽象模式,开发人员应该从训练的第一天开始就让它们接触到对比。它们的训练数据可以包括建筑蓝图和音乐曲谱、数学证明和诗歌、法律论证和烹饪配方。由于每个领域都包含不同类型的关系结构,一个潜在的人工智能系统将从这种训练中受益。更重要的是,这些数据需要保留和突出结构关系,而不仅仅是统计相关性。知识图谱、因果图和显式映射的概念关系可以帮助人工智能系统学习“看到”结构,而不是机械地记忆关联。超越训练集的测试为了确保人工智能系统正在学习类比推理,而不是简单地提高模仿技能,我们需要工具来故意测试它们将结构映射到以前未遇到的情况的能力。这需要构建故意与训练数据不同的测试问题——所谓的“反事实”任务。例如,不要要求人工智能完成标准类比,如“小狗与狗的关系就像小猫与_____的关系”,我们可以向它提出使用虚构概念的问题,或者要求它在以前从未见过的领域之间建立关系。它能否认识到食谱和食材之间的关系与证据和法律论证之间的关系相似,即使它以前从未遇到过这种特定的比较?这种测试将揭示系统是否真正理解了底层结构,还是只是回忆类似的例子。衡量重要的指标对于人工智能开发人员来说,好消息是,有几十年的认知科学研究专门研究人类如何处理类比。他们可以利用这些研究来开发类比推理的强大基准。然而,这些基准必须超越简单地计算类比测试的正确答案。真正需要的是能够捕捉人工智能系统是否能够识别哪些关系对于映射是相关的,同时忽略表面相似性并保持映射的一致性。这可能涉及奖励识别高阶关系的评分系统。例如,一个人工智能系统将获得更高的分数,如果它不仅可以识别原子和太阳系都涉及轨道,还可以理解控制这些轨道的因果关系。另一个需要评估的能力是人工智能系统是否可以自发地生成类比来解释新概念,而不仅仅是完成预先结构化的类比问题。通过提示进行支架构建最近的研究表明,人工智能的类比推理能力在很大程度上取决于它被要求这样做的方式。类比提示——明确地引导模型通过结构映射的过程——可以比简单地提出问题更能引出更复杂的推理。这可能涉及首先要求系统在源领域中识别关系,然后明确要求它将这些关系映射到目标领域。这种技术可以发挥双重作用:提高当前人工智能系统的类比推理能力,同时为未来的模型生成训练数据。通过记录成功的引导类比推理实例,可以创建能够教导后续系统更自然地进行这种过程的例子。混合架构实现类似人类的类比推理可能需要超越纯粹的神经网络方法。将模式识别与符号推理相结合的混合系统——显式地表示和操作结构关系——可能会提供缺失的部分。虽然神经网络擅长学习隐式模式,但符号系统可以强制结构一致性和逻辑映射,这是类比推理所要求的。混合架构仍处于初期阶段,但研究人员正在积极探索其潜力。一些研究人员认为,将神经网络与可能带来增强类比能力的符号推理相结合是有前途的。其他人则提倡构建混合模型,以解决人工智能模型的肤浅类比推理问题。下一步是什么?根据你问谁,类比推理要么已经出现,要么人工智能只是变得更加擅长模仿。无论哪种观点更接近真相,很明显,如果要实现真正的人工智能的梦想,就需要比仅仅更大的模型或更多数据更有意义的创新。它还需要对我们如何构建、训练和评估人工智能系统进行一些基本的创新。随着人工智能的变革能力展开,类比推理代表了人工智能性能的关键基准和人工智能当前能力与真正的人类认知之间差距的严峻提醒。当人工智能系统能够认识到民主与公民的关系就像管弦乐队与音乐家的关系一样——认识到深层结构关系、协调、代表和涌现和谐——而不仅仅是表面特征时,它将跨越真正智能的重要门槛。
埃隆·马斯克最近宣称,我们已经耗尽了用于训练人工智能模型的人类数据。他的警告是对人工智能需要新数据源的最新评论,尤其是在医疗保健和金融等行业,严格的隐私法规使得数据短缺更加严重。虽然合成数据并不是新鲜事物,但其重要性持续增长,最近的并购和投资热潮就是明证。然而,合成数据的使用也存在一些深层次的不确定性,尤其是模型崩溃的风险,即大型语言模型(LLM)的输出质量会随着训练数据的简化而下降。如果这个问题无法解决,可能会对生成式人工智能(Gen AI)的未来产生重大影响。什么是合成数据及其创建方法合成数据是人工创建的,而不是从真实事件中收集的。目前,人工智能生成的合成数据是最常见的形式,涉及训练模型以检测模式和相关性,然后生成模拟这些统计特性的新数据。大型语言模型(LLM)被用于生成各种类型的合成数据,包括结构化数据(如表格数据)和非结构化数据(如自由文本、视频和图像)。根据生成的数据类型,使用不同的方法。例如,生成合成图像数据的两种常见方法是GAN和扩散模型。GAN使用两个神经网络:生成器创建人工版本的真实数据,而判别器识别哪些是真实的,哪些是生成的。两个网络一起工作,生成器尝试“欺骗”判别器,不断提高人工数据的真实性和多样性。扩散模型采用不同的方法,学习扭曲真实数据,然后反转这个过程来“去噪”它。一旦有效训练,扩散模型就可以生成高质量的合成音频和视觉数据。合成数据的日益重要性人们对合成数据的兴趣由来已久。然而,在过去的5年里,大型语言模型的快速发展既增加了对合成数据的需求,也创造了更有效的生成合成数据的方法。因此,合成数据的使用量激增。根据Gartner的预测,到2024年,合成数据将占大型语言模型训练数据的60%,而2021年这一比例仅为1%。有理由相信这个估计基本准确。例如,微软的Phi-4模型尽管规模较小,但在数学和推理基准测试中超越了其他大型语言模型,主要是使用合成数据训练的。同时,亚马逊Alexa的工程师们正在探索使用“教师-学生”模型,其中“教师”模型生成合成数据,然后用于微调较小的“学生”模型。这一广泛的采用也被市场上的大举动所反映。2021-22年,合成数据领域经历了投资热潮。Gretel AI和Tonic.ai分别获得了5000万美元和3500万美元的B轮融资。之后,MOSTLY AI完成了2500万美元的B轮融资,而Synthesis AI获得了1700万美元的A轮融资。最近,趋势转向大规模收购。今年春天,NVIDIA收购Gretel将支持这家科技巨头在这一领域的工作。同样,人工智能解决方案公司SAS在2024年11月收购了合成数据初创公司Hazy。分析公司Cognilytica估计,2021年合成数据生成市场的价值约为1.1亿美元,并预计到2027年将达到11.5亿美元。其他预测表明,该行业的复合年增长率(CAGR)将达到31%,到2030年,市场价值将达到23.3亿美元。模型崩溃然而,合成数据的激动人心的潜力伴随着一个重大的缺点:模型崩溃。这是一种现象,即仅使用合成数据训练的大型语言模型开始产生精度较低或多样性较低的输出。虽然真实世界的数据往往复杂,而合成数据通常被模型简化和浓缩。例如,研究人员发现,一个模型被训练来检测照片中的癌性痣,其准确性与合成训练数据的数量成反比。牛津、剑桥、帝国理工和多伦多大学的学者最近的一项研究发现,滥用模型生成的数据会导致“不可逆转的模型缺陷”。更糟糕的是,大多数大型语言模型都是“黑盒”,难以理解它们如何响应合成数据。来自莱斯大学和斯坦福大学的研究人员得出结论,没有新鲜的真实世界数据,“未来的生成模型注定会有质量(精度)或多样性(召回率)逐渐下降”。真实世界数据的持续需求显然,即使合成数据需求激增,真实世界数据的需求仍然存在。事实上,高质量真实世界数据的需求可能会增加。其原因是两方面的。首先,真实世界数据将始终被需要来训练生成合成数据的AI模型。其次,为了避免模型崩溃,必须不断同步合成数据与真实世界数据。用于训练合成数据生成AI模型的真实数据如前所述,今天的大多数合成数据都是使用生成式人工智能(Gen AI)创建的。而这些Gen AI模型必须在真实世界数据上训练,以创建可用的合成数据。这是因为它们只能通过复制真实世界数据集的模式和统计特性来创建合成数据。考虑最近的一个例子,一家保险公司能够使用合成数据来测试不同的供应商,而不泄露其敏感的客户数据。为了生成这个合成数据集,它必须使用自己的真实世界数据来训练生成合成数据的AI模型。用于缓解模型崩溃的真实数据有多种策略可以缓解模型崩溃的风险。这些包括验证和定期审查合成数据集,并在使用生成模型之前检查合成数据的质量。然而,最常见的方法是通过结合合成数据和人类数据来多样化使用的数据。根据Gartner的调查,63%的受访者偏好使用部分合成数据集,只有13%表示使用完全合成数据。即使添加少量的真实世界数据也可以显著提高模型的性能。来自南加州大学的研究人员发现,公司可以用合成数据替换多达90%的真实数据,而不会看到性能大幅下降。然而,替换最后10%的人类数据会导致性能显著下降。质量也很重要,如微软的Phi-4成功案例所示。这个大型语言模型主要是在GPT-4o生成的合成数据上训练的。然而,预训练数据(即模型首次训练阶段使用的通用数据集)中包含大量精心策划的、高质量的真实世界数据,包括图书和研究论文。合成数据可以带来的潜在益处当合成数据被明智地使用,并与真实世界数据有效地结合时,它有可能解决六个特定的问题:稀缺性、可访问性、同质性、偏差、隐私问题和成本。数据稀缺性随着人工智能公司争相占领市场份额和实现新的里程碑,训练大型语言模型所需的数据需求也在不断增加。合成数据有可能填补这一空白,至少根据Gartner的研究。然而,需要注意的是,在预训练数据集中使用大量的真实数据,以及为了避免模型崩溃而与合成数据同步,仍然是必要的。数据可访问性越来越多的大型科技公司正在成为数据的守门人,制造了进入壁垒,阻碍了小型玩家的发展。合成数据有可能通过使大量的训练数据变得经济和可及来民主化生成式人工智能。然而,这并不会消除大型科技公司改善真实世界数据访问的责任,因为真实世界数据仍然需要用于训练合成数据生成模型。数据同质性在某些领域,如训练自动驾驶AI,真实世界的数据集可能过于同质化。开发者可以生成合成数据来填补数据中的空白,例如在驾驶中不常见的情况。这样,模型就可以为道路上罕见的情况进行训练。偏差一些真实世界的数据集包含固有的偏差,合成数据可以被生成以确保人工智能模型获得更平衡的图景。例如,在金融领域,英国金融行为监管局(FCA)认为,合成数据有可能抵消由于某些群体在人类数据集中代表性不足而引起的潜在偏差。隐私在医疗保健和金融等领域,隐私要求使得数据短缺更加严重。通过合成数据,公司可以为其模型构建包含特定数据的训练数据集,而不泄露客户隐私。然而,正如英国皇家学会委托的一份报告指出,合成数据“固有私密”的假设是一个“误解”。研究人员指出,合成数据可能会泄露其源数据的信息。特别是,训练在敏感数据上的模型容易受到模型逆转攻击,黑客可以重建原始数据集的一部分。成本一般来说,合成数据的生成成本低于真实世界数据。它还带有标签,这可以节省时间和成本。在一些人工智能训练项目中,高达80%的项目时间都花在了数据准备上,包括标注。这就是为什么专门的公司出现了,旨在以低成本满足硅谷巨头的数据处理需求。增强而非替代真实数据合成数据的这些益处可以被利用,但前提是不能将其视为真实数据的替代品。相反,其作用应该是增强真实数据集,提供增加数据点规模的方法。为了说明这一点,Meta即将推出的大型语言模型LLAMA Behemoth,将在30万亿个数据点上进行训练。显然,在这种规模下找到真实世界的数据是具有挑战性的,如果不是不可能的话。然而,正如前面提到的,使用真实世界的数据仍然是必要的,无论是用于训练生成合成数据的模型,还是用于与合成数据同步以确保准确性并避免模型崩溃。在大型语言模型当前的工作规模下,即使合成数据占训练数据的很大一部分,仍然会对真实世界数据有很大的需求。这意味着围绕数据的控制、访问、偏差、成本和时间等问题仍将存在,需要解决。