人工智能
AI 的新直觉:为什么更聪明的思考比更长时间的思考更重要

人工智能(AI)的发展长期以来一直受到这样的信念的驱动:增加数据和计算能力可以提高性能。这一“蛮力”方法已经导致了令人印象深刻的AI系统的出现,例如GPT-3,它们这些年来表现得非常出色。然而,这一范式正在达到其极限。随着AI问题变得更加复杂,仅仅增加处理能力就不会成为长期进步的可持续或有效解决方案。这一认识促使研究人员重新思考他们的AI开发方法。在这个背景下,Deep Cogito的Cogito v2模型引入了一种新的方法,这可能会改变AI开发的未来。与其依赖更多的处理能力或扩展推理,Cogito v2开发了内部的“直觉”,指导模型在开始搜索之前就确定正确的路径。这是AI开发范式的转变,通过专注于更好的思考,而不是更长时间的思考。
AI开发的转变
多年来,AI进步背后的驱动力是“更多就是更好”的想法。这一方法已经导致了AI模型的出现,它们生成了广泛的推理链来解决复杂的问题。OpenAI的模型,例如GPT-3,是这一方法的典型例子,其中更长的思考链已经在困难的任务中取得了令人印象深刻的结果。虽然这种方法已经产生了令人印象深刻的结果,但它也带来了显著的缺点。更长的推理链需要更多的计算资源,这导致了推理时间更慢和运营成本更高。另外,研究已经表明,这些扩展过程通常会导致收益递减,推理时间更长会导致偏差更大,效率更低。根本问题是,依赖长推理链和增加计算能力不再是解决复杂AI问题的有效解决方案。这些方法受到其巨大的处理时间和内存要求的限制。
为什么“直觉”对AI很重要
与当前的AI系统不同,当前的AI系统依赖于扩展推理,人类往往依赖于所谓的“直觉”(一种快速、直觉的判断)来解决问题。虽然直觉可能看起来像是一个抽象的概念,但它往往是多年经验、学习和上下文处理的结果,允许人类在没有完全分析每个细节的情况下快速做出决定。正是这种直觉将原始计算与类似人类的推理区分开来。人类通过模式识别和积累经验建立这种“直觉”,它使我们能够在没有穷尽地探索每个可能选项的情况下做出决定。AI的新“直觉”旨在复制这个过程。
这种想法,也被称为“智能先验”,可能是赋予AI系统类似人类的推理和使其更高效的关键。具有强大智能先验的AI模型可以预测哪些解决方案可能会成功,而无需进行广泛的计算。与其依赖于穷举搜索方法,直觉允许AI系统利用以前的知识,专注于解决方案最有效的路径。
Cogito v2如何整合“直觉”
Cogito将“直觉”的想法(更技术性地称为智能先验)整合到了其最近发布的模型Cogito v2中。他们使用了一种称为迭代蒸馏和放大(IDA)的机制来实现这一点。这种机制使模型能够从自己的推理过程中学习,并随着时间的推移改进其问题解决技能。与其依赖静态提示或固定教师,IDA使AI能够将成功的推理路径蒸馏回其核心模型参数中。这种自我改进过程改进了模型的推理能力,优化了不仅仅是准确的答案,还优化了最有效的思考方法。
-
迭代蒸馏和放大(IDA)
要了解IDA的工作原理,我们可以查看双过程理论,它将人类的思考分为两个系统:系统1和系统2。系统1指的是快速、直觉的决策,而系统2则更慢、更有意图的推理。该理论表明,人类在大多数任务中依赖系统1,但在面对更复杂的决策时会切换到系统2。
IDA是一个两步循环:放大和蒸馏。在放大阶段,模型使用强大的计算方法生成高质量的解决方案或推理跟踪。这就像系统2的思考一样,AI花时间仔细评估潜在的解决方案。在蒸馏阶段,模型然后将放大阶段的见解内部化,将推理过程从系统2转换为系统1。就像一个人类驾驶员在获得经验后变得更加直觉一样,具有IDA的AI模型也可以随着时间的推移做出更快、更高效的决策。
IDA背后的关键思想是使用放大阶段的计算密集型推理,然后将增强的推理蒸馏回模型的参数中。这使得模型能够内部化有效的推理策略,从而建立其直觉性地解决问题的能力。通过重复这个循环,AI系统不断提高其做出更少计算资源的决策的能力。
整合“直觉”到AI的优势
AI的直觉的一个主要优势是其效率。像Cogito v2这样的模型展示了比竞争对手模型短60%的推理链。这意味着它们可以用更少的内部步骤到达答案,减少了推理所需的时间和资源。例如,一个可能需要DeepSeek R1超过200个令牌才能解决的问题,可以由Cogito v2在不到100个令牌内解决。
此外,训练Cogito v2的成本远远低于传统AI模型。整个Cogito v2的训练过程,涵盖了广泛的参数,花费不足350万美元,这远远低于大规模模型(如GPT-4)通常相关的费用。
Cogito v2还在它没有明确训练的领域展示了新兴能力。例如,尽管主要是在文本上训练的,Cogito v2可以推理图像,获得有关图像组成和栖息地的见解。这种跨模态推理能力是通往人工通用智能(AGI)的重要一步。
重新思考AI开发
智能先验的成功表明,AI开发策略需要进行根本性的转变。与其简单地扩大模型规模或增加计算资源,AI开发应该专注于构建能够开发和改进其自身认知策略的系统。这一转变反映了人类的认知发展,智力不是大脑更大或思考时间更长的结果,而是更好的精神模型和推理策略的结果。这种方法的转变可能具有长期的影响。通过强调更聪明的推理而不是原始计算能力,AI可以变得更加多才多艺、适应性更强、能够处理新的挑战。这一转变可能会加速AI在医疗保健、网络安全和自动驾驶运输等行业的应用,使AI系统更加高效、成本有效和有影响力。
结论
Cogito v2的成功表明,AI的未来并不在于扩大模型或增加计算能力,而在于改进推理架构和优化更聪明的解决问题的方法。这一转变承诺了AI的更可持续和可及的未来,在这个未来,系统可以在依赖大量计算资源较少的情况下不断改进和适应。通过专注于智能推理而不是蛮力计算,AI可以变得更加能够解决复杂的、现实世界的问题。












