AI 模型与平台

人工智能的新直觉:为什么更聪明的思考比更长时间的思考更重要

mm

人工智能(AI)的发展长期以来一直由增加数据和计算能力可以提高性能的信念所驱动。这种“蛮力”方法导致了令人印象深刻的AI系统,例如GPT-3,它们在过去的几年中表现出色。然而,这种范式正在达到其极限。随着AI问题变得更加复杂,很明显,简单地增加处理能力并不会成为长期进步的可持续或有效解决方案。这一认识促使研究人员重新思考他们的AI开发方法。在这种背景下,Deep Cogito的Cogito v2模型引入了一种新的方法,这可能会改变AI开发的未来。与其依赖更多的处理能力或延长的推理,Cogito v2开发了内部的“直觉”,指导模型在开始搜索之前识别正确的路径。这是AI开发方法的范式转变,重点是更好的思考,而不是更长时间的思考。

AI开发的转变

多年来,AI进步的驱动力是“更多是更好”的想法。这种方法导致了AI模型生成广泛的推理链来解决复杂问题。OpenAI的模型,例如GPT-3,是这种方法的例子,其中更长的思考链导致了在困难任务上取得了令人印象深刻的结果。虽然这种方法产生了令人印象深刻的结果,但它也带来了显著的缺点。更长的推理链需要更多的计算资源,从而导致了更慢的推理时间和更高的运营成本。此外,研究表明,这些扩展的过程往往导致了递减的回报,其中更长的推理导致了更大的偏差和更低的效率。根本问题是,依赖于长推理链和增加计算能力不再是解决复杂AI问题的有效解决方案。这些方法受到其巨大的处理时间和内存要求的限制。

为什么“直觉”对AI很重要

与当前依赖于扩展推理的AI系统不同,人类往往依赖于所谓的“直觉”(一种快速、直觉的判断)来解决问题。虽然直觉可能看起来像是一个抽象的概念,但它往往是多年经验、学习和上下文处理的结果,使人类能够在不完全分析每个细节的情况下快速做出决定。这就是区分原始计算和类似人类的推理的直觉。人类通过模式识别和积累经验来建立这种“直觉”,使我们能够在不详尽地探索每个可能的选项的情况下做出决定。AI的新“直觉”旨在复制这个过程。
这种想法,也被称为“智能先验”,可能是赋予AI系统类似人类的推理和使其更加高效的关键。具有强大智能先验的AI模型可以预测哪些解决方案可能会成功,而无需进行大量的计算。相比于依赖于详尽的搜索方法,直觉使AI系统能够利用以前的知识,专注于解决方案最有效的路径。

Cogito v2如何融入“直觉”

Cogito将“直觉”的概念(更确切地说,智能先验)融入了其最近发布的模型Cogito v2中。他们使用了一种称为迭代蒸馏和放大(IDA)的机制来实现这一点。这种机制使模型能够从自己的推理过程中学习,并随着时间的推移改进其问题解决能力。与其依赖于静态提示或固定的教师,IDA使AI能够将成功的推理路径提炼回其核心模型参数中。这种自我改进的过程优化了模型的推理能力,不仅仅是为了准确的答案,还为了最有效的思考方法。

  • 迭代蒸馏和放大(IDA)

为了了解IDA的工作原理,我们可以参考双重过程理论,它将人类的思考分为两个系统:系统1和系统2。系统1指的是快速、直觉的决策,而系统2则更慢、更有意识的推理。该理论表明,人类在大多数任务中依赖于系统1,但在面对更复杂的决策时会切换到系统2。
IDA是一个两步循环:放大和蒸馏。在放大阶段,模型使用强大的计算方法生成高质量的解决方案或推理跟踪。这类似于系统2的思考,AI花时间仔细评估潜在的解决方案。在蒸馏阶段,模型然后将放大阶段的见解内部化,将推理过程从系统2转换为系统1。就像人类驾驶员在获得经验后变得更加直觉一样,具有IDA的AI模型也可以随着时间的推移做出更快、更高效的决策。
IDA背后的关键思想是使用计算密集型的推理在放大阶段,然后将增强的推理提炼回模型的参数中。这使得模型能够内部化有效的推理策略,从而建立其直觉性推理的能力。通过重复这个循环,AI系统不断提高其做出决定所需的计算资源。

将“直觉”融入AI的优势

将“直觉”融入AI的主要优势之一是其效率。像Cogito v2这样的模型展示了比竞争对手模型短60%的推理链。这意味着它们可以用更少的内部步骤到达答案,减少了推理所需的时间和资源。例如,一个可能需要DeepSeek R1超过200个令牌才能解决的问题,可以由Cogito v2在不到100个令牌内解决。
此外,训练Cogito v2的成本比传统AI模型的训练成本要低得多。整个Cogito v2的训练过程,涵盖了广泛的参数,花费不足350万美元,这比大型模型如GPT-4的训练费用要低得多。
Cogito v2还展示了在未经明确训练的领域中出现的能力。例如,尽管主要是在文本上训练的,Cogito v2可以对图像进行推理,推断图像的构成和栖息地。这一跨模态推理能力是通往人工通用智能(AGI)的重要一步。

重新思考AI开发

智能先验的成功表明,AI开发策略需要进行根本性的转变。与其简单地扩大模型规模或增加计算资源,AI开发应该专注于构建能够开发和改进自身认知策略的系统。这一转变反映了人类的认知发展,智力并不是大脑更大或思考时间更长的结果,而是更好的精神模型和推理策略的结果。这种方法的转变可能会产生长期的影响。通过强调更聪明的推理而不是原始计算能力,AI可以变得更加多才多艺、适应性强、能够处理新的挑战。这一转变可能会加速AI在医疗保健、网络安全和自动驾驶等行业中的应用,使AI系统更加高效、节能和有效。

结论

Cogito v2的成功表明,AI的未来并不在于扩大模型或增加计算能力,而在于改进推理架构和优化更聪明的解决问题的方法。这一转变承诺了一个更加可持续和易于访问的AI未来,系统可以在依赖大量计算资源的同时不断改进和适应。通过专注于智能推理而不是蛮力计算,AI可以变得更加能够解决复杂的、现实世界的问题。

Dr. Tehseen Zia 是 COMSATS University Islamabad 的终身副教授,拥有来自奥地利维也纳科技大学的人工智能博士学位。专攻人工智能、机器学习、数据科学和计算机视觉,他在著名的科学期刊上发表了重要贡献。 Dr. Tehseen 还作为首席调查员领导了各种工业项目,并担任人工智能顾问。