Connect with us

思想领袖

DeepSeek:提高效率,而不是人工智能创新中的范式转变

mm

围绕DeepSeek的最近的兴奋是可以理解的,考虑到它在这个领域带来的显著提高的效率。然而,DeepSeek的发布似乎有一些反应误解了其影响的幅度。DeepSeek代表了大型语言模型(LLM)发展预期轨迹上的一个飞跃,但它并不标志着向人工一般智能(AGI)的革命性转变,也不代表人工智能创新中心的突然转变。

相反,DeepSeek的成就是沿着一条已知路径的自然进展——人工智能技术的指数增长。它不是一种颠覆性的范式转变,而是技术变化加速步伐的有力提醒。

DeepSeek的效率提高:预期轨迹上的飞跃

围绕DeepSeek的兴奋核心在于其令人印象深刻的效率改进。其创新主要是关于使LLM更快、更便宜,这对人工智能模型的经济学和可及性有着重大的影响。然而,尽管有这样的热潮,这些进步并不是根本上新的,而是现有方法的改进。

在1990年代,高端计算机图形渲染需要超级计算机。今天,智能手机就能完成同样的任务。同样,面部识别——曾经是一种小众、高成本的技术——现在已经成为智能手机中的一种普遍的、开箱即用的功能。DeepSeek符合这种技术模式:对现有能力的优化,提供效率,而不是新的、开创性的方法。

对于那些熟悉技术增长原理的人来说,这种快速进步并不是意外。技术奇点理论认为,在人工智能等关键领域加速进步,预测突破将变得更加频繁,因为我们接近奇点。DeepSeek只是这一正在进行的趋势中的一个时刻,其作用是使现有的人工智能技术更易于获取和高效,而不是代表着突然跳入新的能力。

DeepSeek的创新:架构调整,而不是跳跃到AGI

DeepSeek的主要贡献是优化大型语言模型的效率,特别是通过其专家混合(MoE)架构。MoE是一种成熟的集成学习技术,多年来一直被用于人工智能研究。DeepSeek所做的特别好的是完善这种技术,结合其他效率措施以最小化计算成本,使LLM更便宜。

  • 参数效率:DeepSeek的MoE设计仅激活其671亿参数中的37亿,在任何时候,减少计算需求到传统LLM的1/18。
  • 强化学习用于推理:DeepSeek的R1模型使用强化学习来增强链式思维推理,这是语言模型的一个至关重要的方面。
  • 多令牌训练:DeepSeek-V3能够同时预测多个文本片段,增加了训练的效率。

这些改进使DeepSeek模型在训练和运行时比OpenAI或Anthropic等竞争对手便宜得多。虽然这是LLM可及性方面的一个重大步骤,但它仍然是一个工程上的改进,而不是向AGI的概念性突破。

开源人工智能的影响

DeepSeek最值得注意的决定之一是使其模型开源——这明显偏离了OpenAI、Anthropic和谷歌等公司的专有、封闭花园方法。这种开源方法,由Meta的Yann LeCun等人工智能研究人员倡导,促进了一个更加去中心化的人工智能生态系统,在那里创新可以通过集体开发而蓬勃发展。

DeepSeek开源决定背后的经济理由也很明确。开源人工智能不仅是一种哲学立场,也是一种商业策略。通过使其技术可供广泛的研究人员和开发人员使用,DeepSeek正在将自己定位为从服务、企业集成和可扩展托管中受益,而不是仅仅依赖于专有模型的销售。这种方法使全球人工智能社区能够获得具有竞争力的工具,并降低了大型西方科技巨头对该领域的控制。

中国在人工智能竞赛中的日益重要作用

对于很多人来说,DeepSeek的突破来自中国可能会令人惊讶。然而,这一发展不应被视为令人震惊或作为地缘政治竞争的一部分。多年来观察中国的人工智能格局,很明显该国在人工智能研究上进行了大量投资,导致了人才和专业知识的日益增长的池塘。

而不是将这种发展视为对西方主导地位的挑战,它应该被视为人工智能研究日益全球化的标志。开放合作,而不是民族主义竞争,是实现人工智能的负责任和道德发展的最有前途的道路。一个去中心化的、全球分布的努力更有可能产生一种能够造福整个人类的AGI,而不是只服务于一个国家或公司的利益。

DeepSeek的更广泛影响:超越LLM

虽然DeepSeek周围的兴奋主要围绕着其在LLM领域的效率,但退一步考虑这一发展的更广泛影响至关重要。

尽管它们具有令人印象深刻的能力,但像LLM这样的变压器模型仍然远远没有达到AGI。它们缺乏基本的品质,如接地组合抽象和自主推理,这些对于一般智能是必要的。虽然LLM可以自动执行广泛的经济任务并集成到各个行业,但它们并不能代表AGI发展的核心。

如果AGI在接下来的十年内出现,那么它不太可能仅仅基于变压器架构。像OpenCog Hyperon或神经形态计算这样的替代模型可能更为基础地实现真正的一般智能。

LLM的商品化将转移人工智能投资

DeepSeek的效率提高加速了LLM的商品化趋势。随着这些模型的成本继续下降,投资者可能会开始寻找传统LLM架构以外的下一个重大突破。我们可能会看到资金转向超越变压器的AGI架构,以及对替代人工智能硬件(如神经形态芯片或关联处理单元)的投资。

去中心化将塑造人工智能的未来

随着DeepSeek的效率提高使得部署人工智能模型变得更容易,它们也为人工智能架构的去中心化做出了贡献。通过关注隐私、互操作性和用户控制,去中心化人工智能将减少我们对大型、集中式科技公司的依赖。这一趋势对于确保人工智能满足全球人口的需求,而不是被少数强大的玩家控制至关重要。

DeepSeek在人工智能寒武纪爆发中的地位

总之,虽然DeepSeek是LLM效率的一个重要里程碑,但它并不是人工智能格局中的革命性转变。相反,它加速了沿着已知轨迹的进展。DeepSeek的更广泛影响体现在几个领域:

  • 对现有玩家的压力:DeepSeek挑战像OpenAI和Anthropic这样的公司重新思考他们的商业模式,并找到新的竞争方式。
  • 人工智能的可及性:通过使高质量的模型更便宜,DeepSeek使先进技术的获取民主化。
  • 全球竞争:中国在人工智能发展日益增长的作用是人工智能创新日益全球化的标志,这并非仅限于西方。
  • 指数进步:DeepSeek是人工智能进步迅速成为常态的明显例子。

最重要的是,DeepSeek提醒我们,虽然人工智能正在迅速进步,但真正的AGI可能会通过新的、基础的方法出现,而不是优化今天的模型。随着我们朝着奇点前进,确保人工智能开发保持去中心化、开放和协作至关重要。

DeepSeek不是AGI,但它代表了通往变革性人工智能的旅程中的一大步。

Dr Ben Goertzel 是一位人工智能研究人员和企业家,专注于人工通用智能(AGI)、机器学习和去中心化人工智能系统。拥有超过三十年的经验,他领导了多个高级人工智能框架的开发,包括 OpenCog 项目和 SingularityNET,一个去中心化的人工智能平台。他撰写了大量关于人工智能、认知科学和复杂系统的书籍和研究论文,并经常就 AGI 的变革潜力发表演讲。