思想领袖
为每个企业量身定制的LLM?DeepSeek 为我们指明了方向

曾经有一段时间,科技界的号召是“手机为每个人” – 确实,移动通信已经改变了商业(和世界)。今天,相当于那个号召的是让每个人都能访问人工智能应用。但人工智能的真正力量在于将其用于满足企业和组织的特定需求。中国初创公司DeepSeek开辟的道路表明,人工智能确实可以被每个人利用,特别是那些预算有限的企业和组织,以满足他们的特定需求。确实,低成本人工智能的出现承诺改变人工智能解决方案通常由于成本要求而对许多小型企业和组织来说是不可见的深层次模式。
LLM是– 或曾经是– 一个昂贵的尝试,需要大量的数据、许多强大的计算机来处理数据,以及时间和资源投入到模型训练中。但这些规则正在改变。在极低的预算下,DeepSeek开发了自己的LLM,并开发了一个类似ChatGPT的应用程序用于查询– 与美国和欧洲公司建立的类似系统相比,投资远远较小。DeepSeek的方法为没有数十亿美元预算的小型组织开启了LLM开发的窗口。事实上,不久的将来,大多数小型组织可能会开发自己的LLM来满足自己的特定目的,通常比像ChatGPT这样的通用LLM提供更有效的解决方案。
虽然辩论仍然存在关于DeepSeek的真实成本,但这不仅仅是成本将其和类似模型区分开来:这是因为它依赖于不太先进的芯片和更集中的训练方法。作为一家受美国出口限制的中国公司,DeepSeek无法访问先进的Nvidia芯片,这些芯片通常用于LLM开发所需的重型计算,因此被迫使用不太强大的Nvidia H-800芯片,这些芯片无法像其他芯片一样快速或高效地处理数据。
为了弥补这种缺乏力量,DeepSeek采取了不同的、更集中的和直接的方法来开发其LLM。与其将大量数据扔给模型并依赖计算能力来标记和应用数据,DeepSeek缩小了训练范围,利用少量高质量的“冷启动”数据,并应用IRL(迭代强化学习,算法将数据应用于不同的场景并从中学习)。这种集中的方法允许模型更快地学习,错误更少,浪费的计算能力更少。
类似于父母可能会指导婴儿的特定动作,帮助婴儿成功地翻过身– 而不是让婴儿自己想办法,或者教婴儿更多的动作,这些动作可能有助于翻过身– 训练这些更集中的人工智能模型的数据科学家将注意力集中在最需要的任务和结果上。这些模型可能没有像ChatGPT这样的更大型LLM那样广泛的可靠应用,但它们可以被依靠来执行特定的应用,并以精确和高效的方式执行。甚至DeepSeek的批评者也承认,其开发的简化方法显著提高了效率,使其能够用更少的资源做更多的事情。
这种方法是关于为人工智能提供最好的输入,以便它能够以最聪明、最有效的方式达到其里程碑,并且对于任何想要开发LLM来满足其特定需求和任务的组织来说都是有价值的。这种方法对于小型企业和组织来说也是越来越有价值的。第一步是从正确的数据开始。例如,一家公司想要使用人工智能来帮助其销售和营销团队,应该在一个精心选择的数据集上训练其模型,该数据集专注于销售对话、策略和指标。这可以防止模型浪费时间和计算能力在不相关的信息上。另外,训练需要分阶段进行,确保模型掌握每个任务或概念后再继续下一个。
这也与养育婴儿类似,我自己在几个月前成为母亲后也学到了。在这两种情况下,引导式的、分步骤的方法可以避免浪费资源和减少摩擦。最后,这种方法,无论是对婴儿还是人工智能模型,都会带来迭代式的改进。随着婴儿的成长,或者模型学习得更多,其能力也会提高。这意味着模型可以被改进和完善,以更好地处理现实世界的情况。
这种方法可以降低成本,防止人工智能项目成为资源的浪费,使其更容易被小型团队和组织使用。它还可以更快地提高人工智能模型的性能;因为模型不被不必要的数据所淹没,所以它们也可以被调整以适应新的信息和不断变化的商业需求– 在竞争激烈的市场中,这一点至关重要。
DeepSeek和低成本、高效人工智能的世界的到来 – 虽然它最初在人工智能世界和股票市场上引起了恐慌 – 对于人工智能行业来说是积极的发展。人工智能的更高效和更低的成本,至少对于某些专注的应用来说,最终将导致人工智能的使用更加广泛,这将推动从开发者到芯片制造商到最终用户的所有人的增长。事实上,DeepSeek说明了杰文斯悖论 – 更高的效率可能会导致资源的使用量增加,而不是减少。随着这一趋势看起来将继续下去,专注于使用人工智能来满足其特定需求的小型企业也将更好地为增长和成功做好准备。












