思想领袖

为每个企业量身定制的LLM?DeepSeek 为我们指明了方向

mm

曾经,科技界的号召是“每个人都有手机”——的确,移动通信已经改变了商业(和世界)。今天,相当于那个号召的是给每个人提供访问AI应用程序的机会。但是,AI的真正力量在于将其用于满足企业和组织的特定需求。中国初创公司DeepSeek开创的道路表明,AI确实可以被每个人所利用,特别是那些预算有限的企业和组织,以满足他们的特定需求。的确,低成本AI的出现承诺改变AI解决方案通常由于成本要求而对许多小型企业和组织来说不可见的深层次模式。

LLM曾经是一个昂贵的尝试,需要大量数据、强大的计算机来处理数据以及时间和资源来训练模型。但是,这些规则正在改变。在有限的预算下,DeepSeek开发了自己的LLM,并开发了一个类似ChatGPT的应用程序用于查询——与美国和欧洲公司建立的类似系统相比,投资远远小于他们。DeepSeek的方法为没有数十亿美元预算的小型组织打开了LLM开发的窗口。事实上,可能不久,多数小型组织就可以开发自己的LLM来满足他们自己的特定目的,通常提供比ChatGPT等通用LLM更有效的解决方案。

虽然关于DeepSeek的真正成本的争论仍然存在,但这不仅仅是成本将其和类似模型区分开来——而是它依赖于不那么先进的芯片和更专注的训练方法。作为一家受美国出口限制的中国公司,DeepSeek无法访问先进的Nvidia芯片,这些芯片通常用于LLM开发所需的重型计算,因此被迫使用不那么强大的Nvidia H-800芯片,这些芯片无法像先进芯片那样快速或高效地处理数据。

为了弥补这种缺乏力量,DeepSeek采取了不同的、更专注和直接的方法来开发其LLM。与其将大量数据扔给模型并依赖计算能力来标记和应用数据,DeepSeek缩小了训练范围,利用少量高质量的“冷启动”数据,并应用IRL(迭代强化学习,算法将数据应用于不同的场景并从中学习)。这种专注的方法使得模型能够更快地学习,犯错更少,浪费的计算能力更少。

类似于父母可能会指导婴儿的特定动作,帮助他们第一次成功翻滚——而不是让婴儿自己摸索,或者教他们更广泛的动作,这些动作可能有助于翻滚——训练这些更专注的AI模型的数据科学家将注意力集中在最需要的任务和结果上。这些模型可能没有像ChatGPT这样的更大型LLM那样广泛的可靠应用,但它们可以被依靠来执行特定的应用,并以精确和高效的方式执行。甚至DeepSeek的批评者也承认,其简化的开发方法显著提高了效率,使其能够用更少的资源做更多的事情。

这种方法是关于给AI最好的输入,以便它能够以最聪明、最有效的方式达到其里程碑,并且对任何想要开发LLM以满足其特定需求和任务的组织来说都是有价值的。这种方法对小型企业和组织来说越来越有价值。第一步是从正确的数据开始。例如,一家想要使用AI来帮助其销售和营销团队的公司应该在精心选择的数据集上训练其模型,该数据集专注于销售对话、策略和指标。这使得模型不会浪费时间和计算能力在不相关的信息上。另外,训练需要分阶段进行,确保模型掌握每个任务或概念后再继续下一个任务。

这也与养育婴儿类似,就像我几个月前成为母亲后所学到的那样。在这两种情况下,引导式、分步骤的方法避免了浪费资源和减少了摩擦。最后,这种方法,无论是对婴儿还是AI模型,都会带来迭代式的改进。随着婴儿的成长或模型的学习,其能力会提高。这意味着模型可以被改进和完善,以更好地处理现实世界的情况。

这种方法可以降低成本,防止AI项目成为资源的浪费,使其更容易被小团队和组织所接受。它还可以更快地提高AI模型的性能;由于模型不被不必要的数据所过载,因此它们也可以被调整以适应新的信息和不断变化的业务需求——在竞争激烈的市场中,这一点至关重要。

DeepSeek的到来和低成本、更高效的AI世界——尽管它最初在AI界和股票市场上引起了恐慌——但对于AI领域来说,这是一个积极的发展。AI的更高效和更低的成本,最终将导致AI的使用更加广泛,这将推动从开发者到芯片制造商到终端用户的所有人的增长。事实上,DeepSeek说明了杰文斯悖论——更高的效率可能会导致资源的使用更多,而不是更少。随着这一趋势的继续,小型企业和组织如果专注于使用AI来满足其特定需求,也将更好地实现增长和成功。

斯塔夫·莱维-诺伊马克(Stav Levi-Neumark)是Alta的首席执行官和联合创始人,也是产品管理和收入增长的专家。之前,她是Monday.com的第一批员工之一,在那里她帮助开发了“大脑”(BigBrain),这是一种用于公司日常运营的内部商业智能工具。斯塔夫毕业于希伯来大学耶路撒冷分校,获得计算机科学和统计学学士学位。