访谈
卢迈(Lumai)CEO兼联合创始人郭贤欣博士 – 采访系列

郭贤欣博士,卢迈(Lumai)的CEO和联合创始人,是一位物理学家和深科技企业家,专门从事光计算和人工智能硬件,拥有香港科技大学量子物理和非线性光学博士学位。他曾在卡尔加里大学和牛津大学担任研究职位,包括1851研究奖学金,在光子学和人工智能加速方面做出了贡献。从卢迈的研究负责人到CEO,他是公司核心技术的主要发明者,拥有十多年的物理、机器学习和高级计算系统交叉领域经验。
卢迈是一家牛津大学的分支机构,开发基于3D光计算的下一代人工智能处理器,使用光代替电力执行关键人工智能计算。其技术旨在加速支持现代人工智能模型的矩阵运算,提供显著更快的处理速度,同时比传统的基于硅的GPU减少能耗。通过将光计算集成到现有的数据中心环境中,卢迈旨在实现更可扩展和更具成本效益的人工智能部署,解决大规模人工智能系统中计算能力和能耗的日益增长的限制。
您从量子物理和非线性光学开始您的职业生涯,后来成为牛津大学的1851研究员,然后从您的研究中联合创立了卢迈。是什么时候您意识到光计算可以从学术理论转变为商业上可行的公司?
在我牛津大学的时间里,我们正在探索如何使用自由空间中光的性质来解决支持机器学习的矩阵运算。同一时间,传统硬件对于人工智能的限制变得更加重要。我们在研究中解决的挑战和更高效计算的需求的汇聚使我们相信我们可以将我们的想法转化为解决现实世界问题的解决方案。
我们已经从最初的研究走了很远——在卢迈,我们已经建造了世界上第一个能够实时运行十亿参数LLM的光计算系统。
卢迈正在解决人工智能领域今天最大的瓶颈之一,即基于硅的计算的能量和可扩展性限制。是什么具体的传统架构限制促使您采用使用光的根本不同的方法?
推动我们的是硅解决方案的有限轨迹。使用硅,您会看到渐进式的增益,但这些增益带来了不成比例的增加的功耗和复杂性。硅缩放的限制主要是由于物理——频率不再增加,且可以开关的晶体管数量受到热量的限制。漏电流仍然是一个问题。据估计,硅只为每年性能提高25%做出了贡献。
此时,值得问一下是否有其他物理介质可以更自然地处理这些运算,而不是继续推动电子变得更强大。
您的工作专注于光计算和机器学习。使用光子而不是电子从根本上改变了硬件层面的计算方式?
使用电子,计算本质上是顺序的和有损的——您正在开关晶体管,移动电荷,产生热量。每个操作都有一个热成本,这个成本会累积起来。
光子表现出不同的行为。光在没有相同的阻力损失的情况下传播,而且通过使用光的性质,可以仅通过结构化光束在物理介质中相互作用来执行大量的矩阵运算。计算发生在光本身的传播中,而不是在开关数十亿个门中。
卢迈的技术利用3D光处理和大规模空间并行性。您能解释这种架构如何实现与GPU相比的吞吐量和效率的戏剧性改进吗?
目标是尽可能高效和快速地执行稠密矩阵乘法。卢迈的方法通过使用三维体积中的光来实现这一点,执行数百万个操作同时进行。
您无法在2D结构中实现这种级别的并行性,在2D结构中,操作是在数百个核心上处理的,需要不断移动数据。正是这种固有的并行性——结合光域中操作可以在不消耗功率的情况下执行的事实——驱动了吞吐量的提高和每个令牌的能耗的显著降低。
许多人工智能基础设施公司仍然专注于训练,而卢迈则专注于推理。您为什么认为推理是人工智能下一阶段的决定性挑战?
推理是人工智能真正做有用的事情的地方——每个回答的查询,每个完成的代理任务,每个生成的文档。我们已经进入了推理时代,需求正在以训练专用硬件无法吸收的速度增长。
经济学也是不同的:推理不断运行,跨越数百万用户。每个令牌的成本成为决定性指标,这也是能耗壁垒最严重的地方。
使推理特别适合光计算的是预填充阶段计算量很大。在推理的预填充阶段,处理完整的上下文,然后生成响应。这几乎完美地映射到我们的光引擎,我们首先专注于这一点。
光计算中长期存在的挑战之一是稳定性和可扩展性。是什么关键的技术突破使卢迈能够克服这些障碍?
挑战从来不是证明光可以执行计算——研究人员已经在原则上证明了这一点。挑战是使其在规模上起作用,而不是仅仅在实验室中。
两件事最重要。首先,我们使用了今天在数据中心中用于通信和网络的相同类型的组件。没有奇异材料,没有投机的供应链。第二,我们有意选择了混合设计,将光张量引擎与数字处理相结合,用于系统控制和软件。
您的系统使用混合方法,将光和数字组件相结合。这种平衡在使光计算对现实世界的数据中心部署成为可能方面有多重要?
这是基本的。光计算并不意味着用光替换一切。数字系统在控制、序列和与行业在几十年中建立的软件生态系统接口方面非常出色。我们的光引擎在核心数学运算方面表现出色,这些运算支配了推理计算。混合架构让每个组件做它最擅长的事情。
从部署的角度来看,这一点非常重要。卢迈的Iris集成到现有的数据中心基础设施中,使用标准接口,并运行真正的模型,包括Llama 8B和70B。
随着Lumai Iris家族的宣布,特别是Iris Nova服务器,实现对十亿参数模型的实时推理对人工智能基础设施的未来意味着什么?
这表明光计算已经从研究转变为现实。实时运行十亿参数模型是行业所需的证明点。Lumai Iris服务器系列由三个服务器组成:Nova、Aura和Tetra。Lumai Iris Nova是该系列的第一台服务器,目前可用于评估,我们已经与希望将其应用于实际推理工作负载的合作伙伴进行了接触。
更广泛地说,它表明人工智能基础设施的轨迹即将改变。假设是,扩大推理意味着购买更多的GPU,消耗更多的功率,建设更大的数据中心。Lumai Iris Nova展示了另一条路径——一条提供每千瓦功率更高性能和每个令牌根本不同的成本结构的路径。随着Lumai Iris服务器系列的发展,对于超大规模公司和企业如何思考计算采购的影响将会很大。
新闻稿强调了与传统系统相比最高可达90%的能耗降低。这种突破在全球数据中心面临的日益增长的能耗限制背景下有多重要?
能耗限制是人工智能时代的决定性基础设施挑战——电力容量已经成为部署计划的限制因素,我们已经遇到了所谓的电力墙。
在这种背景下,90%的能耗降低改变了人工智能在规模上的基本经济学和可行性。单个Lumai系统可以替换掉数十个耗电的GPU,这转化为在给定功率封顶内可以实现的显著转变。
还有一個成本维度:数据中心的建设成本反映了电力容量,因此低功率的数据中心建设成本较低。降低能耗直接降低了每个令牌的成本——这最终使人工智能在行业正在建设的规模上变得经济上可行。
展望未来,随着行业开始讨论后硅时代,您如何看待光计算在未来十年内的演变,以及卢迈将在这一转变中发挥什么作用?
后硅时代已经开始,这与推理时代和对更高性能、更低每个令牌成本的持续需求同时发生。硅当然将继续发挥作用,但每一代计算改进都来自于硅节点的进步的假设已经不再可信,尤其是在人工智能的需求下。我们认为光计算将被用于计算堆栈的关键部分,需要高度并行、高吞吐量的处理。
对于卢迈来说,路线图是继续推动光计算的密度、效率和能力,并将其推广到数据中心。我们的愿景是一个世界,智能的能耗降低,一个兆瓦级的数据中心可以像今天的一个千瓦级设施一样产生相同的令牌量。
那样的未来并不是遥远的猜测。我们已经建造了第一个证明光计算可以在规模上起作用的系统。从这里开始,一切都是工程问题。
感谢这次精彩的采访,希望了解更多的读者可以访问Lumai。












