访谈
Nikolaos Vasiloglou,RelationalAI 机器学习研究副总裁 – 访谈系列

Nikolaos Vasiloglou 是 RelationalAI 的机器学习研究副总裁。他的职业生涯致力于构建机器学习软件并领导零售、在线广告和安全领域的数据科学项目。他是 ICLR/ICML/NeurIPS/UAI/MLconf/
RelationalAI 是一家企业人工智能公司,构建了一个决策智能平台,旨在帮助组织超越数据分析,迈向自动化、高质量的决策制定。其技术直接与 Snowflake 等数据环境集成,结合关系数据库、知识图谱和高级推理系统,创建业务的“语义模型”——本质上是对公司运营方式、其关系及其逻辑进行编码。这使得人工智能系统(包括像“Rel”这样的决策代理)能够对复杂、互连的数据进行推理,并生成预测性和规范性见解,使企业能够在无需将数据移出安全云环境的情况下,做出更快、更明智的决策。
您的职业道路非常独特,涵盖了学术机器学习、大规模行业部署以及在 Symantec、Aisera 和现在的 RelationalAI 等公司的领导角色。这些经历如何塑造了您对当今机器学习研究与现实世界系统交汇点的看法?
我很幸运能够涉足不同的业务领域,从零售、安全到在线广告。这帮助我理解了机器学习和人工智能如何作为一个共同的基础。我们从 2000 年代初期就知道软件正在吞噬世界,数据正在吞噬决策智能,但很少有公司(包括谷歌)相信先进的机器学习算法最终会吞噬一切。早在 2008 年,NeurIPS 的与会者被视为不理解现实世界的书呆子和梦想家,只是一群喜欢摆弄玩具的人。这在某种程度上是事实,但我相信这正处于变革的轨道上。与其他人不同,我没有放弃积极参与学术研究向工业界的转型。
您对 NeurIPS 2025 的分析使用了 Claude Code、OpenAI Codex 和 NotebookLM 等编码助手来处理整个会议。使用人工智能系统来分析人工智能研究本身,最让您惊讶的是什么?
构建软件来抓取数据、机器读取数据、将其分类到各个部分,甚至以一种特别直观的方式进行总结和解释,这出奇地容易。生成式人工智能系统在讲述一个故事方面非常出色,但并非讲述那个故事。NotebookLM 是分析任何领域并交付惊人结果的佼佼者。然而,你无法控制故事、图表或重点。我发现这些工具在创建 PowerPoint 幻灯片方面并不出色,所以我不得不转而构建 HTML,然后将其转换为 PDF。最大的挑战是创建图表——扩散生成速度太慢、不可靠且昂贵,而且无法控制。令人惊讶的是,模型在使用 matplotlib、plotly 和其他 Python 库以编程方式创建 SVG 方面表现得相当好。这种技术可以扩展,但确实需要多次尝试来修复可视化错误。到明年,这些模型会变得更好。
您的分析中最强烈的主题之一是从训练时扩展转向推理时计算。为什么测试时计算正在成为提升模型性能的强大杠杆?
扩展定律是我们的指南针。增加模型大小和预训练数据已经达到了其容量极限。第一代扩展定律将我们带到了 GPT-4。正是它们帮助 OpenAI 开启了生成式人工智能革命。我们很快意识到,还有另一个维度允许模型在得出答案之前生成许多令牌。这是提高大语言模型效率的另一种方式。模型大小和推理长度通常被表达为系统 1 和系统 2 思维模式(Daniel Kahneman)。推理轨迹是增加模型容量的另一种方式。如果你仔细想想,人类的突破始于本能(高智商),但成功总是源于漫长而痛苦的推理。我们似乎看到了这种模式:具有长思考窗口的小模型,其表现优于大 100 倍的模型。所以,在大语言模型中,思考比智商更重要。
您强调了从单体模型向能够规划、行动和验证其输出的代理系统的转变。我们距离代理式人工智能成为可靠的生产范式而非研究原型还有多远?
我们正在这个方向上取得重大进展。最大的问题是可靠性和安全性,这样我们才能信任它们是自主的。如果你仔细观察 NeurIPS 的内容,你会看到进行研究的自主系统、解决数学问题的系统、解决编码问题的系统,但你看不到代理式无人驾驶汽车,例如。最近与 Moltbook(一个面向人工智能代理的社交网络)的经历突显了自主代理式人工智能的问题。然而,用代理式人工智能发现新药物和材料是巨大的成就,所以让我们为此庆祝并暂时以此为重点。
效率似乎是创新的主要驱动力,较小的模型通过架构改进和更智能的推理策略实现了有竞争力的性能。我们是否正在进入一个效率突破比原始模型规模更重要的时代?
随着人工智能扩展到生产环境,工程变得更加重要。依赖前沿模型根本不可持续。这对于演示来说很棒,但当公司看到大模型的高昂成本时,它们面临着残酷的现实。有史以来第一次,较小的模型成为了一个更可行的解决方案。有一股沉默的力量正在改变行业的现状。到目前为止,NVIDIA 垄断了 GPU 市场并保持高价。AMD 正凭借高质量的芯片进入市场,这将迫使价格下降。能源仍然是一个问题,但我们看到市场上有一些动向。随着前沿实验室的成本越来越高,在租用 GPU 上运行较小模型的解决方案变得更加可行。
您的演示表明,该领域已从单轴扩展(参数)转向涉及参数、数据、架构和推理的多维扩展。研究人员和实践者应如何看待这种新的扩展范式?
对于大多数专业人士来说,架构和参数超出了他们的控制范围。拥有必要资本的模型生产者将推动创新。令牌推理长度将由他们组织的资本支出决定。在他们控制之下的是数据。我们将看到更多关注于创建、策划和调试数据(大多数时候是推理轨迹)。这将是日常运营的重点。当然,他们需要关注 NeurIPS 和其他大型会议,以了解新架构的趋势。
在您的 NeurIPS 综述中,您指出越来越多的研究集中在人工智能驱动的科学发现上,范围从生物学到气候建模。您是否将“人工智能用于科学”视为机器学习研究的下一个主要前沿?
我认为这超越了学术研究。我们正在关注下一场淘金热。1849 年,加利福尼亚的淘金热达到顶峰。人们所要做的就是无休止地过滤河水来寻找黄金。我们现在知道许多人没有找到黄金,但今天我们看到的情况非常真实。我可以预见一波由两到三人组成的初创公司浪潮,他们使用语言模型来寻找新材料、药物和产品组件。以最聪明的方式消耗令牌可以带来巨大的收益。像 Claude Code、OpenAI Codex 和 Google Antigravity 这样的编码助手可以消除 SaaS 公司的护城河,让一整代非常有能力的计算机科学家投身于科学搜索。如果你在像 First Principles 或 Bio[hub] 这样的非营利组织工作,就有机会发现新的物理定律和理论,或在生物学领域做出其他贡献。如果你想创造收入,你将致力于基于科学发明新产品,如药品、材料、电池等。
您的工作还突显了日益增长的验证差距,即模型在基准测试中得分很高,但在简单的现实世界变化中却失败。这种差距揭示了大语言模型当前的哪些局限性?
它们似乎拥有惊人的记忆力,并且能够很好地泛化。基准测试在研究初期是好的。一旦你跨越了一个阈值,你学习的就是基准测试,而不是问题本身。多年来,我们非常擅长重置基准测试并使它们更难,以推动极限。基准测试的问题在于,在某个时刻,我们开始过度关注,最终甚至作弊。这里的整个趋势是让竞争者更诚实。我个人在几次飞跃之后就不太关注基准测试了。你可以有一个好产品,甚至不在排行榜前十名。我也见过许多平庸的产品在基准测试中表现良好。
演示表明,小语言模型与推理扩展和代理架构相结合,可以实现强大的、在超大规模数据中心之外运行的人工智能系统。这种去中心化是否会重塑人工智能在各行业的部署方式?
我们看到对边缘部署的极大重视。我们肯定会看到周围出现更智能的设备。微软多年来一直在研究 1bit LLM,它实现了约 30 倍的压缩,使其未来甚至可以在单个芯片上运行前沿模型。我们跟踪这项工作多年,进展令人惊叹。尤其是在可穿戴设备领域。
去年 NeurIPS 涵盖的一个想法是将弱边缘模型与前沿模型相结合。这允许你根据带宽在连续频谱上调整推理能力。NeurIPS 上的首届电信研讨会揭示了一种将 GPU 放置在蜂窝基站上的趋势,这很有趣,因为蜂窝基站既不是数据中心也不是边缘设备。这在计算层次结构中引入了一个新层。
另一个从大语言模型中衍生出来的是分布式模型训练(我指的不是谷歌在远程数据中心训练 Gemini)。有一个非常有趣的趋势正在兴起,即独立实体训练自己的模型,用户像搭乐高积木一样将它们组合起来,构建更大、更强大的模型。这是一种非常有前途的模块化架构。大模型就是这样训练的。不同的团队构建专门的模型,最后像乐高积木一样将它们拼接在一起。
在分析了数千篇 NeurIPS 论文之后,您认为人工智能研究社区在哪些方面准确地预测了进展,而在哪些方面可能错过了最重要的即将到来的转变?
研究社区不做预测。研究人员有自己的驱动力、好奇心、资金、偶然性,当然还有本能。他们总是可能错过有趣的方向,但几乎可以肯定,将来总会有人发现并拾起它。这是可以预料的,也是健康的。高管、投资者和工程师需要识别新兴趋势,以便做出正确的决策并进行最有根据的押注。在我五年的分析窗口中,有些趋势被早期发现,而其他信号则被错过了。对于其中一些,仍有时间搭乘阿尔法浪潮。
数据市场是我关注多年的领域,它们今年才实现了飞跃。缺失的组成部分是归因。我们现在可以即时识别出对大语言模型竞赛有贡献的训练数据。这意味着你可以支付分红。对于正在与前沿模型进行集体诉讼的出版商来说,这是一个错失的机会。其中一些出版商不得不屈服于固定许可协议,而我相信他们有机会通过归因模式获得更持续的收入。
机器人领域即将迎来一场革命。NVIDIA 和其他公司宣布的世界模型正在进行非常精确和可扩展的物理模拟。因此,预计未来人工智能将更具物理性。
Transformer 架构最终与 RNNs、Mamba 等状态空间模型融合,并产生了惊人的小型大语言模型。我们现在知道了 Transformer 在性能方面起主要作用的确切局限性,但我们仍然缺少下一步。当 Transformer 被证明是坚不可摧且相当有韧性时,下一步就会到来。我们不知道的是,设计新的大语言模型架构的会是人类还是 Transformer!Transformer 统一了 NLP 中所有分散的架构(是的,别忘了生成式人工智能始于基本的 NLP 任务,例如实体分类)。它对数学有效,今年对表格也有效,但对物理学尚未奏效。我数了超过 15 种不同的架构。所以,统一物理学的新架构可能也是将在通往通用人工智能的旅程中取代 Transformer 的那个。
感谢您精彩的采访,希望了解更多信息的读者请访问 RelationalAI。












