面试
RelationalAI公司机器学习研究副总裁Nikolaos Vasiloglou——访谈系列

尼古拉斯·瓦西洛格鲁 他是 RelationalAI 的机器学习研究副总裁。他的职业生涯专注于构建机器学习软件,并领导零售、在线广告和安全领域的数据科学项目。他是 ICLR/ICML/NeurIPS/UAI/MLconf/ 的成员。
关系型人工智能 是一家企业级人工智能公司,致力于构建决策智能平台,帮助企业超越数据分析,实现自动化、高质量的决策。其技术可直接与 Snowflake 等数据环境集成,结合关系数据库、知识图谱和高级推理系统,构建企业的“语义模型”——本质上是对企业运营方式、关系和逻辑进行编码。这使得人工智能系统(包括“Rel”等决策代理)能够处理复杂且相互关联的数据,并生成预测性和指导性洞察,从而帮助企业在无需将数据迁移到安全云环境之外的情况下,做出更快、更明智的决策。
您的职业生涯非常独特,涵盖了学术界的机器学习、大规模的行业部署,以及在赛门铁克、Aisera 和现在的 RelationalAI 等公司担任的领导职务。这些经历是如何影响您对当今机器学习研究与现实世界系统交汇点的看法的?
我有幸接触过零售、安防、在线广告等不同的商业领域。这帮助我理解了机器学习和人工智能如何成为这些领域的共同点。早在2000世纪初,我们就知道软件正在吞噬世界,数据正在吞噬决策智能,但包括谷歌在内的许多公司都未曾意识到,先进的机器学习算法最终会颠覆一切。2008年,NeurIPS的与会者被认为是书呆子和空想家,他们不了解现实世界,只是喜欢摆弄玩具。这种说法在某种程度上是正确的,但我相信这种情况正在改变。与其他人不同,我从未放弃积极参与学术研究向产业转化。
您对以下内容的分析 NeurIPS 2025年 我们使用了 Claude Code、OpenAI Codex 和 NotebookLM 等编码辅助工具来处理整个会议。使用人工智能系统来分析人工智能研究本身,最让你感到惊讶的是什么?
令人惊讶的是,开发软件来抓取数据、进行机器读取、分类,甚至以特别直观的方式进行总结和解释,竟然如此简单。GenAI 系统擅长讲述故事,但却无法真正讲述故事本身。NotebookLM 是分析任何领域并交付惊人结果的王者。然而,你无法控制故事的叙述方式、图形或重点。我发现这些工具在创建 PowerPoint 幻灯片方面表现不佳,所以我不得不先构建 HTML,然后再将其转换为 PDF。最大的挑战是创建图表——扩散生成速度太慢、不可靠且成本太高,而且无法控制。令人惊讶的是,这些模型使用 matplotlib、plotly 和其他 Python 库以编程方式创建 SVG 的效果相当不错。这种技术可以扩展,但确实需要多次迭代来修复可视化错误。到明年,这些模型将会更加出色。
您的分析中一个最突出的主题是从训练时计算转向推理时计算。为什么测试时计算会成为提升模型性能如此强大的手段?
扩展法则如同指南针。增加模型规模和预训练数据已经达到极限。第一代扩展法则引领我们发展到 GPT-4,也正是它们帮助 OpenAI 开启了 GenAI 革命。我们很快意识到,还有另一个维度可以让模型在得出答案之前生成更多词元。这是提升逻辑推理模型 (LLM) 效率的另一种途径。模型规模和推理时长通常用系统 1 和系统 2 思维模式来表示(丹尼尔·卡尼曼)。推理轨迹是提升模型容量的另一种方法。仔细想想,人类的突破始于本能(高智商),但成功总是源于漫长而艰辛的推理。我们也能观察到类似的模式:规模较小但推理窗口较长的模型,其性能优于规模大 100 倍的模型。因此,在逻辑推理模型中,推理比智商更为重要。
您重点强调了从单体模型到能够规划、行动并验证其输出的智能体的转变。我们距离智能体人工智能成为可靠的生产范式而非研究原型还有多远?
我们正朝着这个方向取得重大进展。最大的问题是可靠性和安全性,这样我们才能信任它们能够自主运行。如果你仔细研究 NeurIPS 的内容,你会看到一些自主系统能够进行研究、解决数学问题和编程问题,但你不会看到例如具有自主性的无人驾驶汽车。最新的经验表明…… 莫尔特书 (一个面向人工智能代理的社交网络)凸显了自主代理人工智能的问题。然而,利用代理人工智能发现新药和新材料意义重大,所以我们暂且先庆祝并关注这一点。
效率似乎是创新的主要驱动力,通过架构改进和更智能的推理策略,更小的模型也能达到具有竞争力的性能。我们是否正在进入一个效率突破比模型本身大小更重要的时代?
随着人工智能规模化应用于生产环境,工程技术变得愈发重要。仅仅依赖前沿模型是不可持续的。虽然它们在演示中表现出色,但企业在面对大型模型的高昂成本时,不得不承受残酷的现实。如今,小型模型首次成为更可行的解决方案。一股无声的力量正在改变着行业的现状。迄今为止,NVIDIA 一直垄断着 GPU 市场,并维持着高昂的价格。AMD 正凭借其高质量的芯片逐步进入市场,这将迫使价格下降。能源问题依然存在,但我们看到市场正在发生一些变化。随着前沿实验室成本的不断攀升,使用租赁 GPU 构建小型模型的解决方案变得更加可行。
您的报告表明,该领域已经从单轴尺度(参数)发展到涉及参数、数据、架构和推断的多维尺度。研究人员和实践者应该如何看待这种新的尺度范式?
对于大多数专业人士而言,架构和参数超出了他们的掌控范围。拥有必要资金的模型开发者将引领创新。令牌推理时长将由其所在机构的资本支出决定。他们唯一能掌控的只有数据。我们将看到他们更加注重数据的创建、管理和调试(通常是推理轨迹)。这将是他们日常运营的重点。当然,他们也需要关注 NeurIPS 和其他大型会议,以了解最新架构的发展趋势。
您在NeurIPS的综述中指出,越来越多的研究聚焦于人工智能驱动的科学发现,涵盖从生物学到气候建模的各个领域。您认为人工智能在科学领域的应用会是机器学习研究的下一个主要前沿领域吗?
我认为这已经超越了学术研究的范畴。我们正面临着下一场淘金热。1849年,加利福尼亚的淘金热达到了顶峰。当时人们只需不停地过滤河水就能找到黄金。我们现在知道,很多人并没有找到黄金,但我们今天所看到的却是真实存在的。我预见到,未来将涌现出一大批由两到三人组成的初创公司,它们利用语言模型来寻找新的材料、药物和产品组件。以最明智的方式销毁代币可以带来丰厚的回报。像Claude Code、OpenAI Codex和Google Antigravity这样的编码助手可以消除SaaS公司的护城河,从而培养出一代又一代才华横溢的计算机科学家投身科学研究。如果你在像First Principles或Bio[hub]这样的非营利组织工作,你将有机会发现新的物理定律和理论,或者在生物学领域做出其他贡献。如果你想创造收入,你将致力于基于科学发明新产品,例如药品、材料、电池等等。
您的研究还揭示了一个日益扩大的验证差距,即模型在基准测试中取得了很高的分数,但在简单的实际场景变体中却表现不佳。这种差距揭示了大型语言模型目前存在的哪些局限性?
他们似乎记忆力惊人,而且概括能力很强。基准测试在研究初期很有用。一旦突破某个阈值,你记住的就只是基准测试本身,而不是问题本身。多年来,我们一直致力于重置基准测试,并使其难度不断增加,以挑战极限。基准测试的问题在于,在某种程度上,我们会开始过度重视它,最终导致作弊。目前的趋势是让竞争对手更加诚实。就我个人而言,在几次飞跃之后,我不太关注基准测试。你可以拥有一个优秀的产品,但它甚至无法进入排行榜前十。我也见过许多性能平庸的产品,但它们在基准测试中表现出色。
该报告指出,小型语言模型结合推理扩展和智能体架构,可以构建在超大规模数据中心之外运行的强大人工智能系统。这种去中心化能否重塑人工智能在各行业的部署方式?
我们看到边缘部署得到了极大的重视。可以肯定的是,我们身边将会出现更多智能设备。微软多年来一直在研发 1 位 LLM,它能实现约 30 倍的压缩,使其未来能够在单个芯片上运行最前沿的模型。我们多年来一直在关注这项工作,其进展令人瞩目,尤其是在可穿戴设备领域。
去年NeurIPS会议上讨论过将弱边缘模型与前沿模型相结合的理念。这使得你可以根据带宽在连续频谱中调整推理能力。NeurIPS的首届电信研讨会揭示了一种将GPU部署在基站上的趋势,这很有意思,因为基站既不是数据中心也不是边缘设备。这在计算层级中引入了一个新的层次。
另一个从LLM(层级模型)中脱颖而出的是分布式模型训练(我指的并非谷歌在远程数据中心训练Gemini模型)。目前出现了一种非常有趣的趋势:独立的实体各自训练模型,用户则像搭乐高积木一样将它们组合起来,构建更大更强大的模型。这是一种非常有前景的模块化架构。大型模型正是通过这种方式训练的。不同的团队构建专门的模型,最终像搭乐高积木一样将它们拼接在一起。
在分析了数千篇 NeurIPS 论文之后,您认为人工智能研究界在哪些方面准确预测了进展,又在哪些方面可能错过了最重要的即将到来的转变?
研究界并不做预测。研究人员有自己的驱动力,好奇心、资金、偶然发现,当然还有直觉。他们可能会错过一些有趣的研究方向,但几乎可以肯定的是,未来某个时候会有人发现并加以利用。这是意料之中的,也是有益的。高管、投资者和工程师需要识别新兴趋势,以便做出正确的决策,并进行最明智的投资。在我五年的分析周期中,有些趋势被及早发现,而另一些信号则被错过了。对于其中一些趋势,现在仍然有机会抓住超额收益的良机。
多年来,我一直在关注数据市场,而它今年终于取得了突破性进展。此前缺失的关键环节是归因分析。现在,我们可以即时识别哪些训练数据对LLM竞赛做出了贡献。这意味着你可以获得收益分成。对于那些因前沿模型而卷入集体诉讼的出版商来说,这无疑是一个错失良机。他们中的一些人不得不屈从于固定的许可协议,但我相信,他们完全有机会通过归因模型获得更可持续的收入。
机器人领域即将迎来一场革命。英伟达和其他公司发布的全球模型能够进行非常精确且可扩展的物理模拟。因此,人工智能未来将更加注重物理特性。
Transformer架构最终与RNN、Mamba等状态空间模型融合,并催生了令人惊叹的小型逻辑学习模型(LLM)。我们现在了解了Transformer在性能方面的主要局限性,但我们仍然缺少下一步。下一步将在Transformer被证明足够强大且具有很强的鲁棒性时到来。我们目前尚不清楚的是,设计新的LLM架构的究竟是人类还是Transformer!Transformer整合了自然语言处理(NLP)领域所有分散的架构(别忘了,GenAI最初就是从实体分类等基础NLP任务起步的)。它在数学领域取得了成功,今年又在表格处理方面取得了成功,但在物理学领域却未能取得成功。我统计过超过15种不同的物理架构。因此,能够统一物理学的新架构或许也将在通用人工智能(AGI)的进程中取代Transformer。
感谢您的精彩采访,想要了解更多信息的读者可以访问 关系型人工智能.












