思想领袖

LLMs 究竟能否真正地推理复杂问题？

Published March 28, 2025

Updated May 19, 2026

David Balaban

生成式 AI 的引入和演变如此突然和激烈，以至于很难完全欣赏这项技术如何改变了我们的生活。

让我们回顾三年前。是的，AI 正在变得更加普遍，至少在理论上。更多的人知道它可以做什么，尽管即使这样，也存在对 AI 能力的巨大误解。某种程度上，这项技术同时被低估和高估了其实际能力。然而，普通人仍然可以指出一两个领域，AI 正在发挥作用，执行高度专业的任务 相当好，在高度受控的环境中。除此之外，任何超出这些的东西要么仍然在研究实验室中，要么根本不存在。

将其与今天相比。凭借仅有的写一句话或提问的能力，世界就在我们的指尖。我们可以生成真正独特和惊人的图像、音乐，甚至电影，并且具有颠覆整个行业的能力。我们可以增强搜索引擎过程，提出一个简单的问题，如果问题构造得当，可以生成足以被认为是大学学者水平的自定义内容……或者，如果我们指定了观点，足以被认为是普通三年级学生的水平。虽然这些能力在一年或两年内已经变得非常普遍，但几年前，它们被认为是绝对不可能的。生成式 AI 领域存在，但还没有起飞。

今天，许多人已经尝试过生成式 AI，例如 ChatGPT、Midjourney 或其他工具。其他人已经将它们融入了日常生活。这些工具的演变速度非常快，几乎令人震惊。考虑到过去六个月的进步，我们毫无疑问将在未来几年中一次又一次地被这些创新所震撼。

生成式 AI 中的一个特定工具是检索增强生成（RAG）系统的性能，以及它们推理复杂查询的能力。FRAMES 数据集的引入，在一篇关于评估数据集工作原理的文章中进行了详细说明，展示了当前的状态和未来的发展方向。即使在 2024 年末引入 FRAMES 之后，已经有多个平台打破了他们在推理困难和复杂查询方面的记录。

让我们深入了解 FRAMES 评估的内容以及不同生成式 AI 模型的性能。我们可以看到，去中心化和开源平台不仅能保持自己的地位（特别是 Sentient Chat），而且还能让用户清晰地看到一些 AI 模型所能实现的惊人推理能力。

FRAMES 作为 GenAI 大脑的窗口

FRAMES 数据集及其评估过程关注 824 个“多跳”问题，需要推理、逻辑连接、使用多个来源检索关键信息，并将它们逻辑地拼凑在一起以回答问题。这些问题需要 2 到 15 个文档来正确回答，并且故意包含约束、数学计算和推导，以及处理基于时间的逻辑的能力。换句话说，这些问题非常困难，实际上代表了人类在互联网上可能进行的真正的研究任务。我们经常面临这些挑战，并且必须在互联网来源的海洋中搜索关键信息的零散片段，将信息基于不同的网站拼凑在一起，通过计算和推导创建新的信息，并理解如何将这些事实整合成问题的正确答案。

当数据集首次发布和测试时，研究人员发现最好的 GenAI 模型能够在使用单步方法回答时达到大约 40% 的准确率，但如果允许它们收集所有必要的文档来回答问题，可以达到 73% 的准确率。是的，73% 可能看起来并不像革命，但如果你理解问题的内容，数字变得更加令人印象深刻。

例如，一个特定的问题是：“歌曲《Power》的原唱歌手的乐队领队出生于哪一年？”人类如何解决这个问题？一个人可能会看到需要收集各种信息元素，例如 Kanye West 的歌曲《Power》的歌词，然后能够浏览歌词并确定歌曲中采样了哪首其他歌曲的部分。作为人类，我们可能即使不熟悉这首歌，也可以听出什么时候采样了另一首歌。

但是，想想看：要检测到一首歌中采样了另一首歌，GenAI 需要完成什么？这是一个基本问题变成对真正智能 AI 的极佳测试。并且，如果我们能够找到这首歌，听这首歌，并确定采样了哪些歌词，那只是步骤 1。我们仍然需要弄清楚这首歌的名字是什么，这个乐队的名字是什么，这个乐队的领队是谁，然后这个人出生于哪一年。

FRAMES 表明，要回答现实问题，需要大量的思维处理。这里有两件事值得注意。

首先，去中心化 GenAI 模型不仅能竞争，而且可能会主导结果，这是令人难以置信的。越来越多的公司正在使用去中心化方法来扩展其处理能力，同时确保软件由一个大社区拥有，而不是由一个不愿分享其进步的中心黑盒子拥有。像 Perplexity 和 Sentient 这样的公司正在领导这一趋势，每个公司都有强大的模型，在 FRAMES 发布时的初始准确率记录上表现出色。

第二个元素是，这些 AI 模型中有一小部分不仅是去中心化的，而且是开源的。例如，Sentient Chat 既是去中心化的，也是开源的，早期测试显示了其推理的复杂性，感谢其宝贵的开源访问权限。上述 FRAMES 问题的答案使用了与人类类似的思维过程，其推理细节可供审阅。也许更有趣的是，他们的平台被设计为一系列可以细化给定视角和性能的模型，尽管在某些 GenAI 模型中，细化过程会导致准确率降低。在 Sentient Chat 的情况下，已经开发了许多不同的模型。例如，最近的一个名为“Dobby 8B”的模型能够超越 FRAMES 基准，并且能够发展出明显的亲加密货币和亲自由的态度，这影响了模型处理信息片段和发展答案的视角。

地平线上

所有这些令人惊叹的创新背后的关键是带我们到这里的快速发展速度。我们必须承认，正如这项技术进化得如此之快，它在不久的将来只会以更快的速度演变。我们将能够看到，特别是使用去中心化和开源的 GenAI 模型，那个系统的智能开始越来越超过我们自己的临界点，以及这对未来的意义。

David Balaban

David Balaban 是一位拥有超过 17 年恶意软件分析和防病毒软件评估经验的计算机安全研究员。David 运营着 MacSecurity.net 和 Privacy-PC.com 项目，这些项目提供了有关当代信息安全问题的专家意见，包括社会工程、恶意软件、渗透测试、威胁情报、在线隐私和白帽黑客。David 拥有强大的恶意软件故障排除背景，最近专注于勒索软件的对策。

Unite.AI

LLMs 究竟能否真正地推理复杂问题？

FRAMES 作为 GenAI 大脑的窗口

地平线上

You may like