思想领袖

LLMs 实际上如何处理复杂问题？

Published March 28, 2025

Updated April 26, 2026

David Balaban

生成式 AI 的引入和演变如此突然和激烈，以至于很难充分欣赏这项技术如何改变了我们的生活。

让我们回顾三年前。是的，AI 正在变得更加普遍，至少在理论上。更多的人知道它可以做什么，尽管即使这样，也对 AI 的能力存在巨大的误解。某种方式的技术同时被给予了不够和过多的信用，用于实现它实际上可以实现的东西。然而，普通人仍然可以指出至少一两个领域，AI 正在工作，执行高度专业的任务 相当好，在高度受控的环境中。除此之外，任何事情要么仍然在研究实验室中，要么根本不存在。

将其与今天进行比较。凭借除写句子或提问的能力之外的零技能，世界就在我们的指尖。我们可以生成图像、音乐，甚至电影，它们真正独特和惊人，并且具有颠覆整个行业的能力。我们可以超级增强我们的搜索引擎过程，提出一个简单的问题，如果框定正确，可以生成足够好的自定义内容，以通过大学培训的学者… 或平均第三个年级，如果我们指定 POV。虽然它们在一年或两年内不知何故变得司空见惯，但这些功能被认为是绝对不可能的，只有几年前。生成式 AI 领域存在，但尚未起飞。

今天，许多人已经尝试过生成式 AI，例如 ChatGPT、Midjourney 或其他工具。其他人已经将它们融入到日常生活中。这些工具的演变速度之快，几乎令人惊讶。考虑到过去六个月的进步，我们毫无疑问将在未来几年中一次又一次地被惊艳。

生成式 AI 中的一个特定工具是检索增强生成（RAG）系统的性能及其处理复杂查询的能力。 FRAMES 数据集的引入，在一篇关于文章中详细解释了评估数据集的工作原理，展示了当前的状态和发展方向。即使自 2024 年末引入 FRAMES 以来，许多平台已经在处理困难和复杂查询的能力方面打破了新的记录。

让我们深入了解 FRAMES 是为了评估什么以及不同生成式 AI 模型的性能如何。我们可以看到，去中心化和开源平台不仅能坚持自己的立场（值得注意的是 Sentient Chat），而且还允许用户清晰地看到一些 AI 模型能够实现的惊人推理。

FRAMES 作为 GenAI 大脑的窗口

FRAMES 数据集及其评估过程关注 824 个“多跳”问题，需要推理、逻辑连接点、使用多个来源检索关键信息以及将所有信息逻辑地拼凑在一起以回答问题。这些问题需要 2 到 15 个文档才能正确回答，并且还故意包括约束、数学计算和推导，以及处理基于时间的逻辑的能力。换句话说，这些问题非常困难，实际上代表了人类在互联网上可能进行的非常真实的研究任务。我们一直面临这些挑战，并且必须在互联网来源的海洋中搜索分散的信息关键部分，将来自不同网站的信息拼凑在一起，通过计算和推导创建新信息，并了解如何将这些事实整合到问题的正确答案中。

当数据集首次发布和测试时，研究人员发现，顶级 GenAI 模型能够在使用单步方法时达到一定的准确率（约 40%），但如果允许它们收集所有必要的文档来回答问题，则可以达到 73% 的准确率。是的，73% 可能看起来并不像革命一样。但如果你理解需要回答的内容，数字就会变得更加令人印象深刻。

例如，一个特定的问题是：“歌曲《Power》中采样歌曲的原始演唱组的乐队领队出生于哪一年？”人类如何解决这个问题？这个人可能会看到他们需要收集各种信息元素，例如 Kanye West 的歌曲《Power》的歌词，然后能够浏览歌词并在歌曲中识别出实际采样了另一首歌的部分。我们作为人类可能即使不熟悉这首歌，也可以通过听歌来判断何时采样了另一首歌。

但请想想：要检测到一首歌而不是原歌，GenAI 需要完成什么？这就是一个基本问题成为真正智能 AI 的一个很好的测试。并且如果我们能够找到这首歌，听这首歌，并识别出采样歌词，那只是步骤 1。我们仍然需要找到这首歌的名称，这个乐队的名称，这个乐队的领导人是谁，然后这个人出生于哪一年。

FRAMES 表明，为了回答现实问题，需要大量的思考处理。这里有两件事让我印象深刻。

首先，去中心化 GenAI 模型不仅能够竞争，而且可能主导结果，这是令人难以置信的。越来越多的公司正在使用去中心化方法来扩大其处理能力，同时确保一个大社区拥有软件，而不是一个集中式的黑盒子，它不会分享其进步。像 Perplexity 和 Sentient 这样的公司正在引领这一趋势，每个公司都有强大的模型，在 FRAMES 发布时的初始准确率记录上表现出色。

第二个元素是，这些 AI 模型中的一小部分不仅是去中心化的，而且是开源的。例如，Sentient Chat 同时具备这两种特点，早期测试显示了其复杂的推理能力，多亏了无价的开源访问。上述 FRAMES 问题的答案使用了与人类相同的思维过程，其推理细节可供审阅。也许更有趣的是，他们的平台是由可以细化给定视角和性能的多个模型组成的，即使在某些 GenAI 模型中，细化过程会导致准确率降低。在 Sentient Chat 的情况下，已经开发了许多不同的模型。例如，最近的一个名为“Dobby 8B”的模型能够超越 FRAMES 基准，并且发展出明显的亲加密货币和亲自由的态度，这影响了模型在处理信息和制定答案时的视角。

地平线上

所有这些令人惊叹的创新背后的关键是将我们带到这里的快速速度。我们必须承认，正如这项技术已经演变得如此之快，它只会在不久的将来以更快的速度演变。我们将能够看到，尤其是使用去中心化和开源 GenAI 模型，那个至关重要的阈值，即系统的智能开始超过我们自己的越来越多的方面，以及这对未来的意义。

Related Topics:david balaban FRAMES thought leaders

David Balaban

David Balaban 是一位拥有超过 17 年恶意软件分析和防病毒软件评估经验的计算机安全研究员。David 运营着 MacSecurity.net 和 Privacy-PC.com 项目，这些项目提供了有关当代信息安全问题的专家意见，包括社会工程、恶意软件、渗透测试、威胁情报、在线隐私和白帽黑客。David 拥有强大的恶意软件故障排除背景，最近专注于勒索软件的对策。

Unite.AI

LLMs 实际上如何处理复杂问题？

FRAMES 作为 GenAI 大脑的窗口

地平线上

You may like