Connect with us

人工智能

提高 AI 效率以大型语言模型中的更短推理链

mm
Enhancing AI Efficiency with Shorter Reasoning Chains in Large Language Models

大型语言模型(LLM) 通过生成类似人类的文本和解决各个行业中的复杂问题,改变了 人工智能(AI)。多年来,AI 专家认为,越长、越详细的 推理链 将带来更高的准确性。人们认为,更多的步骤将带来更好、更可靠的答案。

然而,2025 年由 Meta 的 FAIR 团队 和希伯来大学耶路撒冷分校进行的一项研究质疑了这一信念。研究发现,更短的推理链 可以将 LLM 的准确性提高多达 34.5%。同时,它们将计算成本降低了多达 40%。这一发现表明,简洁、集中推理可以加快处理速度。这些结果预计将改变 LLM 的训练、部署和扩展。

为什么 AI 中的更短推理链很重要

长期以来,人们认为,AI 模型中的更长推理链将带来更好的结果。这种想法背后的逻辑很简单:AI 模型采取的步骤越多,它将处理的信息就越多。人们认为,这种额外的处理将增加生成更准确解决方案的机会。因此,许多 AI 系统被开发为最大化推理步骤的数量,以提高模型的性能。

然而,这种方法有几个重大的局限性。更长的推理链需要更多的计算能力,这意味着 AI 模型需要更多的时间和能量来处理每个任务。这通常会导致处理速度变慢和运营成本增加,这在需要快速响应的实时应用中可能是一个大问题。另外,更长链的复杂性增加了引入错误的机会。涉及的步骤越多,错误发生的可能性就越大。这使得模型效率降低,扩展变得更加困难,在需要速度和准确性的行业中应用 AI 系统时会带来挑战。

Meta 和合作者进行的研究突出了这种传统信念的缺陷。他们的研究发现,更短的推理链可以提高准确性。同时,它们减少了计算开销。这意味着 AI 模型可以更快、更低成本地处理任务,而不会失去准确性。

这些发现表明,AI 开发需要转变。重点应该从增加推理步骤转移到优化推理过程。通过使用更短的推理链,AI 模型可以更高效。它们还可以提供更可靠的结果,并在更短的时间内完成任务。

使用短-m@k 推理框架提高推理效率

Meta 的 FAIR 团队和希伯来大学耶路撒冷分校的研究引入了短-m@k 推理框架,这是一种旨在优化 LLM 中的多步骤推理的新方法。这种框架背离了传统的顺序推理和详尽的多数投票方法,转而利用并行性和早期终止标准来提高效率和降低计算成本。

在短-m@k 方法中,k 个并行推理链同时启动。然而,过程在第一个 m 个链完成时终止,最后的预测通过对这些早期终止链的结果进行多数投票来确定。这种机制减少了不必要的令牌生成,从而降低了计算开销和延迟,同时保持预测准确性。

短-m@k 框架包括两个关键变体,每个变体针对不同的环境进行优化:

短-1@k: 此变体从 k 个并行尝试中选择第一个完成的推理链。它特别适用于低资源或延迟敏感的情况,实现了可比或更好的准确性,计算成本最小。

短-3@k:此版本聚合了前三个完成的链的结果。它在准确性和吞吐量方面始终优于传统的多数投票方法,使其成为大规模生产环境的理想选择,这些环境需要高性能和效率。

此外,短-m@k 方法影响模型微调策略。通过训练具有更短、更有效推理序列的模型,可以实现更快的收敛,提高推理精度和训练、部署期间计算资源的整体效率。

对 AI 开发和行业采用的影响

使用更短的推理链对 AI 模型开发、部署和长期可持续性产生了重大影响。

从训练的角度来看,更短的推理链减少了计算复杂性和资源使用。这使得训练 LLM 更加经济高效和快速。它还允许更快地更新和更频繁地改进,而无需更多的基础设施。

在部署中,特别是在需要快速响应的应用中,例如聊天机器人、交易平台和实时决策系统,更短的推理链提高了处理速度。这不仅使系统更快,还使其能够同时处理更多请求。这意味着系统可以在高负载下更好地运行和扩展。

能效也是一个关键的好处。通过在训练和推理期间减少所需的令牌和计算,AI 系统使用的电力更少。这降低了成本,并有助于环境保护。随着 AI变得更加普遍,数据中心面临着降低能耗的压力,这种效率变得更加重要。

最后,这些效率加速了整个 AI 开发过程。随着训练时间和推理速度的减少,组织可以更快地将 AI 产品和服务推向市场。这有助于他们在快速发展的科技世界中保持竞争力和敏捷性。

克服实施挑战和采用更短推理链的战略建议

虽然在 LLM 中采用更短的推理链带来明显的好处,但要使这种方法完全有效,还需要克服一些实际挑战。

主要挑战之一是传统的 AI 系统设计,它们长期以来一直专注于使用更长的推理链。这些系统是建立在“更多步骤将带来更好结果”的信念之上的。转向更短的链需要重新审视模型架构、训练方法和优化技术。这需要技术技能和组织内部的适应意愿。

数据的质量和结构也起着重要作用。那些被训练为适应更长推理的 AI 模型可能会在切换到更短的推理路径时遇到困难。为了使更短的链有效,数据集需要被策划和结构化,以支持快速、有针对性的推理步骤。这对于确保模型能够保持准确性和性能至关重要。

可扩展性也是一个挑战。在受控环境中,更短的推理链效果很好,但在大规模应用中,例如电子商务网站或客户支持系统,需要坚实的基础设施来处理高容量的请求而不降低速度或准确性。这需要仔细的规划和资源管理,以确保平稳的性能。

为了克服这些挑战,AI 开发人员可以考虑以下策略:

  • 采用短-m@k 推理框架: 此方法使用并行处理和早期终止来平衡速度和准确性,使其适用于实时、延迟敏感的应用。
  • 优先考虑训练中的简洁推理: 结合专注于更短推理链的训练方法,以减少资源使用和提高速度。
  • 监控推理链指标: 定期跟踪推理链的长度和模型的实时性能。这有助于快速调整以保持系统的效率和准确性。

通过遵循这些策略,AI 开发人员可以成功实施更短的推理链,导致更快、更准确和可扩展的 AI 系统,这些系统满足操作需求和成本效率目标。

结论

关于更短推理链的研究为 AI 开发带来了新的方法。使用更短的链可以使 AI 模型更快、更准确、更低成本地运行。这一变化对于速度和成本至关重要的行业来说至关重要。

通过使用更短的推理链,AI 系统可以在无需更多资源的情况下改进。这可以帮助公司更高效地开发和使用 AI。在未来,这种方法将使 AI 更加有价值和适应不同需求。AI 开发人员和公司应该探索这些新方法,以在快速变化的技术世界中保持领先。

阿萨德·阿巴斯博士(Dr. Assad Abbas)是巴基斯坦伊斯兰堡COMSATS大学的终身副教授,他在美国北达科他州立大学获得了博士学位。他的研究重点是包括云计算、雾计算、边缘计算、大数据分析和人工智能在内的先进技术。阿巴斯博士在著名的科学期刊和会议上发表了大量的论文,并做出了重要的贡献。他也是 MyFastingBuddy 的创始人。