通用人工智能

Inflection-2.5：一款挑战GPT-4和Gemini的强大LLM

发布于 2024年3月14日

更新于 2026年5月22日

作者

Aayush Mittal Mittal

Inflection AI在大型语言模型（LLM）领域引起了轰动，其最近推出的Inflection-2.5模型与世界领先的LLM（包括OpenAI的GPT-4和Google的Gemini）竞争。

Inflection AI的快速崛起得到了巨额13亿美元投资的推动，这些投资来自行业巨头如Microsoft、NVIDIA，以及著名投资者如Reid Hoffman、Bill Gates和Eric Schmidt。这笔投资使得公司的总融资金额达到15.25亿美元。

与合作伙伴CoreWeave和NVIDIA合作，Inflection AI正在建设世界上最大的AI集群，拥有22000个NVIDIA H100 Tensor Core GPU。这种前所未有的计算能力将支持训练和部署新一代大规模AI模型，使得Inflection AI能够突破个人AI领域的可能性边界。

该公司的开创性工作已经取得了显著的成果，Inflection AI集群（目前拥有3500个NVIDIA H100 Tensor Core GPU）在开源基准MLPerf上实现了最先进的性能。在与CoreWeave和NVIDIA的联合提交中，集群仅用11分钟就完成了大型语言模型的参考训练任务，巩固了其在此基准上的最快集群地位。

这一成就是在Inflection AI推出Inflection-1之后实现的，Inflection-1是该公司的内部大型语言模型（LLM），被誉为其计算类别中最好的模型。在广泛用于比较LLM的基准测试中，Inflection-1比GPT-3.5、LLaMA、Chinchilla和PaLM-540B等行业巨头表现出色，使得用户可以以简单自然的方式与Inflection AI的个人AI Pi交互，获得快速、相关且有用的信息和建议。

Inflection AI致力于透明度和可复制性，这从公司发布的关于Inflection-1在各种基准测试中的评估和性能的技术备忘录中可见一斑。备忘录显示，Inflection-1在同一计算类别中优于其他模型，该类别定义为使用的浮点运算（FLOPs）最多为PaLM-540B。

Inflection-1的成功和公司计算基础设施的快速扩张，得益于大量的资金投入，凸显了Inflection AI致力于实现其使命，即为每个人创建个人AI。通过将Inflection-1集成到Pi中，用户现在可以体验个人AI的力量，受益于其富有同情心的个性、有用性和安全标准。

Inflection-2.5

Inflection-2.5现已在多个平台上为所有Inflection AI的个人AI助手Pi的用户提供，包括网页（pi.ai）、iOS、Android和新的桌面应用程序。这一集成标志着Inflection AI在实现为每个人创建个人AI的使命上取得了重要的里程碑，将原始能力与其标志性的富有同情心的个性和安全标准相结合。

性能的飞跃 Inflection AI之前的模型Inflection-1仅使用了大约GPT-4的4%的训练FLOPs，并且在各种智力任务中表现出约72%的平均性能。有了Inflection-2.5，Inflection AI在Pi的智力能力方面实现了显著的提升，重点关注编码和数学。

该模型在关键行业基准测试中的性能展示了其实力，展现出超过94%的GPT-4平均性能，特别是在STEM领域表现出色。这一卓越的成就是Inflection AI致力于推动技术前沿同时保持对用户体验和安全性的关注的见证。

编码和数学能力 Inflection-2.5在编码和数学方面表现出色，相比Inflection-1在BIG-Bench-Hard基准测试（大型语言模型的挑战性问题集）上有超过10%的改进。两个编码基准测试MBPP+和HumanEval+显示出Inflection-2.5相比Inflection-1有了巨大的改进，巩固了其在编码领域的领先地位。

在MBPP+基准测试中，Inflection-2.5比其前身有了显著的改进，表现出与GPT-4相当的性能水平，如DeepSeek Coder所报告。同样，在HumanEval+基准测试中，Inflection-2.5表现出显著的进步，超过Inflection-1的性能，接近GPT-4的水平，如EvalPlus排行榜所示。

行业基准统治力

Inflection-2.5在行业基准测试中表现出色，相比Inflection-1在MMLU基准测试和GPQA Diamond基准测试（专家级难度）上有了显著的改进。该模型在这些基准测试中的性能凸显了其处理广泛任务的能力，从高中级问题到专业级挑战。

在STEM考试中的出色表现该模型的能力延伸到STEM考试，特别是在匈牙利数学考试和物理GRE中表现出色。在匈牙利数学考试中，Inflection-2.5通过利用提供的few-shot提示和格式，实现了数学能力的体现，允许轻松复制。

在物理GRE（物理研究生入学考试）中，Inflection-2.5达到人类考生中的85百分位（maj@8），巩固了其在物理问题解决领域的强大竞争地位。另外，该模型接近最高分（maj@32），展现出其解决复杂物理问题的准确性。

增强用户体验 Inflection-2.5不仅保持了Pi的标志性个性和安全标准，还提升了其作为多功能和宝贵的个人AI的地位，涵盖了多样化的主题。从讨论当前事件到寻找本地推荐，学习考试，编码，甚至是随意的对话，Inflection-2.5为Pi带来了丰富的用户体验。

随着Inflection-2.5的强大能力，用户正在与Pi进行更广泛的主题讨论。该模型处理复杂任务的能力，结合其富有同情心的个性和实时网络搜索能力，确保用户获得高质量、最新的信息和指导。

用户采用和参与度 Inflection-2.5集成到Pi中的影响已经体现在用户情绪、参与度和留存率指标中。Inflection AI已经见证了有机用户增长的显著加速，每天有100万活跃用户，每月有600万活跃用户，与Pi交换超过40亿条消息。

平均而言，与Pi的对话持续33分钟，每天有十分之一的对话持续超过一小时。此外，约60%的人在一周内与Pi交互，第二周也会回来，展现出比行业领先竞争对手更高的月度粘性。

技术细节和基准透明度

Inflection AI致力于透明度和可复制性，公司已经提供了关于Inflection-2.5在各种行业基准测试中的全面技术结果和细节。

例如，在MT-Bench数据集的更正版本中，该版本解决了原始数据集中的问题，如错误的参考解决方案和有缺陷的前提，Inflection-2.5表现出符合预期的性能，基于其他基准测试的结果。

Inflection AI还评估了Inflection-2.5在HellaSwag和ARC-C基准测试中的性能，这些基准测试被广泛的模型报告，结果展示出这些饱和基准测试中的强大性能。

需要注意的是，虽然提供的评估代表了为Pi提供支持的模型，但用户体验可能会由于诸如网络检索（不用于基准测试）、few-shot提示的结构和其他生产侧差异等因素而略有不同。

结论

Inflection-2.5代表着大型语言模型领域的一个重大飞跃，挑战了GPT-4和Gemini的能力，同时仅使用了很小一部分计算资源。凭借其在广泛基准测试中的出色性能，特别是在STEM领域、编码和数学方面，Inflection-2.5已将自己确立为AI领域的一支强大力量。

Inflection-2.5集成到Pi中的意义不仅在于其技术能力，还在于它为用户提供了丰富的体验，结合了原始能力、富有同情心的个性和安全标准。随着Inflection AI继续推动LLM的边界，AI社区热切期待着这家开拓性的公司的下一波创新和突破。

Aayush Mittal, Mittal

我已经沉浸在了令人着迷的机器学习和深度学习世界中五年了。我的热情和专业知识让我为超过50个不同的软件工程项目做出了贡献，特别关注AI/ML。我的持续的好奇心也让我对自然语言处理产生了兴趣，这是一个我渴望进一步探索的领域。

Unite.AI

Inflection-2.5：一款挑战GPT-4和Gemini的强大LLM

Inflection-2.5

行业基准统治力

技术细节和基准透明度

结论

You may like