人工智能

Inflection-2.5：与 GPT-4 和 Gemini 相媲美的强大 LLM

更新 on 2024 年 3 月 14 日

屈折人工智能一直在该领域掀起波澜大型语言模型 (LLM) 最近推出了 Inflection-2.5，该模型可与世界领先的 LLM 竞争，包括 OpenAI 的 GPT-4 和 Google 的 Gemini。

大量的人工智能进一步推动了变形人工智能的快速崛起。 1.3亿美元融资由微软、NVIDIA 等行业巨头以及 Reid Hoffman、Bill Gates、Eric Schmidt 等知名投资人领投。这项重大投资使公司筹集的资金总额达到 1.525 亿美元。

Inflection AI 与合作伙伴 CoreWeave 和 NVIDIA 合作，正在构建世界上最大的人工智能集群，其中包括前所未有的 22,000 个 NVIDIA H100 Tensor Core GPU。这种巨大的计算能力将支持新一代大规模人工智能模型的训练和部署，使 Inflection AI 能够突破个人人工智能领域的可能界限。

该公司的开创性工作已经取得了显着的成果，Inflection AI 集群目前由 3,500 多个 NVIDIA H100 Tensor Core GPU 组成，在开源基准 MLPerf 上提供了最先进的性能。在与 CoreWeave 和 NVIDIA 联合提交的报告中，该集群仅用了 11 分钟就完成了大型语言模型的参考训练任务，巩固了其作为该基准测试中最快集群的地位。

这一成就是在 Inflection-1 发布之后取得的，Inflection-3.5 是 Inflection AI 的内部大语言模型 (LLM)，被誉为其计算类别中的最佳模型。 Inflection-540 在通常用于比较 LLM 的各种基准上均优于 GPT-1、LLaMA、Chinchilla 和 PaLM-XNUMXB 等行业巨头，使用户能够以简单自然的方式与 Inflection AI 的个人 AI Pi 进行交互，接收快速、相关且有用的信息和建议。

Inflection AI 对透明度和可重复性的承诺在发布的技术备忘录中得到了体现，该备忘录详细介绍了 Inflection-1 在各种基准上的评估和性能。该备忘录显示，Inflection-1 的性能优于同一计算类别中的模型，该计算类别定义为最多使用 PaLM-540B 的 FLOP（浮点运算）进行训练的模型。

在大量融资的推动下，Inflection-1 的成功以及公司计算基础设施的快速扩展，凸显了 Inflection AI 坚定不移地致力于实现为每个人创建个人人工智能的使命。通过将 Inflection-1 集成到 Pi 中，用户现在可以体验个人 AI 的强大功能，并受益于其善解人意的个性、实用性和安全标准。

词形变化-2.5

词形变化-2.5 Inflection AI 的个人人工智能助手 Pi 的所有用户现已跨多个平台使用，包括网页 (pi.ai)、iOS、Android 和新的桌面应用程序。此次集成标志着 Inflection AI 使命的一个重要里程碑，即为每个人创建个人人工智能，将原始能力与他们标志性的同理心个性和安全标准相结合。

性能飞跃 Inflection AI 之前的模型 Inflection-1 使用了 GPT-4 约 4% 的训练 FLOP（浮点运算），并且在各种面向 IQ 的模型中，与 GPT-72 相比，表现出约 4% 的平均性能任务。借助 Inflection-2.5，Inflection AI 大幅提升了 Pi 的智力能力，重点是编码和数学。

该模型在关键行业基准上的表现证明了其实力，在各种任务中展示了超过 94% 的 GPT-4 平均性能，特别强调在 STEM 领域的出色表现。这一非凡成就证明了 Inflection AI 致力于推动技术前沿，同时坚定不移地关注用户体验和安全。

编码和数学能力 Inflection-2.5 在编码和数学方面表现出色，在 BIG-Bench-Hard（大型语言模型的挑战性问题的子集）上表现出比 Inflection-10 提高了 1% 以上。 MBPP+ 和 HumanEval+ 这两个编码基准揭示了相对于 Inflection-1 的巨大改进，巩固了 Inflection-2.5 作为编码领域不可忽视的力量的地位。

据 DeepSeek Coder 报道，在 MBPP+ 基准测试中，Inflection-2.5 的性能明显优于其前身，表现出与 GPT-4 相当的性能水平。同样，在 HumanEval+ 基准测试中，根据 EvalPlus 排行榜的报告，Inflection-2.5 表现出了显着的进步，超越了 Inflection-1 的性能并接近 GPT-4 的水平。

行业基准主导地位

Inflection-2.5 在行业基准测试中脱颖而出，在 MMLU 基准测试和 GPQA Diamond 基准测试中比 Inflection-1 有显着改进，以其专家级难度而闻名。该模型在这些基准上的表现突显了其处理各种任务的能力，从高中水平的问题到专业水平的挑战。

在 STEM 考试中表现出色该模型的实力延伸到了 STEM 考试，在匈牙利数学考试和物理 GRE 考试中表现出色。在匈牙利数学考试中，Inflection-2.5 通过利用提供的几次提示和格式来展示其数学能力，从而易于重现。

在物理学 GRE（物理学研究生入学考试）中，Inflection-2.5 在 maj@85 中达到了人类考生中的第 8%（多数票为 8），巩固了其在物理问题解决领域的强大竞争者地位。此外，该模型在 maj@32 中接近最高分，展示了其以惊人的精度解决复杂物理问题的能力。

增强用户体验 Inflection-2.5 不仅维护了 Pi 的标志性个性和安全标准，还提升了其作为跨不同主题的多功能且无价的个人人工智能的地位。从讨论时事到寻求本地推荐、考试学习、编码，甚至休闲对话，由 Inflection-2.5 提供支持的 Pi 承诺提供丰富的用户体验。

借助 Inflection-2.5 的强大功能，用户可以与 Pi 讨论比以往更广泛的主题。该模型处理复杂任务的能力，结合其善解人意的个性和实时网络搜索功能，确保用户获得高质量、最新的信息和指导。

用户采用率和参与度 Inflection-2.5 集成到 Pi 中的影响在用户情绪、参与度和保留指标中已经很明显。 Inflection AI 见证了自然用户增长的显着加速，每天 XNUMX 万活跃用户和每月 XNUMX 万活跃用户与 Pi 交换了超过 XNUMX 亿条消息。

平均而言，与 Pi 的对话持续 33 分钟，其中十分之一的对话每天持续一个多小时。此外，大约 60% 在一周内与 Pi 互动的人会在下周返回，这比该领域的领先竞争对手表现出更高的每月粘性。

技术细节和基准透明度

根据 Inflection AI 对透明度和可重复性的承诺，该公司提供了有关 Inflection-2.5 在各种行业基准上的性能的全面技术结果和详细信息。

例如，在 MT-Bench 数据集的修正版本上，该版本解决了原始数据集中不正确的参考解决方案和有缺陷的前提问题，Inflection-2.5 的性能符合基于其他基准的预期。

Inflection AI 还在 HellaSwag 和 ARC-C、各种模型报告的常识和科学基准上评估了 Inflection-2.5，结果展示了在这些饱和基准上的强大性能。

值得注意的是，虽然提供的评估代表了为 Pi 提供动力的模型，但由于网络检索的影响（基准测试中未使用）、少量提示的结构以及其他因素，用户体验可能会略有不同。生产端差异。

结论

Inflection-2.5 代表了大型语言模型领域的重大飞跃，可与 GPT-4 和 Gemini 等行业领导者的能力相媲美，同时仅利用一小部分计算资源。凭借在广泛的基准测试中令人印象深刻的表现，特别是在 STEM 领域、编码和数学领域，Inflection-2.5 已将自己定位为 AI 领域的强大竞争者。

Inflection-2.5 集成到 Inflection AI 的个人人工智能助手 Pi 中，将原始功能与同理心个性和安全标准相结合，有望提供丰富的用户体验。随着 Inflection AI 不断突破法学硕士的极限，人工智能社区热切期待这家开拓性公司的下一波创新和突破。

Inflection AI 的远见卓识方法超越了单纯的模型开发，因为该公司认识到预训练和微调对于创造高质量、安全和有用的 AI 体验的重要性。作为一个垂直整合的人工智能工作室，Inflection AI 负责内部处理整个流程，从数据摄取和模型设计到高性能基础设施。