通用人工智能

Inflection-2.5:一款挑战GPT-4和Gemini的强大LLM

mm
Inflection-2.5 PI

Inflection AI在大型语言模型(LLM)领域引起了轰动,其最近推出的Inflection-2.5模型与世界领先的LLM(包括OpenAI的GPT-4和Google的Gemini)竞争。

Inflection AI的快速崛起得到了巨额13亿美元投资的推动,这些投资来自行业巨头如Microsoft、NVIDIA,以及著名投资者如Reid Hoffman、Bill Gates和Eric Schmidt。这笔投资使得公司的总融资金额达到15.25亿美元。

与合作伙伴CoreWeave和NVIDIA合作,Inflection AI正在建设世界上最大的AI集群,拥有22000个NVIDIA H100 Tensor Core GPU。这种前所未有的计算能力将支持训练和部署新一代大规模AI模型,使得Inflection AI能够突破个人AI领域的可能性边界。

该公司的开创性工作已经取得了显著的成果,Inflection AI集群(目前拥有3500个NVIDIA H100 Tensor Core GPU)在开源基准MLPerf上实现了最先进的性能。在与CoreWeave和NVIDIA的联合提交中,集群仅用11分钟就完成了大型语言模型的参考训练任务,巩固了其在此基准上的最快集群地位。

这一成就是在Inflection AI推出Inflection-1之后实现的,Inflection-1是该公司的内部大型语言模型(LLM),被誉为其计算类别中最好的模型。在广泛用于比较LLM的基准测试中,Inflection-1比GPT-3.5、LLaMA、Chinchilla和PaLM-540B等行业巨头表现出色,使得用户可以以简单自然的方式与Inflection AI的个人AI Pi交互,获得快速、相关且有用的信息和建议。

Inflection AI致力于透明度和可复制性,这从公司发布的关于Inflection-1在各种基准测试中的评估和性能的技术备忘录中可见一斑。备忘录显示,Inflection-1在同一计算类别中优于其他模型,该类别定义为使用的浮点运算(FLOPs)最多为PaLM-540B。

Inflection-1的成功和公司计算基础设施的快速扩张,得益于大量的资金投入,凸显了Inflection AI致力于实现其使命,即为每个人创建个人AI。通过将Inflection-1集成到Pi中,用户现在可以体验个人AI的力量,受益于其富有同情心的个性、有用性和安全标准。

Inflection-2.5

Inflection-2.5现已在多个平台上为所有Inflection AI的个人AI助手Pi的用户提供,包括网页(pi.ai)、iOS、Android和新的桌面应用程序。这一集成标志着Inflection AI在实现为每个人创建个人AI的使命上取得了重要的里程碑,将原始能力与其标志性的富有同情心的个性和安全标准相结合。

性能的飞跃 Inflection AI之前的模型Inflection-1仅使用了大约GPT-4的4%的训练FLOPs,并且在各种智力任务中表现出约72%的平均性能。有了Inflection-2.5,Inflection AI在Pi的智力能力方面实现了显著的提升,重点关注编码和数学。

该模型在关键行业基准测试中的性能展示了其实力,展现出超过94%的GPT-4平均性能,特别是在STEM领域表现出色。这一卓越的成就是Inflection AI致力于推动技术前沿同时保持对用户体验和安全性的关注的见证。

编码和数学能力 Inflection-2.5在编码和数学方面表现出色,相比Inflection-1在BIG-Bench-Hard基准测试(大型语言模型的挑战性问题集)上有超过10%的改进。两个编码基准测试MBPP+和HumanEval+显示出Inflection-2.5相比Inflection-1有了巨大的改进,巩固了其在编码领域的领先地位。

在MBPP+基准测试中,Inflection-2.5比其前身有了显著的改进,表现出与GPT-4相当的性能水平,如DeepSeek Coder所报告。同样,在HumanEval+基准测试中,Inflection-2.5表现出显著的进步,超过Inflection-1的性能,接近GPT-4的水平,如EvalPlus排行榜所示。

行业基准统治力

Inflection-2.5在行业基准测试中表现出色,相比Inflection-1在MMLU基准测试和GPQA Diamond基准测试(专家级难度)上有了显著的改进。该模型在这些基准测试中的性能凸显了其处理广泛任务的能力,从高中级问题到专业级挑战。

在STEM考试中的出色表现 该模型的能力延伸到STEM考试,特别是在匈牙利数学考试和物理GRE中表现出色。在匈牙利数学考试中,Inflection-2.5通过利用提供的few-shot提示和格式,实现了数学能力的体现,允许轻松复制。

在物理GRE(物理研究生入学考试)中,Inflection-2.5达到人类考生中的85百分位(maj@8),巩固了其在物理问题解决领域的强大竞争地位。另外,该模型接近最高分(maj@32),展现出其解决复杂物理问题的准确性。

增强用户体验 Inflection-2.5不仅保持了Pi的标志性个性和安全标准,还提升了其作为多功能和宝贵的个人AI的地位,涵盖了多样化的主题。从讨论当前事件到寻找本地推荐,学习考试,编码,甚至是随意的对话,Inflection-2.5为Pi带来了丰富的用户体验。

随着Inflection-2.5的强大能力,用户正在与Pi进行更广泛的主题讨论。该模型处理复杂任务的能力,结合其富有同情心的个性和实时网络搜索能力,确保用户获得高质量、最新的信息和指导。

用户采用和参与度 Inflection-2.5集成到Pi中的影响已经体现在用户情绪、参与度和留存率指标中。Inflection AI已经见证了有机用户增长的显著加速,每天有100万活跃用户,每月有600万活跃用户,与Pi交换超过40亿条消息。

平均而言,与Pi的对话持续33分钟,每天有十分之一的对话持续超过一小时。此外,约60%的人在一周内与Pi交互,第二周也会回来,展现出比行业领先竞争对手更高的月度粘性。

技术细节和基准透明度

Inflection AI致力于透明度和可复制性,公司已经提供了关于Inflection-2.5在各种行业基准测试中的全面技术结果和细节。

例如,在MT-Bench数据集的更正版本中,该版本解决了原始数据集中的问题,如错误的参考解决方案和有缺陷的前提,Inflection-2.5表现出符合预期的性能,基于其他基准测试的结果。

Inflection AI还评估了Inflection-2.5在HellaSwag和ARC-C基准测试中的性能,这些基准测试被广泛的模型报告,结果展示出这些饱和基准测试中的强大性能。

需要注意的是,虽然提供的评估代表了为Pi提供支持的模型,但用户体验可能会由于诸如网络检索(不用于基准测试)、few-shot提示的结构和其他生产侧差异等因素而略有不同。

结论

Inflection-2.5代表着大型语言模型领域的一个重大飞跃,挑战了GPT-4和Gemini的能力,同时仅使用了很小一部分计算资源。凭借其在广泛基准测试中的出色性能,特别是在STEM领域、编码和数学方面,Inflection-2.5已将自己确立为AI领域的一支强大力量。

Inflection-2.5集成到Pi中的意义不仅在于其技术能力,还在于它为用户提供了丰富的体验,结合了原始能力、富有同情心的个性和安全标准。随着Inflection AI继续推动LLM的边界,AI社区热切期待着这家开拓性的公司的下一波创新和突破。

我已经沉浸在了令人着迷的机器学习和深度学习世界中五年了。我的热情和专业知识让我为超过50个不同的软件工程项目做出了贡献,特别关注AI/ML。我的持续的好奇心也让我对自然语言处理产生了兴趣,这是一个我渴望进一步探索的领域。