人工智能

GPT-4o Mini 发布：一款高性能、低成本的 Claude Haiku、Gemini Flash 和 GPT 3.5 Turbo 替代品

Published July 22, 2024

Updated May 21, 2026

Dr. Tehseen Zia

OpenAI，一家领先的 Generative Pre-trained Transformer (GPT) 模型公司，现已推出 GPT-4o Mini，这标志着公司向更紧凑的 AI 解决方案转变。这一举动解决了大规模 AI 的挑战，包括高成本和耗能的训练，并使 OpenAI 能够与谷歌和 Claude 等竞争对手竞争。GPT-4o Mini 提供了一种更高效、更经济的多模态 AI 方法。本文将通过比较 GPT-4o Mini 与 Claude Haiku、Gemini Flash 和 OpenAI 的 GPT-3.5 Turbo 来探讨其独特之处。我们将根据六个关键因素进行评估：模态支持、性能、上下文窗口、处理速度、价格和可访问性，这些因素对于选择合适的 AI 模型至关重要。

GPT-4o Mini 介绍

GPT-4o Mini 是一款紧凑的多模态 AI 模型，具有文本和视觉智能能力。虽然 OpenAI 没有披露其开发方法的具体细节，但 GPT-4o Mini 建立在 GPT 系列的基础上。它旨在为低延迟和低成本的应用提供服务。GPT-4o Mini 适用于需要链式或并行多个模型调用的任务、处理大量上下文以及提供快速的实时文本响应。这些功能对于构建诸如检索增强生成 (RAG) 系统和聊天机器人等应用程序至关重要。

GPT-4o Mini 的主要特点包括：

上下文窗口为 128K 标记
每次请求最多支持 16K 输出标记
增强的非英语文本处理能力
知识更新至 2023 年 10 月

GPT-4o Mini 与 Claude Haiku 与 Gemini Flash 比较：小型多模态 AI 模型比较

本节比较 GPT-4o Mini 与两个现有的小型多模态 AI 模型：Claude Haiku 和 Gemini Flash。Claude Haiku 由 Anthropic 于 2024 年 3 月推出，Gemini Flash 由谷歌于 2023 年 12 月推出，2024 年 5 月发布了 1.5 版本，这两个模型是重要的竞争对手。

模态支持：GPT-4o Mini 和 Claude Haiku 目前支持文本和图像能力。OpenAI 计划在未来添加音频和视频支持。相比之下，Gemini Flash 已经支持文本、图像、视频和音频。
性能：OpenAI 研究人员已经将 GPT-4o Mini 与 Gemini Flash 和 Claude Haiku 进行了基准测试，结果表明 GPT-4o Mini 在多个关键指标上始终优于其竞争对手。在涉及文本和视觉的推理任务中，GPT-4o Mini 在 MMLU 上获得了 82.0% 的分数，超过了 Gemini Flash 的 77.9% 和 Claude Haiku 的 73.8%。GPT-4o Mini 在 MGSM 上获得了 87.0% 的分数，超过了 Gemini Flash 的 75.5% 和 Claude Haiku 的 71.7%。在 HumanEval 上，GPT-4o Mini 获得了 87.2% 的分数，领先于 Gemini Flash 的 71.5% 和 Claude Haiku 的 75.9%。此外，GPT-4o Mini 在多模态推理中获得了 59.4% 的分数，超过了 Gemini Flash 的 56.1% 和 Claude Haiku 的 50.2%。
上下文窗口：更大的上下文窗口使模型能够提供更长的连贯和详细的答案。GPT-4o Mini 提供了 128K 标记的容量，并支持每次请求最多 16K 输出标记。Claude Haiku 有一个更长的上下文窗口，达到了 200K 标记，但每次请求返回的标记较少，最高为 4096 个标记。Gemini Flash 拥有一个更大的上下文窗口，达到 100 万标记。因此，Gemini Flash 在上下文窗口方面优于 GPT-4o Mini。
处理速度：GPT-4o Mini 的处理速度比其他模型快。它每分钟处理 1500 万标记，而 Claude Haiku 每分钟处理 126 万标记，Gemini Flash 每分钟处理 400 万标记。
价格：GPT-4o Mini 更具成本效益，每百万输入标记收费 15 美分，每百万输出标记收费 60 美分。Claude Haiku 每百万输入标记收费 25 美分，每百万响应标记收费 1.25 美元。Gemini Flash 每百万输入标记收费 35 美分，每百万输出标记收费 1.05 美元。
可访问性：GPT-4o Mini 可通过 Assistants API、Chat Completions API 和 Batch API 访问。Claude Haiku 可通过 claude.ai 的 Claude Pro 订阅、其 API、Amazon Bedrock 和 Google Cloud Vertex AI 访问。Gemini Flash 可通过 Google AI Studio 访问，并可以通过谷歌 API 集成到应用程序中，并在 Google Cloud Vertex AI 上提供。

在此比较中，GPT-4o Mini 以其平衡的性能、成本效益和速度而脱颖而出，使其成为小型多模态 AI 模型领域的一种强有力的竞争者。

GPT-4o Mini 与 GPT-3.5 Turbo 比较：详细比较

本节比较 GPT-4o Mini 与 GPT-3.5 Turbo，OpenAI 广泛使用的大型多模态 AI 模型。

大小：虽然 OpenAI 没有披露 GPT-4o Mini 和 GPT-3.5 Turbo 的确切参数数量，但已知 GPT-3.5 Turbo 被归类为大型多模态模型，而 GPT-4o Mini 属于小型多模态模型。这意味着 GPT-4o Mini 需要的计算资源远少于 GPT-3.5 Turbo。
模态支持：GPT-4o Mini 和 GPT-3.5 Turbo 支持文本和图像相关任务。
性能：GPT-4o Mini 在各种基准测试中（如 MMLU、GPQA、DROP、MGSM、MATH、HumanEval、MMMU 和 MathVista）表现出显著的改进，超过了 GPT-3.5 Turbo。它在文本智能和多模态推理方面表现更好，始终超过 GPT-3.5 Turbo。
上下文窗口：GPT-4o Mini 提供了比 GPT-3.5 Turbo 更长的上下文窗口，后者仅支持 16K 标记的容量，使其能够处理更长的文本并提供更详细的答案。
处理速度：GPT-4o Mini 的处理速度为每分钟 1500 万标记，远远超过 GPT-3.5 Turbo 的每分钟 4650 个标记。
价格：GPT-4o Mini 更具成本效益，价格比 GPT-3.5 Turbo 低超过 60%。它的价格为每百万输入标记 15 美分，每百万输出标记 60 美分，而 GPT-3.5 Turbo 的价格为每百万输入标记 50 美分，每百万输出标记 1.50 美元。
附加功能：OpenAI 强调 GPT-4o Mini 在函数调用方面超过了 GPT-3.5 Turbo，使其能够更顺畅地与外部系统集成。此外，其增强的长上下文性能使其成为各种 AI 应用程序中更高效、更通用的工具。

结论

OpenAI 推出 GPT-4o Mini 标志着向更紧凑、更经济的 AI 解决方案转变。这一模型有效地解决了大规模 AI 系统的高运营成本和能耗挑战。GPT-4o Mini 在性能、处理速度和价格方面优于竞争对手，如 Claude Haiku 和 Gemini Flash。它还表现出比 GPT-3.5 Turbo 更强大的功能，特别是在上下文处理和成本效益方面。GPT-4o Mini 的增强功能和多样化应用使其成为开发人员寻求高性能多模态 AI 的强有力选择。

Dr. Tehseen Zia

Dr. Tehseen Zia 是 COMSATS University Islamabad 的终身副教授，拥有来自奥地利维也纳科技大学的人工智能博士学位。专攻人工智能、机器学习、数据科学和计算机视觉，他在著名的科学期刊上发表了重要贡献。 Dr. Tehseen 还作为首席调查员领导了各种工业项目，并担任人工智能顾问。

Unite.AI

GPT-4o Mini 发布：一款高性能、低成本的 Claude Haiku、Gemini Flash 和 GPT 3.5 Turbo 替代品

GPT-4o Mini 介绍

GPT-4o Mini 与 Claude Haiku 与 Gemini Flash 比较：小型多模态 AI 模型比较

GPT-4o Mini 与 GPT-3.5 Turbo 比较：详细比较

结论

You may like