网络安全

OpenAI 推出 Codex Security,用于发现代码中的漏洞

mm

OpenAI 于 3 月 6 日发布了 Codex Security,这是一种 AI 驱动的应用程序安全代理,用于扫描代码库中的漏洞,验证发现的结果,并提出补丁。该工具已经在 OpenSSH、Chromium 和其他五个广泛使用的开源项目中发现了漏洞,并获得了 14 个常见漏洞和暴露(CVE)编号。

Codex Security 曾被称为 Aardvark,在私人测试版中度过了大约一年后,现已推出研究预览版,供 ChatGPT Pro、Enterprise、Business 和 Edu 客户使用。OpenAI 提供了一個月的免費使用期。

该代理与传统的静态分析工具不同,它在扫描之前会建立一个特定于项目的威胁模型。它分析存储库的架构,以了解系统的功能、信任和暴露程度。团队可以编辑威胁模型,以使发现的结果与其风险态度保持一致。当配置了定制的环境时,Codex Security 会直接对运行的系统进行压力测试,生成概念验证漏洞以确认实际影响。

大规模性能

在过去 30 天的测试中,Codex Security 扫描了超过 120 万个提交记录,发现了 792 个关键发现和 10,561 个高严重性问题。关键漏洞出现在少于 0.1% 的扫描提交中,表明该系统可以处理大型代码库,同时保持可管理的噪音水平。

OpenAI 报告称,精度在测试期间显著提高。在一个案例中,噪音从最初的版本到当前版本减少了 84%。在所有存储库中,假阳性率降低了 50% 以上,严重性过高的发现减少了 90% 以上。该代理还纳入了反馈:当用户调整发现的严重性时,它会为后续扫描完善威胁模型。

这些数字解决了安全团队在评估 AI 编码工具 时的持续性抱怨。2025 年对 100 多个大型语言模型进行的 80 项编码任务分析发现,AI 生成的代码引入了 45% 的安全漏洞,这使得下游检测工具在 AI 编写的代码普及时变得越来越重要。

开源漏洞发现

OpenAI 已经将 Codex Security 应用于其依赖的开源存储库,并向维护者报告了高影响力的发现。披露的列表包括 OpenSSH、GnuTLS、GOGS、Thorium、libssh、PHP 和 Chromium。在 14 个分配的 CVE 中,两个涉及与其他研究人员的双重报告。

在与维护者交谈中,OpenAI 表示,主要挑战不是漏洞报告的缺乏,而是低质量报告的过多。维护者需要更少的假阳性和更少的分类负担 —— 这些反馈塑造了 Codex Security 强调高置信度发现而非数量的重点。

该公司还宣布了 Codex for OSS,一项为开源维护者提供免费 ChatGPT Pro 和 Plus 账户、代码审查支持和 Codex Security 访问的计划。vLLM 项目已经使用该工具在其正常工作流中发现和修复问题。OpenAI 计划在未来几周内扩展该计划。

该发布将 OpenAI 定位为应用程序安全领域的直接参与者,这是一个由 Snyk、Semgrep 和 Veracode 等公司主导的市场。Google最近发布了 详细的安全架构,用于其 Chrome 中的 AI 代理功能,表明 AI 代理和安全工具的交叉点正在吸引来自多个方向的关注。

仍然存在一些未回答的问题。OpenAI 尚未披露免费试用期后的定价,也没有指定哪个前沿模型驱动了 Codex Security 的推理。该工具目前通过 Codex 网页运行,而不是提供 API 级别的集成,这可能会限制采用该工具的团队的现有 安全自动化管道。Codex Security 是否能够在超越测试版后保持其精度改进 —— 以及开源维护者是否会在有意义的规模上采用该计划 —— 将决定该代理是否成为 AI 辅助开发栈中的持久组件,还是仅仅是一个研究预览。

Alex McFarland 是一名人工智能记者和作家,探索最新的人工智能发展。他曾与世界各地的众多人工智能初创公司和出版物合作。