人工智能

确保人工智能开发的安全：解决幻觉代码中的漏洞

发布时间

3星期前

2024 年 5 月 21 日

之中 DigiOps与人工智能发展，领域软件开发正在经历重大转变。传统上，开发人员依赖于诸如堆栈溢出寻找编码挑战的解决方案。然而，随着大型语言模型（LLM），开发人员看到了对其编程任务前所未有的支持。这些模型在生成代码和解决复杂编程问题方面表现出卓越的能力，为简化开发工作流程提供了潜力。

然而，最近的发现引起了人们对这些模型生成的代码的可靠性的担忧。人工智能的出现“幻觉”尤其令人不安。当人工智能模型生成令人信服地模仿真实性的虚假或不存在的信息时，就会出现这些幻觉。研究人员在火神网络强调了这个问题，展示了人工智能生成的内容（例如推荐不存在的软件包）如何无意中促进网络攻击。这些漏洞将新的威胁向量引入软件供应链，使黑客能够通过将恶意代码伪装成合法建议来渗透开发环境。

安全研究人员进行的实验揭示了这种威胁的令人震惊的现实。通过将 Stack Overflow 中的常见查询呈现给 AI 模型，例如 ChatGPT，他们观察到建议不存在的软件包的情况。随后发布这些虚构软件包的尝试证实了它们存在于流行的软件包安装程序中，凸显了风险的直接性质。

由于现代软件开发中代码重用的广泛实践，这一挑战变得更加严峻。开发人员经常在未经严格审查的情况下将现有库集成到他们的项目中。当与人工智能生成的建议相结合时，这种做法就会变得危险，可能使软件面临安全漏洞。

随着人工智能驱动的发展不断扩大，行业专家和研究人员强调强有力的安全措施。安全的编码实践、严格的代码审查和代码源的身份验证至关重要。此外，从信誉良好的供应商那里采购开源工件有助于降低与人工智能生成内容相关的风险。

理解幻觉代码

幻觉代码是指由人工智能语言模型生成的代码片段或编程结构，它们在语法上看起来正确，但在功能上有缺陷或不相关。这些“幻觉”源于模型根据从大量数据集中学习到的模式来预测和生成代码的能力。然而，由于编程任务固有的复杂性，这些模型可能会生成缺乏对上下文或意图的真正理解的代码。

幻码的出现根源在于神经语言模型，例如基于变压器的架构。这些模型，比如 ChatGPT，接受过各种代码存储库的培训，包括开源项目、Stack Overflow 和其他编程资源。通过上下文学习，模型能够根据前面的标记提供的上下文来预测序列中的下一个标记（单词或字符）。因此，它可以识别常见的编码模式、语法规则和惯用表达。

当提示输入部分代码或描述时，模型会根据学习的模式完成序列来生成代码。然而，尽管模型能够模仿句法结构，但由于模型对更广泛的编程概念和上下文细微差别的理解有限，生成的代码可能需要更多的语义一致性或满足预期功能。因此，虽然幻觉代码乍一看可能与真实代码相似，但经过仔细检查，它通常会表现出缺陷或不一致，这给在软件开发工作流程中依赖人工智能生成的解决方案的开发人员带来了挑战。此外，研究表明各种大型语言模型，包括 GPT-3.5-Turbo、GPT-4、Gemini Pro 和 Coral，表现出跨不同编程语言生成幻觉包的高趋势。这种普遍存在的包幻觉现象要求开发人员在将人工智能生成的代码建议纳入其软件开发工作流程时要小心谨慎。

幻觉代码的影响

幻觉代码会带来重大的安全风险，使其成为软件开发的一个问题。其中一种风险是潜在的恶意代码注入，其中人工智能生成的代码片段无意中引入了攻击者可以利用的漏洞。例如，看似无害的代码片段可能会执行任意命令或无意中暴露敏感数据，从而导致恶意活动。

此外，人工智能生成的代码可能会推荐缺乏适当身份验证或授权检查的不安全 API 调用。这种疏忽可能会导致未经授权的访问、数据泄露，甚至远程代码执行，从而加大安全漏洞的风险。此外，由于不正确的数据处理实践，幻觉代码可能会泄露敏感信息。例如，有缺陷的数据库查询可能会无意中暴露用户凭据，从而进一步加剧安全问题。

除了安全影响之外，依赖幻觉代码的经济后果也可能很严重。将人工智能生成的解决方案集成到开发流程中的组织将面临安全漏洞带来的巨大财务影响。补救成本、法律费用和声誉损害可能会迅速升级。此外，信任侵蚀是由于对幻觉代码的依赖而产生的一个重大问题。

此外，如果开发人员遇到频繁的误报或安全漏洞，可能会对人工智能系统失去信心。这可能会产生深远的影响，破坏人工智能驱动的开发流程的有效性，并降低人们对整个软件开发生命周期的信心。因此，解决幻觉代码的影响对于维护软件系统的完整性和安全性至关重要。

当前的缓解措施

当前针对与幻觉代码相关的风险的缓解工作涉及多方面的方法，旨在增强人工智能生成的代码建议的安全性和可靠性。下面简要介绍一些：

将人类监督纳入代码审查流程至关重要。人工审核人员凭借其细致入微的理解，识别漏洞并确保生成的代码满足安全要求。
开发人员优先考虑了解人工智能的局限性，并结合特定领域的数据来完善代码生成过程。这种方法通过考虑更广泛的上下文和业务逻辑来增强人工智能生成代码的可靠性。
此外，测试程序（包括综合测试套件和边界测试）对于早期问题识别非常有效。这确保了人工智能生成的代码的功能和安全性经过彻底验证。
同样，通过分析人工智能生成的代码建议导致安全漏洞或其他问题的真实案例，开发人员可以收集有关潜在陷阱和缓解风险的最佳实践的宝贵见解。这些案例研究使组织能够从过去的经验中学习，并主动采取措施防范未来类似的风险。