思想领袖2 months ago
企业必须应对的快速生成式AI应用所带来的新安全风险
生成式人工智能(GenAI)已从一项新奇事物发展成为企业技术的核心力量。其按需生成文本、代码、图像和见解的能力,使其成为渴望简化复杂性并加速生产力的员工不可或缺的工具。但这种创新和效率也带来了巨大的风险敞口。 在与各行业高管和人工智能治理负责人的交流中,一个主题反复出现:数据安全已从一个关键关切点转变为他们战略的焦点,并成为当前人工智能应用的决定性挑战。与传统的软件乃至过去的机器学习浪潮不同,生成式人工智能从根本上改变了组织内部保护数据的过程。 麻省理工学院最近的一项研究发现,95%的企业生成式AI试点项目都失败了。这并不是因为技术薄弱,而是因为企业缺乏适当且负责任地运营生成式AI所需的治理和安全框架。在麻省理工学院的另一项研究中,企业领导者将数据安全列为阻碍人工智能更快应用的首要业务和安全风险。此外,“影子AI”——即员工未经授权使用公共工具——被广泛认为是导致数据风险飙升、超出企业控制范围的一个驱动因素。 最小权限访问是一种安全模型,其中任何实体(无论是用户、程序还是进程)仅被授予执行其合法功能所需的最低级别的访问权限和许可。然而,生成式AI颠覆了整个范式:最小权限本身成为了一种约束,与这些系统的设计运行方式相冲突。这是因为企业生成式AI工具在能够访问更多业务数据和业务上下文时,往往能带来更高的生产力提升。 随着生成式AI应用的加速,用户不断发现生成式AI的新应用,其中大多数源于自发的实验和好奇心,而非自上而下、业务驱动的规划。如果一个实体无法定义生成式AI将用于哪些任务,或者它需要访问哪些类型的数据,那么建立最小权限访问许可就变得不可行。此外,用户可能拥有对数据集的适当访问权限,并合法地将其作为输入提供给生成式AI工具,但一旦数据被摄取,它就不再受用户原始权限的约束。相反,它可能被模型吸收、在未来的输出中浮现,或者被使用同一工具的其他人访问。由于生成式AI不一定继承数据的访问控制,这实际上使得最小权限无法强制执行。 需考虑的生成式AI风险敞口 生成式AI创造了一个广阔且不断扩展的数据面,通过几种相互关联的方式使企业数据治理和安全复杂化。这些包括: 输入泄露 – 生成式AI可以摄取原始形式的数据,包括文本、图像、音频、视频和结构化数据。最终用户现在可以以最小的努力或专业知识,将生成式AI工具指向新的数据集。这些数据集可能不再局限于精心策划、具有明确定义模式和关系的结构化表格,而是可能包括销售电话录音、CRM电子邮件笔记、客户服务记录等等。实际上,员工正在向提示词中输入高度敏感的商业信息,包括客户个人身份信息(PII)、知识产权、财务预测,甚至源代码。 输出暴露 – 生成式模型不仅仅是消费数据,它们还会进行合成。一个提示词可能会无意中从多个数据集中提取见解,并将其暴露给未经适当授权的用户。在某些情况下,输出甚至可能“幻觉”出看似合法但包含真实、高度敏感训练材料片段的数据。 生成式AI工具在了解手头任务的上下文时表现更好。因此,生成式AI不仅摄取现有信息,用户还会创建新的数据来指导它,这些数据以详细、广泛的提示词形式存在,记录了业务背景、内部流程以及其他潜在的敏感或业务关键信息。 缺乏监督的可访问性 – 传统的企业系统需要供应商入驻和IT资源调配。如今,生成式AI已嵌入到各个角落——Microsoft Office套件、浏览器、聊天工具和SaaS平台中。员工可以即时采用它,完全绕过治理。这种无摩擦的访问助长了“影子AI”,而每一次未经授权的生成式AI使用,都是一次潜在的数据外泄事件,正在无形中、大规模地、在企业治理边界之外发生。 二级供应链风险 – 供应商可能看起来是安全的,但他们通常依赖于分包商,如云主机、标注服务或第三方AI实验室。每个分包商都引入了自己的最终用户许可协议(EULA)和政策。敏感的企业数据可能会流经多个看不见的环节,但责任却完全由企业承担。例如,一家企业可能有一个已完成入驻流程的供应商,但该供应商现在使用一个生成式AI工具,该工具可能允许将企业的数据用作训练数据,从而产生重大的下游影响。 训练数据中的治理缺口 – 一旦数据进入AI模型,控制权实际上就结束了。企业无法轻易撤回或管理其信息的使用方式。专有知识可能会持续存在,并在其来源被遗忘很久之后,于输出中浮现。我们尚未遇到任何生成式AI工具允许请求删除其已摄取的信息,类似于《通用数据保护条例》(GDPR)或《加州消费者隐私法案》(CCPA)等隐私法规中所见的情况。在法规推动变革之前,此类流程的实施不太可能实现。 应用程序代码风险 –...