思想领袖
偏见将如何扼杀您的 AI/ML 策略以及如何应对
‘偏见’ 在任何类型的模型中描述了一种情况,即模型由于没有接受足够的高质量、多样化的数据训练,而无法对提示或输入数据做出准确的响应。一个例子是 Apple 的面部识别解锁功能,对于较暗的皮肤色素的人失败率明显高于较浅的色调。 模型没有接受足够的较暗皮肤人群的图像训练。这是一个相对低风险的偏见例子,但这正是为什么 EU AI 法案要求在上市前证明模型的有效性(和控制)如此重要的原因。对业务、财务、健康或个人情况有影响的模型输出必须值得信赖,否则它们不会被使用。
用数据解决偏见
大量高质量数据
在许多重要的数据管理实践中,克服和最小化 AI/ML 模型中的偏见的关键组成部分是获取大量高质量、多样化的数据。这需要与拥有此类数据的多个组织合作。传统上,数据获取和合作受到隐私和/或知识产权保护问题的限制——敏感数据不能发送给模型所有者,模型所有者也不能冒着泄露其知识产权给数据所有者的风险。一个常见的解决方法是使用模拟或合成数据,这可能很有用,但也存在与使用真实、完整上下文数据相比的局限性。这就是隐私增强技术(PETs)提供答案的地方。
合成数据:接近但不完全
合成数据 是人工生成的,以模拟真实数据。这很难做到,但随着 AI 工具的出现变得稍微容易了一些。高质量的合成数据应该具有与真实数据相同的特征距离,否则它将无用。高质量的合成数据可以有效地增加训练数据的多样性,通过填补较小、边缘化人群或 AI 提供商没有足够数据的人群的空白。合成数据还可以用于解决在现实世界中可能难以找到足够数量的边缘情况。此外,组织可以生成一个合成数据集,以满足数据驻留和隐私要求,这些要求可能会阻止访问真实数据。这听起来很好,但合成数据只是解决方案的一部分,而不是整个解决方案。
合成数据的一个明显限制是其与现实世界的脱节。例如,仅使用合成数据训练的自动驾驶汽车将难以应对现实世界中意外的道路条件。此外,合成数据继承了用于生成它的真实数据中的偏见——基本上破坏了我们讨论的目的。总之,合成数据是用于微调和解决边缘情况的有用选项,但在显著提高模型有效性和最小化偏见方面仍然依赖于访问现实世界的数据。
更好的方法:通过 PETs 启用的工作流使用真实数据
PETs 保护数据在使用时。当谈到 AI/ML 模型时,它们还可以保护正在运行的模型的知识产权——“一石二鸟”。使用 PETs 的解决方案提供了在以前由于数据隐私和安全问题而无法访问的真实、敏感数据集上训练模型的选项。这解锁了数据流到真实数据的最佳选择,以减少偏见。但是,它实际上是如何工作的?
目前,主要选项从一个保密计算环境开始。然后,集成一个基于 PETs 的软件解决方案,使其可以开箱即用,同时解决数据治理和安全性要求,这些要求不包括在标准的可信执行环境(TEE)中。使用此解决方案,模型和数据在发送到安全计算环境之前都被加密。环境可以托管在任何地方,这在解决某些数据本地化要求时很重要。这意味着在计算过程中,模型 IP 和输入数据的安全性都得到维护——甚至可信执行环境的提供者也无法访问环境内的模型或数据。然后将加密的结果发送回进行审查,并且日志可用于审查。
此流程解锁了无论数据位于何处或由谁拥有的最佳质量数据,创建了一条通往偏见最小化和高效模型的道路,这些模型是值得信赖的。这种流程也是 EU AI 法案在其要求中描述的 AI 监管沙盒。
促进道德和法律合规
获取高质量的真实数据很困难。数据隐私和本地化要求立即限制了组织可以访问的数据集。为了实现创新和增长,数据必须流向能够从中提取价值的人。
EU AI 法案的第 54 条规定了“高风险”模型类型的要求,规定了在将其推向市场之前必须证明什么。简而言之,团队需要在 AI 监管沙盒 中使用真实世界的数据来展示足够的模型有效性和遵守标题 III 章 2 中详细的所有控制。这些控制包括监控、透明度、可解释性、数据安全性、数据保护、数据最小化和模型保护——可以认为是 DevSecOps + 数据操作。
第一个挑战将是找到一个真实世界的数据集来使用——对于此类模型类型来说,这本质上是敏感数据。没有技术保证,许多组织可能会犹豫是否要将他们的数据托付给模型提供商,或者可能不被允许这样做。此外,法案定义“AI 监管沙盒”的方式本身就是一个挑战。一些要求包括保证数据在模型运行后从系统中删除,以及治理控制、执行和报告以证明它。
许多组织已经尝试使用开箱即用的数据清洁室(DCRs)和可信执行环境(TEEs)。但是,这些技术本身需要大量的专业知识和工作来实现和满足数据和 AI 监管要求。
DCRs 更容易使用,但尚未适用于更强大的 AI/ML 需求。TEEs 是安全的服务器,仍需要一个集成的协作平台才能快速有用。然而,这为隐私增强技术平台提供了与 TEEs 集成的机会,以消除这种工作,使 AI 监管沙盒的设置和使用变得简单,并因此使敏感数据的获取和使用变得简单。
通过以保护隐私的方式启用对更多样化和全面的数据集的使用,这些技术有助于确保 AI 和 ML 实践符合与数据隐私相关的道德标准和法律要求(例如欧洲的 GDPR 和 EU AI 法案)。总之,虽然要求通常会引起抱怨和叹息,但这些要求只是指导我们构建更好的、值得信赖的模型,以便为重要的数据驱动决策提供依据,同时保护用于模型开发和定制的数据主体的隐私。










