存根 偏见将如何扼杀您的 AI/ML 策略以及应对措施 - Unite.AI
关注我们.

思想领袖

偏见将如何扼杀你的人工智能/机器学习策略以及如何应对

mm

发布时间

 on

任何类型的模型中的“偏差”都描述了模型对提示或输入数据的响应不准确的情况,因为它没有接受足够的高质量、多样化的数据训练来提供准确的响应。一个例子是 苹果的面部识别手机解锁功能对于肤色较深的人来说失败率明显高于肤色较浅的人。 该模型没有接受过足够多的深色皮肤人的图像训练。这是一个风险相对较低的偏见例子,但这正是欧盟人工智能法案提出要求在进入市场之前证明模型功效(和控制)的原因。输出影响业务、财务、健康或个人状况的模型必须值得信赖,否则将不会被使用。

用数据解决偏见

海量高质量数据

在许多重要的数据管理实践中, 克服和最小化人工智能/机器学习模型中的偏差的关键部分是获取大量高质量、多样化的数据。这需要与拥有此类数据的多个组织进行协作。传统上,数据获取和协作受到隐私和/或知识产权保护问题的挑战——敏感数据无法发送给模型所有者,模型所有者也不能冒险将其知识产权泄露给数据所有者。一种常见的解决方法是使用模拟或合成数据,这可能很有用,但与使用真实的全上下文数据相比也有局限性。这就是隐私增强技术 (PET) 提供急需答案的地方。

合成数据:接近,但不完全一样

综合数据 是为了模仿真实数据而人工生成的。这很难做到,但通过人工智能工具变得稍微容易一些。高质量的合成数据应该具有与真实数据相同的特征距离,否则它不会有用。高质量的合成数据可以通过填补较小的边缘化人群或人工智能提供商根本没有足够数据的人群的空白,有效地提高训练数据的多样性。合成数据还可用于解决现实世界中可能难以找到足够数量的边缘情况。此外,组织可以生成合成数据集,以满足阻止访问真实数据的数据驻留和隐私要求。这听起来很棒;然而,合成数据只是拼图的一部分,而不是解决方案。

合成数据的明显局限性之一是与现实世界的脱节。例如,仅根据合成数据进行训练的自动驾驶汽车将难以应对真实的、不可预见的路况。此外,合成数据继承了用于生成它的现实世界数据的偏见——这几乎违背了我们讨论的目的。总之,合成数据是微调和解决边缘情况的有用选择,但模型功效和偏差最小化的显着改进仍然依赖于访问现实世界数据。

更好的方法:通过支持 PET 的工作流程获取真实数据

PET 在使用时保护数据。当涉及到AI/ML模型时,他们还可以保护正在运行的模型的IP——“二鸟一石”。利用 PET 的解决方案提供了在真实、敏感的数据集上训练模型的选项,而这些数据集以前由于数据隐私和安全问题而无法访问。将数据流解锁为真实数据是减少偏差的最佳选择。但它实际上是如何运作的呢?

目前,主要的选择是从机密计算环境开始。然后,与基于 PET 的软件解决方案集成,使其可以开箱即用,同时满足标准可信执行环境 (TEE) 中未包含的数据治理和安全要求。通过该解决方案,模型和数据在发送到安全的计算环境之前都经过加密。该环境可以托管在任何地方,这在解决某些数据本地化要求时非常重要。这意味着模型 IP 和输入数据的安全性在计算过程中都会得到维护,即使可信执行环境的提供者也无法访问其中的模型或数据。然后,加密结果将被发回以供审核,并且日志可供审核。

无论数据位于何处或由谁拥有,此流程都可以解锁最优质的数据,从而创建一条我们可以信任的偏差最小化和高效模型的路径。这一流程也是欧盟人工智能法案在人工智能监管沙箱的要求中所描述的。

促进道德和法律合规

获取高质量的真实数据非常困难。数据隐私和本地化要求立即限制了组织可以访问的数据集。为了实现创新和增长,数据必须流向那些能够从中获取价值的人。

欧盟人工智能法案第 54 条规定了“高风险”模型类型的要求,即在将其推向市场之前必须经过验证。简而言之,团队需要在内部使用真实世界的数据 人工智能监管沙箱 以证明足够的模型有效性以及对第三章第 2 章中详述的所有控制的合规性。这些控制包括监控、透明度、可解释性、数据安全、数据保护、数据最小化和模型保护——想想 DevSecOps + Data Ops。

第一个挑战是找到要使用的真实数据集,因为这对于此类模型类型来说本质上是敏感数据。如果没有技术保证,许多组织可能会犹豫是否信任模型提供商及其数据,或者不会被允许这样做。此外,该法案定义“人工智能监管沙盒”的方式本身就是一个挑战。其中一些要求包括保证模型运行后数据从系统中删除,以及治理控制、执行和报告来证明这一点。

许多组织已尝试使用开箱即用的数据洁净室 (DCR) 和可信执行环境 (TEE)。但是,就其本身而言,这些技术需要大量的专业知识和工作才能实施并满足数据和人工智能监管要求。
DCR 使用起来更简单,但还无法满足更强大的 AI/ML 需求。 TEE 是安全的服务器,仍然需要一个集成的协作平台才能快速发挥作用。然而,这为隐私增强技术平台提供了与 TEE 集成的机会,以消除这项工作,从而简化人工智能监管沙箱的设置和使用,从而简化敏感数据的获取和使用。

通过以保护隐私的方式使用更加多样化和全面的数据集,这些技术有助于确保人工智能和机器学习实践符合与数据隐私相关的道德标准和法律要求(例如欧洲的 GDPR 和欧盟人工智能法案)。总之,虽然需求常常伴随着可听见的咕噜声和叹息来满足,但这些需求只是指导我们构建更好的模型,我们可以信任和依赖这些模型来进行重要的数据驱动决策,同时保护用于模型开发的数据主体的隐私和定制。

Adi Hirschtein 是以下公司的产品副总裁 对偶技术。 Adi 拥有 20 多年担任高管、产品经理和企业家的经验,在主要专注于数据和人工智能领域的 B2B 初创公司的技术公司中建立和推动创新。在加入 Duality 之前,Adi 曾担任 Iguazio(MLOps 公司)的产品副总裁,该公司被麦肯锡收购;在此之前,他在 EMC 收购了另一家名为 Zettapoint(数据库和存储公司)的初创公司(他曾在 EMC 任职)后担任产品总监。作为产品副总裁,领导产品从诞生到市场渗透和增长。