思想领袖

人工智能/机器学习策略中偏见的危害及其解决方法

发布于 2024年4月18日

更新于 2026年5月21日

作者

Adi Hirschtein, Duality Technologies产品副总裁

‘偏见’是指模型对输入数据或提示做出不准确的响应，因为它没有被训练以足够高质量和多样化的数据来提供准确的响应。一个例子是苹果的面部识别解锁功能，它在较暗的皮肤色调上失败的频率远高于较浅的色调。这个模型没有被训练足够多的较暗皮肤色调的图像。这是一个相对低风险的偏见例子，但这正是为什么欧盟人工智能法案提出要求在上市前证明模型的有效性（和控制）的原因。影响业务、财务、健康或个人情况的模型输出必须是值得信赖的，否则它们将不被使用。

用数据解决偏见问题

大量高质量数据

在许多重要的数据管理实践中，克服和最小化人工智能/机器学习模型中的偏见的关键组成部分是获取大量高质量、多样化的数据。这需要与拥有此类数据的多个组织合作。传统上，数据获取和合作受到隐私和/或知识产权保护问题的挑战——敏感数据不能发送给模型所有者，模型所有者也不能冒着泄露其知识产权给数据所有者的风险。一个常见的解决方法是使用模拟或合成数据，这可能很有用，但与使用真正的、全上下文数据相比也有一些局限性。这就是隐私增强技术（PETs）提供答案的地方。
合成数据：接近但不完全

合成数据是人工生成的，模仿真实数据。这很难做到，但随着人工智能工具的出现，变得稍微容易了一些。好的合成数据应该具有与真实数据相同的特征距离，否则它将毫无用处。高质量的合成数据可以有效地增加训练数据的多样性，填补较小、边缘化人群或人工智能提供商没有足够数据的人群的空白。合成数据还可以用于解决在现实世界中可能很难找到足够数量的边缘情况。此外，组织可以生成一个合成数据集，以满足数据驻留和隐私要求，这些要求阻止了对真实数据的访问。这听起来很好；然而，合成数据只是解决方案的一部分，而不是全部解决方案。

合成数据的一个明显限制是它与现实世界的脱节。例如，仅使用合成数据训练的自动驾驶汽车将难以应对现实世界中意外的道路条件。另外，合成数据从用于生成它的真实世界数据中继承了偏见——这基本上否定了我们讨论的目的。总之，合成数据是微调和解决边缘情况的有用选项，但在显著提高模型有效性和最小化偏见方面，仍然依赖于访问真实世界数据。

更好的方法：通过PETs启用的工作流访问真实数据

PETs保护数据在使用过程中。当涉及人工智能/机器学习模型时，它们还可以保护正在运行的模型的知识产权——“一石二鸟”。利用PETs的解决方案提供了在之前由于数据隐私和安全问题而无法访问的真实、敏感数据集上训练模型的选项。这是解锁数据流以获取真实数据的最佳选择，从而减少偏见。但是，它实际上是如何工作的呢？

目前，主要选项从一个保密计算环境开始。然后，集成一个PETs基于的软件解决方案，使其开箱即用，同时解决了标准信任执行环境（TEE）中不包括的数据管理和安全要求。使用此解决方案，模型和数据在发送到安全计算环境之前都被加密。该环境可以托管在任何地方，这在解决某些数据本地化要求时很重要。这意味着模型知识产权和输入数据的安全性在计算过程中都得到维护——甚至信任执行环境的提供者也无法访问环境内的模型或数据。然后将加密的结果发送回进行审查，并且有日志可供审查。

这种流程解锁了最高质量的数据，无论它位于哪里或由谁拥有，创造了一条通往偏见最小化和高效模型的道路，我们可以信任这些模型。这也是欧盟人工智能法案在其要求中描述的内容，用于人工智能监管沙箱。

促进道德和法律合规

获取高质量的真实数据很困难。数据隐私和本地化要求立即限制了组织可以访问的数据集。为了实现创新和增长，数据必须流向能够从中提取价值的人。

欧盟人工智能法案第54条规定了“高风险”模型类型的要求，规定了在上市之前必须证明什么。简而言之，团队需要在人工智能监管沙箱中使用真实世界数据来展示足够的模型有效性和遵守标题III章2中详细的所有控制。这些控制包括监控、透明度、可解释性、数据安全、数据保护、数据最小化和模型保护——可以认为是DevSecOps + Data Ops。

第一个挑战将是找到一个真实的数据集来使用——对于此类模型类型，这本身就是敏感数据。没有技术保证，许多组织可能会犹豫是否要将他们的数据托付给模型提供者，或者他们可能不被允许这样做。此外，法案定义“人工智能监管沙箱”的方式本身就是一个挑战。一些要求包括保证数据在模型运行后从系统中删除，以及治理控制、执行和报告以证明这一点。

许多组织已经尝试使用开箱即用的数据清洗室（DCRs）和信任执行环境（TEEs）。但是，这些技术本身需要大量的专业知识和工作来实现和满足数据和人工智能监管要求。
DCRs更容易使用，但还不适用于更强大的人工智能/机器学习需求。TEEs是安全的服务器，但仍需要一个集成的协作平台才能快速使用。这，然而，确定了一个机会，PETs平台可以与TEEs集成，以消除这种工作，使人工智能监管沙箱的设置和使用变得微不足道，从而实现对敏感数据的获取和使用。

通过以保护隐私的方式启用对更多样化和全面的数据集的使用，这些技术有助于确保人工智能和机器学习实践符合与数据隐私相关的道德标准和法律要求（例如欧洲的GDPR和人工智能法案）。总之，虽然要求经常以听得见的抱怨和叹息来回应，但这些要求只是引导我们构建更好的模型，我们可以信任和依赖这些模型来做出重要的数据驱动的决策，同时保护用于模型开发和定制的数据主体的隐私。欧洲。

Adi Hirschtein, Duality Technologies产品副总裁

阿迪·希尔施泰因（Adi Hirschtein）是Duality Technologies的产品副总裁。他拥有超过20年的经验，曾担任高管、产品经理和企业家，在数据和人工智能领域的B2B初创公司中推动创新。在加入Duality之前，阿迪曾担任Iguazio（MLOps公司）的产品副总裁，该公司被麦肯锡收购，此前他曾在EMC担任产品总监，EMC通过收购另一家名为Zettapoint（数据库和存储公司）的初创公司而获得了该职位，在那里他曾担任产品副总裁，负责将产品从概念到市场渗透和增长。

Unite.AI

人工智能/机器学习策略中偏见的危害及其解决方法

用数据解决偏见问题

大量高质量数据

促进道德和法律合规

You may like