访谈
迈克·卡普斯,Diveplane联合创始人兼CEO – 采访系列

迈克尔·卡普斯博士是一位知名技术专家,Diveplane Corporation的CEO。在联合创立Diveplane之前,迈克在电子游戏行业有着传奇般的职业生涯,他曾担任Epic Games的总裁,Epic Games是《堡垒之夜》和《战争与和平》等热门游戏的开发商。他的任期内,公司获得了数百个年度最佳游戏奖项,数十次会议主题演讲,一项终身成就奖,以及在美国最高法院成功为电子游戏辩护的自由言论权。Diveplane 提供了跨多个行业的AI驱动的商业解决方案。凭借六项专利获得批准和多项待批专利,Diveplane的可理解AI提供了对AI政策和数据隐私策略的完全理解和决策透明度。您成功地从Epic Games的电子游戏行业退休,现在是什么激励您重新从事AI领域的工作?制作游戏很有趣,但至少在那时,不是拥有新家庭的理想职业。我通过担任董事会成员和顾问角色保持忙碌,但这并不令人满意。所以,我列出了三个我可能能够影响的世界上面临的主要问题——包括黑盒AI系统的普遍存在。我的计划是花一年时间研究每个问题,但几周后,我的聪明朋友Chris Hazard告诉我,他已经秘密地开发了一个透明、完全可解释的AI平台。于是,我们就开始了这一切。Diveplane的使命是将人性带入AI,您能详细解释一下这意味着什么吗?当然。这里我们使用“人性”来表示“人道”或“同情心”。为了确保AI模型中包含人类的最佳品质,您不能只是训练、测试,然后希望一切都没问题。我们需要仔细审查输入数据、模型本身和模型的输出,并确保它反映了我们人性的最佳方面。大多数使用历史或现实世界数据训练的系统第一次不太可能是正确的,而且它们不一定是无偏见的。我们相信,消除模型中的偏差(即统计错误和偏见)的唯一方法是透明度、可审计性和人类可理解的解释的结合。Diveplane的核心技术称为REACTOR,它与传统的可解释机器学习方法相比有什么独特之处?机器学习通常涉及使用数据构建一个模型,该模型做出特定类型的决策。这些决策可能包括为车辆转动轮子的角度,是否批准或拒绝购买或将其标记为欺诈,或者向某人推荐哪种产品。如果您想了解模型如何做出决策,您通常需要问它很多类似的决策,然后尝试预测模型本身可能会做什么。机器学习技术要么受到其可以提供的见解类型的限制,要么受到其见解实际上反映模型做出决策的方式的限制,要么具有较低的准确性。使用REACTOR则完全不同。REACTOR表征您的数据的不确定性,您的数据成为模型。您不需要为每种决策类型构建一个模型,您只需要问REACTOR您想让它做出什么决定——它可以与数据相关的任何内容——REACTOR查询需要什么数据来做出特定决策。REACTOR始终可以向您展示它使用的数据、数据与答案的关系、不确定性的每个方面、对比性推理以及您可能想要提出的任何其他问题。由于数据是模型,因此您可以编辑数据,REACTOR将立即更新。它可以向您展示是否有任何数据在决策中看起来异常,并追溯到数据和其来源的每个编辑。REACTOR使用从上到下的概率理论,这意味着我们可以告诉您其操作的每个部分的测量单位。最后,您可以使用仅导致决策的数据和不确定性来复制和验证任何决策,使用相对简单的数学方法,无需REACTOR。REACTOR能够在保持高度竞争性准确性的同时执行所有这些操作,尤其适用于小型和稀疏数据集。GEMINAI是一种可以构建数据集数字孪生的产品,这具体意味着什么,以及它如何确保数据隐私?当您将数据集输入GEMINAI时,它会对该数据的统计形状有深入的了解。您可以使用它来创建一个合成的孪生体,该孪生体类似于原始数据的结构,但所有记录都是新创建的。但是,统计形状是相同的。例如,原始数据集和合成数据集中的患者心率均值将几乎相同,所有其他统计数据也将相同。因此,使用孪生体的任何数据分析都将给出与原始数据相同的答案,包括训练机器学习模型。如果有人在原始数据中有记录,则在合成孪生体中将没有他们的记录。我们不仅仅是删除名称——我们确保在信息空间中没有新记录与原始记录(和其他记录)“接近”。即,在原始集和合成集中没有可识别的记录。这意味着,合成数据集可以更自由地共享,而无需风险地共享机密信息。无论是个人财务交易、患者健康信息、机密数据——只要数据的统计信息不是机密的,合成孪生体就不是机密的。为什么GEMINAI比使用差异隐私更好?差异隐私是一组保持任何个人影响统计数据的概率仅在一个小量级上的技术,是几乎任何数据隐私解决方案的基本组成部分。然而,当差异隐私单独使用时,需要管理数据的隐私预算,并为每个查询添加足够的噪音。一旦使用了该预算,数据就不能再次使用,而不会带来隐私风险。克服这一预算的一种方法是将完整的隐私预算一次性应用于训练机器学习模型以生成合成数据。该想法是,这个使用差异隐私训练的模型可以相对安全地使用。然而,正确应用差异隐私可能很棘手,特别是如果不同个人的数据量不同,并且存在更复杂的关系,例如同一户口的人。并且,由该模型生成的合成数据可能会因过于相似而包含真实数据,这可能会被个人声称为自己的数据。GEMINAI通过在合成数据时结合多种隐私技术来解决这些问题和更多问题。它使用了一种适合广泛数据类型的差异隐私的适当形式。它建立在我们的REACTOR引擎之上,因此它还知道任何数据片段可能被混淆的概率,并合成数据以确保它始终与原始数据足够不同。此外,它将每个字段、每个数据片段视为潜在敏感或识别信息,因此它对不传统地认为是敏感的字段(但可能唯一地识别个人,例如24小时商店中2点至3点之间的唯一交易)应用差异隐私的实际形式。我们经常将其称为隐私交叉切割。GEMINAI能够实现几乎所有目的的高准确性,看起来与原始数据相同,但防止任何人找到与原始数据过于相似的合成数据。Diveplane在数据与信任联盟的共同创立中发挥了重要作用,这个联盟是什么?这是一个由技术CEO组成的绝佳团队,共同开发和采用负责任的数据和AI实践。像IBM、强生、万事达卡、UPS、沃尔玛和Diveplane这样的世界级组织。我们为能够参与早期阶段而感到自豪,也为我们在各项倡议上共同取得的成就感到自豪。Diveplane最近成功完成了A轮融资,这将对公司的未来产生什么影响?我们很幸运能够在企业项目中取得成功,但一次性改变世界是很困难的。我们将利用这项支持来建立我们的团队、分享我们的信息,并将可理解的AI带到尽可能多的地方!您是否还有其他关于Diveplane的信息想要分享?Diveplane致力于确保AI以正确的方式传播。我们致力于公平、透明和可理解的AI,主动展示驱动决策的因素,远离AI中可能不公平、不道德和有偏见的“黑盒”心态。我们相信可解释性是AI的未来,我们很高兴能够在推动这一进程中发挥关键作用!感谢您这次精彩的采访,希望了解更多的读者可以访问Diveplane。
