访谈

Chester Leung,OPAQUE联合创始人兼AI平台负责人 – 采访系列

mm

Chester LeungOPAQUE 的联合创始人兼平台架构负责人,OPAQUE是一家A轮创业公司,正在构建能够让团队扩展企业数据管道的机密数据和AI平台,实现更快的洞察和可验证的隐私和控制。

此前,Chester是加州大学伯克利分校的计算机科学研究生,在那里他发表了同行评审的论文,并担任安全协作分析和机器学习的开源MC2项目的首席维护者。

您在UC伯克利RISELab创立OPAQUE之后,之前的工作是连接AI和安全系统。您看到的企业数据基础设施中的具体缺口是什么,导致了OPAQUE的创建?您的学术经验如何影响公司的方向?

当时,人们在学术界和工业界都非常关注利用机器学习来解决特定用例。在实验室中,我们非常幸运地拥有大型企业赞助商,他们帮助我们研究人员塑造我们的工作,以解决他们在组织中面临的更紧迫的问题。我们的团队特别有机会与科技和银行、金融服务和保险(BFSI)公司密切合作,共同解决围绕使用敏感但有价值的数据进行机器学习的艰难隐私问题。像所有AI领域一样,机器学习依赖于大量高质量的数据来产生有价值和强大的洞察。

我们在与亚马逊、Scotiabank和蚂蚁集团(当时称为蚂蚁金融)等团队合作时,反复遇到同样的模式:他们的机器学习驱动的项目由于使用敏感但关键数据的担忧而在投入生产之前停滞不前。换句话说,这些团队无法使用AI进行他们知道可以为公司带来价值的项目,不是因为AI技术的问题,而是因为他们无法获得正确的数据。

在OPAQUE,我们一直在解决同样的问题。帮助团队获得正确的数据,实现他们解锁或增强AI能力的目标。自从我们的研究日子以来,唯一的变化是问题的紧迫性:我们现在一致地看到AI采用和集成,继续被获取正确数据的瓶颈所阻碍,这已经成为公司范围内的战略性迫切需求。

在企业大量投资推理模型和代理AI的格局下,为什么您认为安全的数据管道比以往任何时候都更加重要?

安全的数据管道是企业构建推理模型和代理AI的基础。从训练这些推理模型到部署代理AI,所有这些都涉及敏感数据,并依赖于安全的数据管道。

例如,我们现在看到行业中越来越多的投资用于生成高质量的数据来训练这些模型。一些报告甚至预测,用于生成高质量数据的计算投资很快就会超过训练模型本身的计算投资。当然,数据生成是一个多步骤的过程,依赖于能够产生企业最有价值的知识产权的管道:高质量的特定领域数据,可以训练出能够产生巨大价值的下游模型。生成这些数据的投资是巨大的,而这些数据本身,考虑到其血统,实际上区分了一个企业与其竞争对手,作为其护城河。企业必须尽一切努力来保护其数据,实现利用其数据作为竞争优势。

OPAQUE的机密计算平台可以对加密数据进行分析。使其在企业环境中同时具备可扩展性和开发者友好性的核心技术挑战是什么?

我们的机密AI平台不仅可以对加密数据进行分析、机器学习和生成AI,还可以提供可验证的证明,证明您的数据仅以您期望和允许的方式使用。

可扩展性、开发和管理的核心挑战在于,使工作负载的编排在规模上既安全又可验证。特别是,许多企业今天使用托管云服务来扩展。这既可以节省成本,也很方便。然而,托管云服务中的一些软件子集本质上是由云提供商管理的。因此,挑战变成了,组织如何在不受其控制的软件上实现安全和验证?如果组织重新控制所有软件,它们将放弃使用托管服务的便利性和节省的成本,损失什么,并且会失去什么?

您曾说过,安全的设计架构可以提供持久的竞争优势。您能详细解释一下这一原则如何在企业AI团队中实际运作吗?

从两个角度来看待这个问题:产品角度和工程角度。

从产品角度来看,每个人都理解他们的数据是放射性的、护城河或两者兼而有之。企业在评估解决方案的数据隐私、安全性和主权方面变得越来越成熟。因此,任何构建处理企业数据的产品的团队都必须提供保证,处理的数据仅对授权方和实体可见和使用。安全的设计架构提供了信心,即数据隐私、安全性和主权是产品设计中的首要考虑因素,并且产品可以明确提供这些保证。

从工程角度来看,安全的设计架构更具可扩展性和未来证明性。法律、风险和合规团队正在变得越来越严格,以应对新出现的风险和法规。因此,工程组织应该从一开始就构建一个安全的企业AI系统,以避免在他们意识到现有系统不够安全和风险时重新架构和修补系统的需要。重新架构和修补需要花费数月甚至数年的宝贵工程带宽。

随着自主AI系统的演进,组织应该如何重新思考数据的角色——不仅仅是资源,还有防御性护城河?

业界日益达成共识,数据可能很快成为组织唯一的护城河。我们看到研究和工程人才,以及他们构建的卓越技术和产品,从一个组织跳到另一个组织。因此,许多组织能够提供相同的产品,支持相同的技术。

然而,组织的数据不能轻易转移到另一个组织——除非它被泄露。另外,正是这些数据可以使产品比竞争对手更具吸引力——更个性化、更定制、更特定于领域。组织必须尽一切努力来保护其数据,实现利用其数据作为竞争优势。

实践中,什么样的弹性AI管道,看起来如何,它又如何帮助公司避免在扩展AI部署时隐藏的成本或风险?

弹性的AI管道是可靠的、容错的,但最重要的是,端到端可验证的安全管道。在处理之前,公司应该验证输入管道的数据以及管道本身,以确保管道不会滥用数据。在处理过程中,AI管道应该是防篡改的,以确保没有人可以窃取正在处理的数据或歪曲提供的洞察。在处理之后,AI管道应该是可验证的审计,以便团队可以观察和解释AI管道的决策和轨迹,并且可以看到什么出了错,当事情出错时。

必须考虑不安全的、有缺陷的AI管道如何泄露组织的数据或专有模型,以及对公司的区别性因素或声誉的影响。更重要的是,当公司扩展AI部署到更关键和更有影响力的用例时,不安全的、无法解释的AI管道的风险会指数级增长。在一个已经使用AI增强的贷款决策和招聘决策的世界中,影响个人财务、职业的AI管道中的故意或无意的错误可能会对个人的生活产生戏剧性的影响。

许多企业专注于模型准确性或延迟。他们在数据完整性和长期运营风险方面忽略了什么?

虽然许多企业都关注模型或AI技术,但我一直相信,数据是部署价值创造AI的基本瓶颈。

拥有一个快速生成准确响应的模型,但该响应对最终用户无关紧要,这将产生零价值。为了构建一个独特的产品,企业必须确保他们的模型和由这些模型驱动的产品是使用高质量、相关的数据训练的。由于缺乏高质量输入数据而导致的数据卫生问题可能不会在几个月后才浮现。

其次,我们发现企业通常没有一个好的故事来检测数据漂移、污染或泄露,从而危及模型的完整性。这与我的第一点紧密相关,而这更像是一个反应性解决方案,使得评估和可观察性更加重要。

OPAQUE集成到现有的云栈中。您在企业部署中平衡采用便捷性与强大的安全保证方面学到了什么?

我们花了近十年时间,从研究开始解决这个问题。AI系统的可证明安全性,特别是在企业环境中,是一个非常困难的问题。它需要系统、安全、密码学和AI方面的专业知识。因此,我们遇到的大多数系统都没有从根本上安全——因为安全性很难实现。

在OPAQUE,我们构建了一个同时具备两方面优势的产品:从根本上可验证的安全性,但也可以通过云市场轻松部署,并且足够灵活地集成到新的和现有的AI应用程序中。

在AI管道和数据共享周围,正在出现哪些威胁或漏洞,企业领导者可能尚未充分欣赏?

在这个代理AI的黄金热潮中,我们看到的是盲目地急于部署能够与各种系统交互的AI代理。虽然这些代理可以提供价值,但它们也带来了巨大的风险,因为它们接触到许多具有有价值数据的系统。代理本质上是非确定性的,我们已经看到无数次代理偏离预期轨迹,做出我们不期望的事情。在一个数据是您唯一护城河的世界中,企业领导者应该始终质疑是否可以信任和依赖具有访问其所有数据的AI代理,不会无意中或故意滥用它。

随着全球AI监管的形成,您如何看待安全数据基础设施、模型问责制和合规性之间的相互作用在未来几年中的演变?

可验证的安全数据基础设施使模型和代理问责制成为可能。特别是,没有代理或模型的决策或工具使用的可验证证明,我们无法确定任何事情,因此我们将无法追溯问责制。随着AI越来越融入我们的日常生活,我们希望在AI中看到更多的可解释性和可观察性。然而,当AI可以以机器速度运行,而我们不能时,一个恶意的AI可以轻松地欺骗我们,构造虚假的历史。我们需要可验证性来让AI承担责任。

对我来说,监管合规性是非常被动的。法规的制定和通过的速度远远慢于技术创新。这将在AI帮助我们加快创新步伐时变得越来越明显。虽然合规性最终会驱使落后者采用安全的数据基础设施,但早期采用者和早期多数者认识到,这对于AI安全至关重要,并且会在合规性使其成为强制性之前就采用它。他们理解代理问责制,通过安全的数据基础设施实现,是采用他们自己的AI驱动产品的关键因素。

感谢这次精彩的采访,希望了解更多的读者可以访问OPAQUE

安托万是一位具有远见的领导者和Unite.AI的创始合伙人,他被对塑造和推广AI和机器人人的未来充满不动摇的热情所驱动。作为一位连续创业者,他相信AI将对社会产生与电力一样的颠覆性影响,他经常被听到对颠覆性技术和AGI的潜力大加赞赏。

作为一位未来学家,他致力于探索这些创新将如何塑造我们的世界。另外,他也是Securities.io的创始人,这是一个专注于投资于重新定义未来和重塑整个行业的尖端技术的平台。