访谈

英吉·齐丹博士,Protege 首席科学官和联合创始人 – 采访系列

mm

英吉·齐丹博士,Protege 首席科学官和联合创始人,是一位应用微观经济学家,她的工作处于学习科学、行为经济学和大规模数据分析的交叉点,将学术严谨性带入迅速发展的 AI 数据层。凭借在印第安纳大学和塔兰大学担任助理教授的背景,她的研究重点是健康政策、激励措施和使用复杂数据集的现实世界结果。在 Protege,她应用因果推断和计量经济学方法,以确保训练数据系统是可衡量的、可复制的和科学验证的。她还领导了公司的研究机构 DataLab,在那里她监督经济学家、机器学习研究人员和领域专家的跨学科团队,共同努力改进 AI 数据集的设计、评估和部署, 将数据视为模型性能和可靠性的核心驱动因素,而不仅仅是模型本身。

Protege 是一个专注于解锁高质量、现实世界数据集的 AI 数据平台,以解决现代 AI 开发中最大的瓶颈之一:数据质量。通过其 DataLab 计划,公司正在建立一个研究驱动的框架,用于数据集创建、评估和基准测试,帮助 AI 系统在现实世界环境中更可靠地运行。该平台在医疗保健、媒体和科学研究等行业中工作,生产反映现实世界复杂性的结构化数据集和基准,而不是合成近似值。通过将科学方法与商业应用相结合,Protege 旨在将数据提升到与模型和计算相同的重要性水平,成为下一代 AI 系统的关键基础设施。

您的学术工作涵盖了健康经济学、因果推断和大型现实世界数据集,您现在帮助建立了一个专注于为 AI 提供动力的数据层的公司。是什么样的经历和见解让您帮助创建了 Protege,并且这些见解如何塑造了公司的愿景和获得早期资金的能力?

我的经济学训练是一切的基础。经济学家被训练来理解偏差、经典和非经典测量误差,以及它们的下游后果,这恰恰是 AI 数据空间所缺乏的。这种基础知识并不特定于医疗保健或传统意义上的数据科学;它是关于理解当模型输入系统时会发生什么。当您将一位被训练为以这种方式思考的人带入数据策展时,所产生的数据自然带有这种严谨性。

至于公司的愿景,我想在这里对其起源保持真实。 当你只有三个人开始时,没有关于宏伟愿景的文件。 只有做事情。真正的信号是我们所生产的东西正在产生共鸣。所以我们只是做得更多。

Protege最近推出了DataLab作为一个新的研究机构,专注于推进AI数据的科学。是什么样的挑战让您相信数据集和评估需要专门的研究工作?

DataLab被建立来解决的一个问题,经济学家称之为“柠檬市场”问题。经济学家乔治·阿克洛夫的“柠檬市场”问题描述了一个二手车市场,买家在购买前无法区分好车和坏车(“柠檬”),因此他们最终支付平均价格。当这种情况发生时,真正好车的卖家没有动力参与,因为市场没有适当地奖励他们,质量会随着时间的推移而下降。这正是AI数据市场在某些领域发生的事情,很难区分好数据和坏数据。

数据质量极难在激活之前评估。您需要有深入的领域知识、足够的时间,甚至这样,您仍然可能被误导。因此,对于模型构建者来说,信息不对称的问题会减慢整个管道的速度。它使数据采购变得痛苦,低估了真正生产高质量数据的人的价值,并且会侵蚀市场整体的信任。基准通常无法捕捉到现实世界用例的复杂性,在这种用例中,静态响应不能反映纵向、多模态决策。

DataLab的创建是为了成为恢复市场对数据真实价值的信任的机制。通过了解其领域、其背景和其缺陷,并以严格、可重复的方式关闭该循环。 这不是一个采购功能。这是一个科学挑战,核心基于质量、表示、污染控制和安全。 这就是为什么我们相信数据需要有自己的专门研究工作。

多年来,行业对话集中在模型和计算上。您为什么认为AI的下一个进步阶段将更多地依赖于数据的质量、结构和评估?

您可以将计算视为模型大小乘以数据。数据是一个核心组件。因此,在糟糕的数据上扩大计算并不是进步;这是一种浪费。

在该领域正在进行的一场辩论是,模型大小与数据质量对智能增益的贡献更大。在任何市场段中,首先被收集和使用的数据集总是最容易找到的数据集。这就是市场的运作方式。能够进一步推动进步的数据集更难被发现、更难被结构化和更难被评估。未能包含这些数据集一直是一个限制因素。

医疗保健是一个明显的例子。今天的模型大约处于住院医师的水平,这很令人印象深刻。但是它们还没有达到首席住院医师的水平。这是因为高级临床医生所知道的东西来自多年的积累经验,这些经验极难在容易找到和标记的低垂果数据中捕捉到。那是一个数据问题,而不是模型架构问题。

DataLab已经与几家前沿的AI公司合作。从您与这些实验室的讨论中,您在当前的训练和评估数据集设计中看到的最常见的弱点是什么?

最诚实的答案是,评估数据非常耗时。我相当确定,如果您是训练模型的研究人员,并且您没有真正坐下来读过数据,那么您可能犯了一个严重的错误。并且,公平地说,大多数研究人员都做了这个努力。问题是,做好这件事、规模化并且真正做得好是非常困难的。

考虑一下彻底的评估实际上需要什么。您需要评估数据是否无偏差、是否以不明显的方式被审查、以及是否嵌入有毒或其他问题元素。要可信地做到这一点,您需要真正的领域知识。您需要了解数据来自哪里、看起来是什么样子、如何收集以及由谁收集。通过组装所有这些组件并仔细工作,三到四周已经过去了。然后您必须再次为下一个数据集做同样的事情。

该摩擦在整个组织中都会出现。它减慢了训练管道的速度,会在评估中施加压力,会使数据集的弱点只在模型已经在其上构建之后才变得明显。挑战不是人们不关心数据质量;而是评估数据的基础设施和工具以严格、快速和重复的方式不存在。 ​​​​​​​​​​​​​​​​

您经常描述将数据视为一门科学的必要性。组织开始以与其他科学领域相同的严谨性对待数据集设计和评估时会发生什么变化?

当组织开始以与其他科学领域相同的严谨性对待数据时,首先发生变化的是文化。最明显的模型来自 1980 年代的经济学,一个被称为可信度革命的转折点。社会科学在那时可以发表几乎任何东西——一个假设、几个支持例子和从时间序列趋势中得出的结论。研究人员开始说,“不要给我看时间序列趋势,给我准实验。”这导致了更多的反事实和对待与未对待比较,可以真正分离出因果关系。

核心的经验教训是,很容易欺骗自己,认为自己拥有良好的数据,而实际上并非如此。解药是一种怀疑和健全性检查的文化——积极尝试破坏自己的发现,运行可能使结果看起来很差的测试,而不仅仅是那些确认您希望看到的结果的测试。如果您跳过这一步,您就不是在做科学;您只是在讲述一个您已经想要讲述的故事。

这是严谨性真正带来的区别,它直接适用于数据集设计和评估。问题不是您的数据集在表面上看起来很好;问题是您是否运行了可能表明它不好的检查,并且您是否诚实地报告了这些结果。两个团队可以使用相同的原始材料,但从一开始就构建了怀疑的团队将产生出本质上更可靠的东西。科学诚信意味着愿意发现自己可能出错的地方。

基准测试在行业如何衡量AI系统的进步方面发挥着重要作用。当前的评估框架存在哪些缺陷,哪些新方法可能会产生更可靠的模型性能评估?

基准测试市场正在迅速扩张,这确实令人鼓舞。正在进行的工作跨越了一个广泛的范围——从内部有效性,目标是设计足够严格的评估,以至于您实际上相信结果,到外部有效性,模型在实时部署条件下进行测试,并根据模型的有用性进行评估。整个范围内都有重要的工作正在进行,简单的答案是,我们只需要更多这样的基准测试。

但更深层次的问题不是基准测试的数量——而是每个人都以不同的方式构建它们。没有一个标准来说明它们的构建方式,因此结果指标有很大差异,很难对它们进行可靠的评估。我曾经有一个公共经济学教授,他曾经说过,“你永远不知道后面发生了什么。”这句话恰好抓住了基准测试的问题。一个实验室可能会将一个模型与 70 个结果进行测试,然后只发布最好的 30 个结果,并说该模型在这 30 个方面非常出色。现在,模型提供者有很大的动力将结果呈现得有利于自己。

需要一个公正的评估标准。科学研究中已经反复证明,发表偏差会塑造人们对什么有效的看法。同样的动态正在 AI 评估中发生。解决方案不是要求模型提供者更加透明,因为他们有很大的动力将结果呈现得有利于自己。该领域需要的是一个外部于被评估模型的组织所制定的评估设计和报告标准。没有这样的标准,基准测试将继续衡量实验室希望展示的内容,而不是模型实际做了什么。

DataLab专注于与研究人员的合作、新的数据集和数据产品的开发以及学术研究。这些领域如何共同作用以在AI系统中创造可衡量的改进?

DataLab与AI研究人员的合作、我们开发的数据产品以及我们自己的学术研究都是一个系统的组成部分,旨在创建数据市场中的对称信息。目前,数据市场存在一个问题:即数据市场具有不对称信息,购买数据的人无法可靠地评估其质量,然后再使用它,而生产好数据的人没有被充分奖励。我们的与AI研究人员在模型提供商处的合作使DataLab直接进入了模型开发的数据层面。这很重要,因为构建模型的人知道数据在哪里失败了——哪些功能没有按预期发展,哪些评估持续产生无法在部署中保持的结果。与他们并肩工作意味着反馈是立即的和具体的,而不是间接的和概括的。

我们进行学术研究,并与领域专家合作,带来一个独立的审查层,提出关于数据集的问题,持有利益相关者不会想到的问题。数据产品是这些想法在市场中接受压力测试的地方。可衡量的改进来自于反复关闭这个循环。我们构建一些东西,运行健全性检查,找出它在哪里会崩溃,然后将其反馈到研究中。经过这种循环的数据集与没有经过这种循环的数据集根本不同——不因为原始材料从一开始就更好,而是因为该过程的设计是为了找到问题,而不是忽略它们。

您的研究背景包括使用复杂的现实世界数据集,例如电子健康记录、索赔数据和图像数据。这种经验如何影响您对构建可靠数据集的看法?

使用电子健康记录、索赔数据和图像数据使一件事变得明显:没有一个是为您使用它的目的而创建的。临床笔记是为计费而写的。索赔数据是为报销而生成的。成像是为诊断而捕获的。每一个数据集都是一个代理——一个系统需要记录的记录,而不是您实际想要知道的精确测量。您需要做的工作就在数据和您需要它成为的东西之间的差距中。

这种经验形成了一个特定的直觉:在对数据集做任何其他事情之前,您必须了解其原始目的。谁收集了数据,在什么激励下,什么缺口,在什么原始目的下?一个看似全面的索赔数据集可能会系统地代表那些与医疗保健系统交互不频繁的人口。一个看似干净的成像数据集可能已经以删除对您试图回答的问题最重要的信号的方式进行了预处理。

构建可靠数据集的实际含义是,规模不是设计的替代品。没有考虑到来源的数据集只会随着其增长而更加自信地错误。真正建立信任的是重复的审计、对限制的诚实记录和领域专家的专业知识,可以告诉您数据无法看到的内容,而不仅仅是它可以看到的内容。

Protege的更广泛的愿景涉及将多个数据集链接在一起,例如临床笔记、基因组学、成像和索赔数据。多模态数据为AI创造了什么新的可能性,并且管理相关风险需要什么样的保障措施?

世界是多模态的。您永远不会仅凭文本就能接受临床诊断。其他属性很重要,例如成像结果、实验室值、索赔历史、基因标记等。即使所有这些组合在一起,也不能完美地代表正在发生在人体中的事情。我曾经与一位研究人员合作过,他说得很好:所有的医疗保健数据都不是对健康的完美代理;它只是一个代理。含义是,链接的模态越多,您就越接近实际要建模的底层现实。

当AI系统在多模态数据上训练时,它们能够像临床医生一样在分层、纵向图像上进行推理。

保障的提问是赌注变得非常具体的地方。任何数据集在某个时候出现在互联网上的概率并非可以忽略不计——最近的安全漏洞已经表明了这一点。任何花费大量时间阅读医疗记录的人都知道这些信息有多敏感。人们与医生分享的内容可以毁掉事业、损害关系并造成真正的伤害,如果它曾经公开的话。

在Protege,我们遵循的一个原则是,我们不自我认证我们的数据。我们使用第三方认证机构,即使我们有法律许可自己进行认证。推理很简单:优化函数不仅仅是最大化数据效用;它是最大化数据效用,受隐私约束。

随着AI系统越来越多地集成到高风险行业中,什么样的标准应该出现,以确保未来AI系统既可靠又安全?

AI领域关于标准的对话往往集中在技术故障模式上,例如提示产生不准确答案的提示或在部署中表现出意外行为的模型。这些很重要,该领域在数据文档、评估严谨性和隐私约束方面取得了真正的进步,但仍有一个更广泛的标准,行业尚未找到一种诚实的方式来讨论它,这个标准对最多的人产生了最大的后果。

AI正在重塑工作。您可以为“工作”这个词找到很多同义词;它是一种赚取生计的方式,但它也是人们生活中的目的。乐观主义者的故事指出,穴居人学会制造刀片,然后看着制造业使这种技能过时,并在几代人中发展出完全新的专业知识。人类劳动的弧线一直朝着适应的方向发展。但是,当被取代的人没有几十年的时间或教育基础来转向不存在的专业知识时,这个故事就更难应用了。对话的诚实版本同时承认这两点。

该行业需要的不仅仅是数据集和基准的技术标准。它需要愿意询问哪些任务正在被取代,以什么速度,以及对所涉及的人和社区的下游影响是什么。这也是一个标准。

这些劳动生产力标准是否应该与文档要求和评估框架并列?我们在DataLab并不处于能够独自进行这次对话的位置。我们在Protege出售数据,这意味着我们不是一个中立的方。然而,我们也是这个经济的一部分,所以是我们的家庭。我们能做的最起码的事情就是对复杂性保持诚实,明确地命名权衡,并推动真正需要的跨行业对话。感谢您这次精彩的采访,希望您能通过访问ProtegeDataLab计划或英吉·齐丹的个人网站来了解更多信息。

安托万是一位具有远见的领导者和Unite.AI的联合创始人,他对塑造和推广人工智能和机器人技术的未来充满热情。作为一位连续创业者,他相信人工智能将对社会产生电力的影响一样的颠覆性影响,并经常被发现对颠覆性技术和通用人工智能的潜力大肆赞扬。

作为一位未来学家,他致力于探索这些创新将如何塑造我们的世界。另外,他还是Securities.io的创始人,这是一个专注于投资尖端技术的平台,这些技术正在重新定义未来并重塑整个行业。