面试

Ittai Dayan，医学博士、Rhino Health 联合创始人兼首席执行官 – 访谈系列

更新 on 2022 年 11 月 14 日

Ittai Dayan 医学博士是联合创始人兼首席执行官犀牛健康。他的背景是开发人工智能和诊断，以及临床医学和研究。他是 BCG 医疗保健实践的前核心成员和医院高管。他目前专注于为医疗保健和生命科学行业安全、公平和有影响力的人工智能的发展做出贡献。在 Rhino Health，他们使用分布式计算和联合学习作为维护患者隐私和促进分散的医疗保健领域协作的手段。

他曾在以色列国防军特种部队服役，领导过世界上最大的基于学术医学中心的转化人工智能中心。他是人工智能开发和商业化方面的专家，也是一名长跑运动员。

您能分享一下 Rhino Health 背后的起源故事吗？

我的人工智能之旅始于我还是一名临床医生和研究人员时，使用早期形式的“数字生物标记”来测量精神障碍的治疗反应。后来，我继续领导麻省总医院的临床数据科学中心 (CCDS)。在那里，我监督了数十个临床人工智能应用程序的开发，并亲眼目睹了与访问和“激活”开发和培训监管级人工智能产品所需的数据相关的潜在挑战。

尽管医疗保健人工智能取得了许多进步，但从开发到在市场上推出产品的道路漫长且常常坎坷。一旦在临床上部署，解决方案就会崩溃（或者只是令人失望），并且如果不持续访问大量临床数据，那么支持整个人工智能生命周期几乎是不可能的。挑战已从创建模型，到维持他们。为了应对这一挑战，我让麻省总医院布里格姆系统相信拥有自己的“人工智能专业 CRO”（CRO = 临床研究组织）来测试来自多个商业开发人员的算法的价值。

然而，问题仍然存在——健康数据仍然非常孤立，即使来自一个网络的大量数据也不足以应对医疗人工智能日益狭窄的目标。 2020 年夏天，我（与 NVIDIA 的 Mona Flores 博士一起）发起并领导了当时世界上最大的医疗保健联邦学习 (FL) 研究 EXAM。我们使用 FL 创建了一个新冠病毒结果预测模型，利用来自世界各地的数据，但不共享任何数据。随后发表于自然医学，这项研究证明了利用多样化和不同数据集的积极影响，并强调了联邦学习在医疗保健领域更广泛使用的潜力。

然而，这一经验阐明了许多挑战。其中包括跨协作站点编排数据、确保数据可追溯性和正确的特征描述，以及每个机构 IT 部门的负担，他们必须学习他们不习惯的尖端技术。这就需要一个新的平台来支持这些新颖的“分布式数据”协作。我决定与我的联合创始人 Yuval Baror 合作，创建一个端到端平台来支持隐私保护协作。该平台就是“Rhino Health Platform”，利用 FL 和边缘计算。

为什么您认为人工智能模型常常无法在医疗保健环境中提供预期结果？

医疗人工智能通常在小型、狭窄的数据集上进行训练，例如来自单个机构或地理区域的数据集，这导致生成的模型仅在其见过的数据类型上表现良好。一旦算法应用于与狭窄训练数据集不同的患者或场景，性能就会受到严重影响。

安德鲁·吴（Andrew Ng）很好地抓住了这个概念，他说：“事实证明，当我们从斯坦福医院收集数据时……我们可以发表论文，证明[算法]在发现某些情况方面与人类放射科医生相当。 ...... [当]你将相同的模型、相同的人工智能系统带到街上的一家旧医院，使用一台旧机器，并且技术人员使用略有不同的成像协议时，数据漂移会导致人工智能系统的性能下降显著地。”³

简而言之，大多数人工智能模型都没有接受足够多样化和高质量的数据训练，导致“现实世界”的表现不佳。这个问题在科学界和主流界都有详细记录，例如科学和政治.

对不同患者群体进行测试有多重要？

对不同患者群体进行测试对于确保最终的人工智能产品不仅有效、高性能而且安全至关重要。未经针对足够多样化的患者群体进行训练或测试的算法可能会遭受算法偏差，这是医疗保健和医疗保健技术中的一个严重问题。此类算法不仅会反映训练数据中存在的偏见，还会加剧这种偏见并加剧医疗保健领域现有的种族、民族、宗教、性别等不平等现象。未能对不同的患者群体进行测试可能会导致产生危险的产品。

最近发表的研究⁵利用 Rhino Health 平台，研究了一种人工智能算法的性能，该算法使用各种扫描仪类型在四个不同地点的一个地点开发检测脑动脉瘤。结果表明，具有各种扫描仪类型的站点的性能存在显着差异，强调了对不同数据集进行训练和测试的重要性。

如何确定某个亚群体是否没有代表性？

一种常见的方法是单独或组合分析不同数据集中变量的分布。这可以在准备“训练”数据集和验证数据集时为开发人员提供信息。 Rhino Health 平台允许您做到这一点，此外，用户可以看到模型在不同群体中的表现，以确保跨亚群体的普遍性和可持续表现。

您能否描述一下什么是联邦学习以及它如何解决其中一些问题？

联邦学习 (FL) 可以广义地定义为使用不同的数据训练人工智能模型，然后随着时间的推移不断改进的过程，而不需要共享或集中数据。这是人工智能发展的巨大飞跃。从历史上看，任何希望与多个站点协作的用户都必须将这些数据集中在一起，从而导致大量繁重、昂贵且耗时的法律、风险和合规性工作。

如今，借助 Rhino Health Platform 等软件，FL 正在成为医疗保健和生命科学领域的日常现实。联合学习允许用户探索、管理和验证数据，同时数据保留在协作者的本地服务器上。容器化代码（例如 AI/ML 算法或分析应用程序）被分派到本地服务器，在本地服务器上“本地”执行该代码，例如 AI/ML 算法的训练或验证。因此，数据始终由“数据保管人”保管。

医院尤其担心与汇总敏感患者数据相关的风险。这已经导致了尴尬的局面，很明显，医疗保健组织在不准确了解其数据用途的情况下与行业合作。反过来，它们限制了行业和学术研究人员可以进行的协作量，从而减慢了研发速度并影响了整个医疗保健行业的产品质量。 FL 可以缓解这种情况，并以前所未有的方式实现数据协作，同时控制与这些协作相关的风险。

您能否分享一下 Rhino Health 通过使用更多样化的数据来实现快速模型创建的愿景？

我们设想了一个由人工智能开发人员和用户组成的生态系统，可以毫无恐惧或约束地进行合作，同时尊重法规的界限。合作者能够快速识别来自不同地理位置的必要培训和测试数据，访问这些数据并与之交互，并迭代模型开发以确保足够的通用性、性能和安全性。

其中的关键是 Rhino Health 平台，为人工智能开发人员提供“一站式”服务，以构建海量且多样化的数据集、训练和验证人工智能算法，并持续监控和维护已部署的人工智能产品。

Rhino Health 平台如何防止人工智能偏见并提供人工智能可解释性？

通过解锁和简化数据协作，人工智能开发人员能够在其应用程序的训练和测试中利用更大、更多样化的数据集。更强大的数据集的结果是一个更通用的产品，不会受到单个机构或狭窄数据集的偏见的影响。为了支持人工智能的可解释性，我们的平台可以清晰地了解整个开发过程中使用的数据，并能够分析数据来源、价值分布和其他关键指标，以确保足够的数据多样性和质量。此外，我们的平台还支持简单地将数据汇集在一起所无法实现的功能，包括允许用户使用其他变量（例如根据现有数据点计算的变量）进一步增强其数据集，以研究因果推理并减少混杂因素。

对于担心过度依赖人工智能可能导致未经独立验证的有偏见的结果的医生，您有何回应？

我们同情这种担忧，并认识到当今市场上的许多应用程序实际上可能存在偏见。我们的回应是，作为一个首先关心患者安全的医疗保健社区，我们必须团结起来，制定政策和程序来防止此类偏见并确保安全、有效的人工智能应用。人工智能开发人员有责任确保其上市的人工智能产品经过独立验证，以获得医疗保健专业人员和患者的信任。 Rhino Health 致力于支持安全、值得信赖的人工智能产品，并与合作伙伴合作，通过消除必要验证数据的障碍，在临床环境中部署之前启用和简化人工智能应用程序的独立验证。

您对医疗保健领域人工智能的未来有何愿景？

Rhino Health 的愿景是建立一个人工智能在医疗保健领域充分发挥潜力的世界。我们正在努力通过维护隐私来创造透明度并促进合作，以实现这个世界。我们设想医疗保健人工智能不受防火墙、地理位置或监管限制的限制。人工智能开发人员将能够控制对构建强大的、通用模型所需的所有数据的访问，并通过实时数据流持续监控和改进它们。提供者和患者将有信心知道他们不会失去对数据的控制，并且可以确保数据得到良好的利用。监管机构将能够实时监控制药和设备开发中使用的模型的功效。公共卫生组织将从人工智能的这些进步中受益，而患者和提供者则可以放心，因为他们知道隐私受到保护。

感谢您的精彩采访，想要了解更多信息的读者可以访问犀牛健康.

联合人工智能

Ittai Dayan，医学博士、Rhino Health 联合创始人兼首席执行官 – 访谈系列

面试

Ittai Dayan，医学博士、Rhino Health 联合创始人兼首席执行官 – 访谈系列

目录

联合人工智能

Ittai Dayan，医学博士、Rhino Health 联合创始人兼首席执行官 – 访谈系列

目录

你可能会喜欢