访谈

伊泰·达扬(Ittai Dayan),MD,犀牛健康(Rhino Health)的联合创始人兼首席执行官 – 采访系列

mm

伊泰·达扬(Ittai Dayan),MD,是犀牛健康(Rhino Health)的联合创始人兼首席执行官。他的背景是开发人工智能和诊断,以及临床医学和研究。他曾是波士顿咨询公司(BCG)医疗保健实践和医院高管的核心成员。目前,他专注于为医疗保健和生命科学行业开发安全、公平和有效的人工智能做出贡献。在犀牛健康,他们使用分布式计算和联邦学习作为维护患者隐私和促进医疗保健分散景观中合作的一种手段。

他曾在以色列国防军(IDF)特种部队服役,领导了世界上最大的学术医疗中心基于的翻译人工智能中心。他是人工智能开发和商业化的专家,也是一名长距离跑者。

您能否分享犀牛健康背后的创立故事?

我进入人工智能领域始于我作为一名临床医生和研究人员,使用早期的“数字生物标志”来衡量精神障碍的治疗反应。后来,我在马萨诸塞州总医院(Mass General Brigham)领导了临床数据科学中心(CCDS)。在那里,我监督了几十个临床人工智能应用的开发,并亲眼目睹了开发和训练监管级人工智能产品所需的数据访问和“激活”的根本挑战。

尽管医疗保健人工智能取得了许多进步,但从开发到推出产品的道路往往漫长而坎坷。解决方案在部署到临床环境中时可能会崩溃(或仅仅令人失望),而没有持续访问大量临床数据,几乎不可能支持整个人工智能生命周期。挑战已经从创建模型转变为维护模型。为了应对这一挑战,我说服马萨诸塞州总医院系统相信拥有自己的“专门的CRO(临床研究机构)用于人工智能”的价值,以测试多个商业开发者的算法。

然而,问题仍然存在 – 医疗保健数据仍然非常分散,即使来自一个网络的大量数据也不足以应对医疗人工智能日益狭窄的目标。2020年夏天,我启动并领导(与NVIDIA的Mona Flores博士一起)当时世界上最大的医疗保健联邦学习(FL)研究,EXAM。我们使用FL创建了一个预测COVID结果的模型,利用来自世界各地的数据,而无需共享任何数据。随后在Nature Medicine上发表的这项研究表明,利用多样和不同的数据集的积极影响,并强调了在医疗保健中更广泛使用联邦学习的潜力。

这种经历然而揭示了许多挑战。这些挑战包括在合作站点之间编排数据,确保数据可追溯性和适当的特征化,以及合作机构的IT部门所承担的负担,因为他们必须学习他们不熟悉的尖端技术。这需要一个新的平台来支持这些新型的“分布式数据”合作。我决定与我的联合创始人Yuval Baror合作,创建一个用于支持隐私保护合作的端到端平台。该平台就是“犀牛健康平台”,利用FL和边缘计算。

您为什么认为人工智能模型在医疗保健环境中经常无法达到预期的结果?

医疗人工智能通常是在小型、狭窄的数据集上训练的,例如来自单个机构或地理区域的数据集,这导致所得模型仅在其训练数据中表现良好。一旦算法应用于与狭窄训练数据集不同的患者或场景,性能就会严重受影响。

安德鲁·恩(Andrew Ng)很好地概括了这一概念,他表示,“当我们从斯坦福医院收集数据时…我们可以发表论文,表明[算法]在发现某些条件方面与人类放射科医生相当。…[当]你将同样的模型,同样的AI系统,应用到街上的一家较旧的医院,使用较旧的机器,技术人员使用略有不同的成像协议时,数据漂移会导致AI系统的性能显著下降。”

简单地说,大多数人工智能模型并不是在足够多样和高质量的数据上训练的,导致它们在现实世界中的性能不佳。这个问题已经在科学和主流圈子中得到充分记录,例如在SciencePolitico中。

测试在多样化患者群体中的重要性如何?

测试在多样化患者群体中的重要性至关重要,以确保所得的人工智能产品不仅有效且高效,还安全。未在足够多样化的患者群体中训练或测试的算法可能会受到算法偏差的影响,这是医疗保健和医疗技术中的一个严重问题。不仅这些算法会反映训练数据中的偏差,而且会加剧这些偏差,并加剧医疗保健中的现有种族、民族、宗教、性别等不平等。未能在多样化患者群体中测试可能会导致危险的产品。

最近发表的一项研究5,利用犀牛健康平台,研究了一项在一个站点开发的检测脑动脉瘤的人工智能算法在四个具有不同扫描仪类型的站点上的性能。结果表明,在具有不同扫描仪类型的站点上,性能存在显著的可变性,强调了在多样化数据集上训练和测试的重要性。

您如何识别一个子群体是否没有被代表?

一种常见的方法是分析不同数据集中的变量分布,既可以单独分析,也可以合并分析。这可以在准备“训练”数据集和验证数据集时为开发人员提供信息。犀牛健康平台允许您执行此操作,另外,用户可以看到模型在各种队列上的性能,以确保普遍性和在子群体中的可持续性能。

您能否描述什么是联邦学习以及它如何解决一些问题?

联邦学习(FL)可以广泛定义为人工智能模型的训练和持续改进的过程,使用不同的数据,而无需共享或集中数据。这是在人工智能开发方面取得了巨大的进步。历史上,任何希望与多个站点合作的用户都必须将数据集中在一起,导致了繁琐、昂贵和耗时的法律、风险和合规问题。

如今,借助诸如犀牛健康平台等软件,FL正在成为医疗保健和生命科学领域的日常现实。联邦学习允许用户在数据仍然存储在合作伙伴的本地服务器上时探索、策划和验证数据。代码容器,例如人工智能/机器学习算法或分析应用程序,被发送到本地服务器,在那里执行代码,例如人工智能/机器学习算法的训练或验证。数据始终保持在“数据保管人”手中。

尤其是医院,担心聚合敏感患者数据所带来的风险。这已经导致了一些令人尴尬的情况,很明显医疗保健组织在不知道其数据的使用方式的情况下与行业合作。因此,他们限制了行业和学术研究人员可以进行的合作数量,从而减缓了研发并影响了整个医疗保健行业的产品质量。FL可以减轻这一问题,并像以前一样实现数据合作,同时控制这些合作所带来的风险。

您能否分享犀牛健康关于使用更多样化的数据实现快速模型创建的愿景?

我们设想了一个由人工智能开发人员和用户组成的生态系统,他们可以在不受限制的情况下合作,同时尊重监管规定。合作伙伴可以快速识别来自各个地理位置的必要训练和测试数据,访问和与这些数据交互,并迭代模型开发,以确保足够的普遍性、性能和安全性。

这一切的核心是犀牛健康平台,为人工智能开发人员提供了一个“一站式”平台,用于构建大型和多样化的数据集,训练和验证人工智能算法,并持续监测和维护已部署的人工智能产品。

犀牛健康平台如何防止人工智能偏差并提供人工智能可解释性?

通过解锁和简化数据合作,人工智能开发人员可以利用更大、更多样化的数据集来训练和测试他们的应用程序。拥有更强大的数据集的结果是一个更具普遍性的产品,它不受单个机构或狭窄数据集的偏差的困扰。为了支持人工智能可解释性,我们的平台提供了对开发过程中使用的数据的清晰视图,包括分析数据来源、值分布和其他关键指标,以确保足够的数据多样性和质量。另外,我们的平台允许用户执行如果数据只是集中在一起则不可能的功能,例如通过计算现有数据点来增强其数据集,以研究因果推断并减轻混杂变量。

您如何回应担心人工智能过度依赖可能导致未经独立验证的偏差结果的医生?

我们理解这一担忧,并承认市场上的一些应用程序确实可能存在偏差。我们的回应是,我们必须作为一个行业、一个首先关心患者安全的医疗保健社区,共同制定政策和程序,以防止这些偏差并确保安全、有效的人工智能应用程序。人工智能开发人员有责任确保他们的上市人工智能产品经过独立验证,以获得医疗保健专业人员和患者的信任。犀牛健康致力于支持安全、值得信赖的人工智能产品,并与合作伙伴合作,以实现和简化人工智能应用程序在部署到临床环境之前的独立验证,并解锁必要的验证数据的障碍。

您对医疗保健人工智能的未来有什么展望?

犀牛健康的愿景是一个人工智能在医疗保健领域已经实现其全部潜力的世界。我们正在努力创造透明度和促进合作,以确保隐私,从而实现这一愿景。我们设想了一个医疗保健人工智能不受防火墙、地理位置或监管限制的世界。人工智能开发人员将能够访问他们需要的所有数据来构建强大、普遍的模型,并实时持续监测和改进这些模型。提供者和患者将有信心知道他们不会失去对其数据的控制,并且可以确保其被用于善事。监管机构将能够实时监测用于制药和设备开发的模型的有效性。公共卫生组织将从这些人工智能进步中受益,而提供者和患者可以放心地知道隐私得到保护。

感谢这次精彩的采访,希望了解更多的读者可以访问犀牛健康

安托万是一位具有远见的领导者和Unite.AI的创始合伙人,他被对塑造和推广AI和机器人人的未来充满不动摇的热情所驱动。作为一位连续创业者,他相信AI将对社会产生与电力一样的颠覆性影响,他经常被听到对颠覆性技术和AGI的潜力大加赞赏。

作为一位未来学家,他致力于探索这些创新将如何塑造我们的世界。另外,他也是Securities.io的创始人,这是一个专注于投资于重新定义未来和重塑整个行业的尖端技术的平台。