访谈
Josh Miller,Gradient Health 的 CEO – 采访系列

Josh Miller 是 Gradient Health 的 CEO,这是一家基于这样一个理念而成立的公司:自动化诊断必须存在,以使医疗保健公平并且对每个人都可用。Gradient Health 致力于通过有组织、标记和可用的数据来加速自动化 AI 诊断。
您能否分享 Gradient Health 的起源故事?
我的联合创始人 Ouwen 和我刚刚退出了我们的第一家创业公司 FarmShots,该公司利用计算机视觉帮助减少农业中使用的杀虫剂数量,我们正在寻找下一个挑战。
我们一直被找到一个艰难的问题来解决的愿望所驱动,这个问题可以通过技术来解决,具有以下两个条件:a) 有机会在世界上做很多好事,b) 导致一个坚实的商业。Ouwen 正在攻读他的医学学位,凭借我们在计算机视觉方面的经验,医学成像对我们来说是一个自然的选择。由于乳腺癌的毁灭性影响,我们选择乳腺摄影作为潜在的第一个应用。所以我们说:“好,我们从哪里开始?我们需要数据。我们需要一千张乳腺摄影图像。在哪里可以获得这种规模的数据?”答案是“无处可寻”。我们立即意识到,找到数据真的很难。几个月过去了,这种沮丧变成了我们的一个哲学问题,我们认为“任何试图在这个领域做好事的人都不应该为了获得他们需要的数据来构建救命算法而奋斗和挣扎”。所以我们说:“嘿,也许这才是我们要解决的问题”。
当前市场中不具代表性的数据存在哪些风险?
从无数研究和现实世界中的例子来看,我们知道,如果我们使用仅来自西海岸的数据构建算法,并将其带到东南部,它就不会起作用。一次又一次,我们听到这样的故事:在东北部医院创建的 AI 在那里工作得很好,但当他们在其他地方部署它时,准确率会降低到 50% 以下。
我相信 AI 的基本目的,从伦理层面来说,就是减少健康差异。目标是使高质量的医疗保健变得负担得起并且对每个人都可用。但是,当你使用糟糕的数据构建它时,你实际上会增加差异。如果我们让 AI 只为白人海岸男性工作,那么我们就没有完成医疗保健 AI 的使命。来自代表性不足的背景的人将因此而遭受更多的歧视,而不是减少。
您能否讨论 Gradient Health 如何获取数据?
当然,我们与世界各地的各类医疗系统合作,他们的数据原本被存储起来,花费他们的钱,并不造福任何人。我们在源头彻底去识别他们的数据,然后我们仔细地为研究人员组织这些数据。
Gradient Health 如何确保数据是无偏见的和多样化的?
有很多方法。例如,当我们收集数据时,我们确保包括许多社区诊所,在那里你通常会有更具代表性的数据,以及更大的医院。我们还从大量的临床站点获取数据。我们尝试从尽可能多的站点获取数据,并且这些站点来自尽可能广泛的人口范围。因此,不仅仅是拥有大量的站点,还要拥有地理位置和社会经济状况多样的站点。因为如果所有的站点都来自市中心的医院,那么数据仍然不是代表性的,对吧?
为了验证这一点,我们在所有这些数据集中运行统计分析,并根据客户的需求定制,以确保他们获得多样化的数据,包括技术和人口统计学方面。
为什么这种级别的数据控制对于设计强大的 AI 算法如此重要?
在现实世界中,AI 可能会遇到许多变量,我们的目标是确保算法尽可能强大。为了简化,我们认为我们的数据中有五个关键变量。第一个变量我们考虑的是“设备制造商”。这是显而易见的,如果你只使用 GE 扫描仪的数据构建算法,那么它在 Hitachi 设备上就不会表现得那么好。
类似地,另一个变量是“设备型号”。从健康不平等的角度来看,这个变量实际上非常有趣。我们知道大型、资金充足的研究医院往往拥有最新、最好的扫描仪版本。如果他们只在自己的 2022 年型号上训练 AI,那么它在 2010 年的旧型号上就不会表现得那么好。这些旧系统正是那些在农村和较不富裕的地区发现的系统。因此,通过只使用新型号的数据,他们无意中对来自这些社区的人们引入了更多的偏见。
其他关键变量是性别、种族和年龄,我们竭尽全力确保我们的数据在所有这些变量中都得到比例平衡。
医疗技术公司面临哪些监管障碍?
我们开始看到 FDA 正在调查数据集中的偏差。我们已经有研究人员来找我们,说“FDA 因为缺乏 15% 的非裔美国人人口(大约是美国人口的 15%)而拒绝了我们的算法”。我们还听说开发人员被告知他们需要在训练数据中包含 1% 的太平洋夏威夷岛民。
因此,FDA 正在意识到这些算法,它们只在单个医院训练,不能在现实世界中使用。事实是,如果你想要获得 CE 标志和 FDA 批准,你必须带来一个代表人口的数据集。这是正确的,不再可以接受只在小型或不具代表性的群体上训练 AI。
对于医疗技术公司来说,风险在于他们投资数百万美元来使他们的技术达到他们认为准备好申请监管批准的水平,但如果他们无法获得批准,他们将永远无法获得报销或收入。最终,商业化的道路和对医疗保健产生有益影响的道路需要他们关心数据偏差。
从数据角度来看,如何克服这些障碍?
在过去的几年中,数据管理方法已经发展,AI 开发人员现在比以往任何时候都有更多的选择。从数据中间件和合作伙伴到联邦学习和合成数据,有新的方法来克服这些障碍。无论他们选择哪种方法,我们始终鼓励开发人员考虑他们的数据是否真正代表将使用该产品的人口。这是获取数据中最困难的方面。
Gradient Health 提供的解决方案之一是 Gradient Label,它是什么以及如何实现大规模标记数据?
医疗成像 AI 不仅需要数据,还需要专家注释。我们帮助公司获得这些专家注释,包括来自放射科医生的注释。
您对医疗保健领域 AI 和数据的未来有什么展望?
已经有成千上万的 AI 工具可以检查从手指尖到脚趾尖的所有内容,我认为这将继续下去。我认为每个医学教科书中的每个病症都将至少有 10 个算法,每个算法都将有多个、可能具有竞争力的工具来帮助临床医生提供最佳的护理。
我不认为我们会看到类似《星际迷航》中的三录仪的东西,它可以扫描某人并解决从头到脚的所有可能问题。相反,我们将拥有针对每个子集的专用应用程序。
您是否还有其他关于 Gradient Health 的信息想要分享?
我对未来感到兴奋。我认为我们正在朝着一个医疗保健廉价、公平、对所有人都可用的方向发展,我希望 Gradient Health 有机会在实现这一目标中发挥基础作用。这里的整个团队都真正相信这一使命,并且他们之间有着难以在其他公司找到的一种团结的热情。我喜欢它!
感谢这次精彩的采访,希望了解更多的读者可以访问 Gradient Health。












