Connect with us

通用人工智能

Med-Gemini:通过下一代多模态模型转变医疗AI

mm

人工智能(AI)在过去的几年中一直在医疗领域掀起波澜。它提高了医疗图像诊断的准确性,通过基因组数据分析帮助创建个性化治疗,并通过检查生物数据加速药物发现。然而,尽管这些进步令人印象深刻,大多数AI应用程序今天仅限于使用一种类型的数据(如CT扫描或基因信息)来执行特定任务。这一单模态方法与医生工作方式大不相同,医生会整合来自各种来源的数据来诊断病情,预测结果,并创建全面治疗计划。

为了真正支持临床医生、研究人员和患者完成诸如生成放射学报告、分析医疗图像和从基因组数据预测疾病等任务,AI需要通过推理复杂的多模态数据(包括文本、图像、视频和电子健康记录(EHRs))来处理多种医疗任务。然而,构建这些多模态医疗AI系统一直很有挑战性,因为AI处理不同数据类型的能力有限,全面生物医学数据集也很稀缺。

多模态医疗AI的需求

医疗保健是一个复杂的数据源网络,包括医疗图像、基因信息等,医疗专业人员使用这些数据来了解和治疗患者。然而,传统的AI系统通常专注于单一任务和单一数据类型,限制了它们提供全面患者状况概述的能力。这些单模态AI系统需要大量标记数据,这可能很昂贵,提供的能力范围有限,并且面临来自不同来源集成见解的挑战。

多模态AI可以通过提供一个整体视角来克服现有医疗AI系统的挑战,该视角结合了来自不同来源的信息,提供了对患者健康的更准确和完整的理解。这种集成方法通过识别可能在独立分析每个模态时被忽略的模式和相关性来提高诊断准确性。另外,多模态AI促进了数据集成,允许医疗专业人员访问患者信息的统一视图,这促进了协作和明智的决策。其适应性和灵活性使其能够从各种数据类型中学习,适应新挑战,并随着医疗进步而演变。

介绍Med-Gemini

大型多模态AI模型的最近进展引发了一场开发复杂医疗AI系统的运动。领导这一运动的是Google和DeepMind,他们推出了他们的高级模型,Med-Gemini。这个多模态医疗AI模型在14个行业基准中表现出色,超越了竞争对手,如OpenAI的GPT-4。Med-Gemini建立在Gemini家族的基础上,这是一种来自Google DeepMind的大型多模态模型(LMMs),旨在理解和生成各种格式的内容,包括文本、音频、图像和视频。与传统的多模态模型不同,Gemini拥有独特的Mixture-of-Experts(MoE)架构,具有专门的Transformer模型,这些模型擅长处理特定的数据段或任务。在医疗领域,这意味着Gemini可以根据传入的数据类型动态地参与最合适的专家,无论是放射学图像、基因序列、患者病史还是临床笔记。这种设置模仿了临床医生使用的多学科方法,从而增强了模型学习和处理信息的能力。

为多模态医疗AI微调Gemini

为了创建Med-Gemini,研究人员微调了Gemini,使其在匿名的医疗数据集上进行训练。这使得Med-Gemini能够继承Gemini的原生能力,包括语言对话、推理多模态数据以及管理更长的上下文以执行医疗任务。研究人员为2D模态、3D模态和基因组学训练了三个自定义版本的Gemini视觉编码器。这种方法类似于在不同医疗领域训练专家。训练导致了三个特定的Med-Gemini变体的开发:Med-Gemini-2D、Med-Gemini-3D和Med-Gemini-Polygenic。

  • Med-Gemini-2D

Med-Gemini-2D被训练来处理传统的医疗图像,例如胸部X光片、CT片、病理切片和相机照片。该模型在分类、视觉问答和文本生成等任务中表现出色。例如,给定一张胸部X光片和指令“X光片显示是否有可能指示癌症(癌性生长的迹象)”,Med-Gemini-2D可以提供一个精确的答案。研究人员透露,Med-Gemini-2D的精炼模型提高了胸部X光片的AI启用报告生成的准确性,从1%到12%,生成的报告“与放射科医生的报告相当或更好”。

  • Med-Gemini-3D

Med-Gemini-3D在Med-Gemini-2D的能力基础上扩展,训练来解释3D医疗数据,例如CT和MRI扫描。这些扫描提供了对解剖结构的全面视图,需要更深入的理解和更高级的分析技术。分析3D扫描并附带文本指令标志着医疗图像诊断的一个重大飞跃。评估显示,Med-Gemini-3D生成的报告中超过一半导致与放射科医生相同的护理建议。

  • Med-Gemini-Polygenic

与其他Med-Gemini变体不同,Med-Gemini-Polygenic专注于从基因组数据预测疾病和健康结果。研究人员声称,Med-Gemini-Polygenic是第一种使用文本指令分析基因组数据的模型。实验表明,该模型在预测八种健康结果(包括抑郁症、卒中和青光眼)方面优于以前的线性多基因评分。值得注意的是,它还展示了零次能力,预测没有明确训练的额外健康结果。这种进步对于诊断冠状动脉疾病、COPD和2型糖尿病等疾病至关重要。

建立信任和确保透明度

除了其在处理多模态医疗数据方面的显著进步外,Med-Gemini的交互能力也有潜力解决AI在医疗领域采用中的基本挑战,例如AI的黑盒性质和对工作替代的担忧。与典型的AI系统不同,Med-Gemini作为医疗专业人员的辅助工具,而不是替代工具。通过增强他们的分析能力,Med-Gemini缓解了对工作替代的恐惧。它能够提供对其分析和建议的详细解释增强了透明度,允许医生理解和验证AI决策。这种透明度在医疗专业人员中建立了信任。另外,Med-Gemini支持人类监督,确保AI生成的见解由专家审查和验证,促进了一个协作环境,AI和医疗专业人员共同努力改善患者护理。

通往现实世界应用的道路

虽然Med-Gemini展示了显著的进步,但它仍处于研究阶段,并需要在现实世界应用之前进行彻底的医疗验证。严格的临床试验和广泛的测试对于确保该模型在各种临床环境中的可靠性、安全性和有效性至关重要。研究人员必须验证Med-Gemini在不同医疗状况和患者人群中的性能,以确保其强健性和普遍适用性。来自卫生机构的监管批准将是必要的,以确保遵守医疗标准和道德准则。AI开发人员、医疗专业人员和监管机构之间的合作将是必要的,以完善Med-Gemini,解决任何限制,并建立对其临床实用性的信心。

结论

Med-Gemini代表了医疗AI的一个重大飞跃,通过集成多模态数据(如文本、图像和基因组信息)来提供全面诊断和治疗建议。与传统的AI模型不同,Med-Gemini的先进架构模仿了医疗专业人员的多学科方法,提高了诊断准确性和促进了协作。尽管其前景很有希望,但Med-Gemini需要严格的验证和监管批准才能应用于现实世界。其开发标志着一个未来,AI将协助医疗专业人员,通过复杂的集成数据分析来改善患者护理。

Dr. Tehseen Zia 是 COMSATS University Islamabad 的终身副教授,拥有来自奥地利维也纳科技大学的人工智能博士学位。专攻人工智能、机器学习、数据科学和计算机视觉,他在著名的科学期刊上发表了重要贡献。 Dr. Tehseen 还作为首席调查员领导了各种工业项目,并担任人工智能顾问。