通用人工智能

Med-Gemini：将多模态医疗AI提升到下一代

发布于 2024年6月10日

更新于 2026年5月21日

作者

Dr. Tehseen Zia

人工智能（AI）在过去几年中一直在医疗领域掀起波澜。它提高了医疗图像诊断的准确性，通过基因组数据分析帮助创建个性化治疗，并通过检查生物数据加速药物发现。然而，尽管这些进步令人印象深刻，大多数今天的AI应用程序仅限于使用一种数据类型（如CT扫描或基因信息）执行特定任务。这一单模态方法与医生工作方式大不相同，医生通过整合各种来源的数据来诊断疾病、预测结果并创建全面治疗计划。

为了真正支持临床医生、研究人员和患者完成诸如生成放射学报告、分析医疗图像和预测基因组数据中的疾病等任务，AI需要通过处理复杂的多模态数据（包括文本、图像、视频和电子健康记录（EHR））来处理多种医疗任务。然而，构建这些多模态医疗AI系统一直很具有挑战性，因为AI处理不同数据类型的能力有限，且全面的生物医学数据集稀缺。

多模态医疗AI的需求

医疗保健是一个由医疗图像、基因信息等多个数据源组成的复杂网络，医疗专业人员利用这些数据来了解和治疗患者。然而，传统的AI系统通常专注于单一任务和单一数据类型，限制了它们提供全面患者状况概述的能力。这些单模态AI系统需要大量标记数据，这些数据昂贵且难以获取，提供的功能范围有限，并面临将不同来源的见解整合起来的挑战。

多模态AI可以通过提供整合多个来源信息的整体视角来克服现有医疗AI系统的挑战，从而提供更准确、更全面的患者健康状况理解。这种集成方法通过识别单独分析每个模态时可能忽略的模式和相关性来提高诊断准确性。此外，多模态AI促进数据集成，允许医疗专业人员访问统一的患者信息视图，从而促进协作和明智的决策。其适应性和灵活性使其能够从各种数据类型中学习，适应新挑战，并随着医疗进步而发展。

介绍Med-Gemini

大型多模态AI模型的最新进展已经引发了医疗AI系统开发的热潮。领导这一热潮的包括谷歌和DeepMind，他们推出了自己的先进模型——Med-Gemini。这个多模态医疗AI模型在14个行业基准中表现出色，超越了像OpenAI的GPT-4这样的竞争对手。Med-Gemini建立在谷歌DeepMind的Gemini家族的基础上，这是一系列大型多模态模型（LMM），旨在理解和生成各种格式的内容，包括文本、音频、图像和视频。与传统的多模态模型不同，Gemini拥有独特的Mixture-of-Experts（MoE）架构，具有专门的变换器模型，这些模型擅长处理特定的数据段或任务。在医疗领域，这意味着Gemini可以根据输入数据类型动态参与最合适的专家，无论是放射学图像、基因序列、患者病史还是临床笔记。这种设置模仿了临床医生使用的多学科方法，从而增强了模型高效学习和处理信息的能力。

为多模态医疗AI微调Gemini

为了创建Med-Gemini，研究人员对Gemini进行了微调，使用了匿名的医疗数据集。这使得Med-Gemini继承了Gemini的原生能力，包括语言对话、多模态数据推理和管理医疗任务的更长上下文。研究人员为2D模态、3D模态和基因组学训练了三个自定义的Gemini视觉编码器。这种训练就像训练不同医学领域的专家一样。训练的结果是开发了三个特定的Med-Gemini变体：Med-Gemini-2D、Med-Gemini-3D和Med-Gemini-Polygenic。

Med-Gemini-2D

Med-Gemini-2D被训练来处理传统的医疗图像，如胸部X光片、CT片、病理切片和相机照片。这个模型在分类、视觉问答和文本生成等任务中表现出色。例如，给定一张胸部X光片和指令“X光片显示任何可能指示癌症（癌变）生长的迹象吗？”，Med-Gemini-2D可以提供一个精确的答案。研究人员发现，Med-Gemini-2D的改进模型提高了胸部X光片的AI启用报告生成准确率1%至12%，生成的报告“等同或优于”放射科医生的报告。

Med-Gemini-3D

在Med-Gemini-2D的能力基础上，Med-Gemini-3D被训练来解释3D医疗数据，如CT和MRI扫描。这些扫描提供了对解剖结构的全面视图，需要更深入的理解和更高级的分析技术。分析3D扫描并提供文本指令的能力标志着医疗图像诊断的一个重大飞跃。评估显示，Med-Gemini-3D生成的报告中，有超过一半的报告与放射科医生做出的护理建议相同。

Med-Gemini-Polygenic

与其他Med-Gemini变体不同，Med-Gemini-Polygenic专注于预测基因组数据中的疾病和健康结果。研究人员声称，Med-Gemini-Polygenic是第一款使用文本指令分析基因组数据的模型。实验表明，该模型在预测八种健康结果（包括抑郁症、卒中和青光眼）方面优于以前的线性多基因评分。值得注意的是，它还展示了零次学习能力，能够预测没有明确训练的额外健康结果。这种进步对于诊断如冠状动脉疾病、COPD和2型糖尿病等疾病至关重要。

建立信任和确保透明度

除了其在处理多模态医疗数据方面的显著进步外，Med-Gemini的交互能力还具有解决医疗领域AI采用中基本挑战的潜力，例如AI的黑盒性质和对工作岗位替代的担忧。与典型的AI系统不同，Med-Gemini作为医疗专业人员的辅助工具，而不是替代工具。通过增强他们的分析能力，Med-Gemini缓解了对工作岗位替代的担忧。其分析和建议的详细解释增强了透明度，允许医生了解和验证AI决策。这种透明度建立了医疗专业人员的信任。此外，Med-Gemini支持人类监督，确保AI生成的见解由专家审查和验证，从而在AI和医疗专业人员之间营造一种协作环境，以改善患者护理。

通往现实世界应用的道路

虽然Med-Gemini展示了显著的进步，但它仍处于研究阶段，需要在现实世界应用之前进行彻底的医疗验证。严格的临床试验和广泛的测试对于确保模型在不同临床环境中的可靠性、安全性和有效性至关重要。研究人员必须验证Med-Gemini在各种医疗条件和患者人口统计学中的性能，以确保其强壮性和普遍适用性。来自卫生部门的监管批准将是必要的，以确保遵守医疗标准和道德准则。AI开发人员、医疗专业人员和监管机构之间的合作将是至关重要的，以完善Med-Gemini，解决任何局限性，并建立对其临床实用性的信心。

结论

Med-Gemini代表了医疗AI的一个重大飞跃，通过集成多模态数据（如文本、图像和基因组信息）来提供全面诊断和治疗建议。与传统的AI模型相比，传统AI模型仅限于单一任务和单一数据类型，Med-Gemini的先进架构模仿了医疗专业人员的多学科方法，从而提高了诊断准确性和促进了协作。尽管其前景广阔，但Med-Gemini需要经过严格的验证和监管批准后才能应用于现实世界。其开发标志着一个未来，AI将协助医疗专业人员，通过先进的集成数据分析来改善患者护理。