关注我们.

人工智能

Med-Gemini:利用下一代多模式模型改变医疗人工智能

mm

过去几年,人工智能 (AI) 在医疗领域掀起了波澜。它提高了医学影像诊断的准确性,通过基因组数据分析帮助制定个性化治疗方案,并通过分析生物数据加速药物研发。然而,尽管取得了这些令人瞩目的进步,但目前大多数人工智能应用仍局限于使用单一类型数据(例如 CT 扫描或基因信息)的特定任务。这种单一模式的方法与医生的工作方式截然不同,医生需要整合来自不同来源的数据来诊断病情、预测结果并制定全面的治疗方案。

为了真正支持临床医生、研究人员和患者完成生成放射学报告、分析医学图像和根据基因组数据预测疾病等任务,人工智能需要通过推理复杂的多模态数据(包括文本、图像、视频和电子数据)来处理各种医疗任务。健康记录(EHR)。然而,构建这些 多模态医疗人工智能 由于人工智能管理多种数据类型的能力有限以及综合生物医学数据集的稀缺,系统一直具有挑战性。

对多模式医疗人工智能的需求

医疗保健是一个由相互关联的数据源组成的复杂网络,涵盖从医学影像到基因信息等各种数据,医疗专业人员利用这些数据来了解和治疗患者。然而,传统的人工智能系统通常专注于单一任务和单一数据类型,这限制了它们全面了解患者病情的能力。这些单模态人工智能系统需要大量标记数据,而这些数据的获取成本高昂,功能范围有限,并且面临着整合不同来源洞察的挑战。

多模式人工智能 可以通过提供结合不同来源信息的整体视角来克服现有医疗人工智能系统的挑战,从而更准确、更全面地了解患者的健康状况。这种集成方法通过识别独立分析每种模态时可能会错过的模式和相关性来提高诊断准确性。此外,多模式人工智能促进数据集成,使医疗保健专业人员能够访问患者信息的统一视图,从而促进协作和明智的决策。它的适应性和灵活性使其能够从各种数据类型中学习,适应新的挑战,并随着医疗进步而发展。

介绍 Med-Gemini

大型多模式人工智能模型的最新进展引发了复杂医疗人工智能系统开发的运动。领导这一运动的是 Google 和 DeepMind,他们推出了他们的先进模型, 地中海双子座。这种多模式医疗人工智能模型在各个领域都表现出了卓越的性能 14项行业标杆,超越竞争对手,如 OpenAI的GPT-4。 Med-Gemini 建立在 双子座 的家庭 大型多模式模型 (LMM) 来自 Google DeepMind,旨在理解和生成各种格式的内容,包括文本、音频、图像和视频。与传统的多式联运模式不同,Gemini 拥有独特的 混合专家 (MoE) 建筑学,有专门的 变压器型号 擅长处理特定的数据段或任务。在医疗领域,这意味着 Gemini 可以根据传入的数据类型(无论是放射图像、基因序列、患者病史还是临床记录)动态地聘请最合适的专家。这种设置反映了临床医生使用的多学科方法,增强了模型有效学习和处理信息的能力。

为多模式医疗 AI 微调 Gemini

为了创建 Med-Gemini,研究人员 精调的双子座 在匿名医疗数据集上进行训练。这使得 Med-Gemini 能够继承 Gemini 的原生功能,包括语言对话、多模态数据推理以及管理用于医疗任务的更长上下文。研究人员已经针对二维模态、三维模态和基因组学训练了三个定制版本的 Gemini 视觉编码器。这就像培训不同医学领域的专家。这些训练促成了三种特定 Med-Gemini 变体的开发:Med-Gemini-2D、Med-Gemini-3D 和 Med-Gemini-Polygenic。

  • Med-Gemini-2D

Med-Gemini-2D 经过训练,可以处理常规医学图像,例如胸部 X 光片、CT 切片、病理切片和相机照片。该模型在分类、视觉问答和文本生成等任务中表现出色。例如,给定一张胸部 X 光片和“X 光片是否显示任何可能表明癌症(癌性生长的迹象)的迹象?”指令,Med-Gemini-2D 可以给出精确的答案。研究人员透露,Med-Gemini-2D 的改进模型将 AI 胸部 X 光片报告生成效率提高了 1% 至 12%,生成的报告“相当于或优于”放射科医生的报告。

  • Med-Gemini-3D

Med-Gemini-2D 扩展了 Med-Gemini-3D 的功能,经过训练可以解释 3D 医疗数据,例如 CT 和 MRI 扫描。这些扫描提供了解剖结构的全面视图,需要更深入的理解和更先进的分析技术。使用文本指令分析 3D 扫描的能力标志着医学图像诊断的重大飞跃。评估显示,Med-Gemini-3D 生成的报告中有一半以上得出了与放射科医生提出的相同的护理建议。

  • 中双子多基因

与其他专注于医学成像的 Med-Gemini 变体不同,Med-Gemini-Polygenic 旨在根据基因组数据预测疾病和健康结果。研究人员声称,Med-Gemini-Polygenic 是同类中第一个使用文本指令分析基因组数据的模型。实验表明,该模型在预测八种健康结果(包括抑郁症、中风和青光眼)方面优于之前的线性多基因评分。值得注意的是,它还展示了零样本能力,无需明确的训练即可预测额外的健康结果。这一进步对于诊断冠状动脉疾病、慢性阻塞性肺病和 2 型糖尿病等疾病至关重要。

建立信任并确保透明度

除了在处理多模态医疗数据方面取得显著进步外,Med-Gemini 的交互功能还有潜力解决 根本挑战 人工智能在医疗领域的应用,例如人工智能的黑匣子性质和对工作替代的担忧。与端到端运行且通常充当替代工具的典型人工智能系统不同,Med-Gemini 充当医疗保健专业人员的辅助工具。通过增强分析能力,Med-Gemini 减轻了人们对工作被取代的担忧。它能够对其分析和建议提供详细解释,从而提高了透明度,使医生能够理解和验证人工智能决策。这种透明度在医疗保健专业人员之间建立了信任。此外,Med-Gemini 支持人类监督,确保人工智能生成的见解得到专家的审查和验证,从而营造一个协作环境,让人工智能和医疗专业人员共同努力改善患者护理。

实际应用之路

尽管 Med-Gemini 展现了显著的进步,但它仍处于研究阶段,在实际应用之前需要进行彻底的医学验证。严格的临床试验和广泛的测试对于确保该模型在不同临床环境中的可靠性、安全性和有效性至关重要。研究人员必须验证 Med-Gemini 在各种医疗条件和患者群体中的表现,以确保其稳健性和通用性。此外,还需要获得卫生部门的监管批准,以确保其符合医疗标准和伦理准则。人工智能开发者、医疗专业人员和监管机构之间的合作对于完善 Med-Gemini、克服任何局限性以及增强人们对其临床实用性的信心至关重要。

底线

Med-Gemini 代表着医疗人工智能领域的重大飞跃,它整合了文本、图像和基因组信息等多模态数据,提供全面的诊断和治疗建议。与局限于单一任务和数据类型的传统人工智能模型不同,Med-Gemini 的先进架构反映了医疗专业人员的多学科方法,从而提高了诊断准确性并促进了协作。尽管 Med-Gemini 前景光明,但在实际应用之前仍需经过严格的验证和监管部门的批准。它的开发预示着未来人工智能将协助医疗专业人员,通过复杂的集成数据分析来改善患者护理。

Tehseen Zia 博士是伊斯兰堡 COMSATS 大学的终身副教授,拥有奥地利维也纳科技大学的人工智能博士学位。 他专注于人工智能、机器学习、数据科学和计算机视觉,在著名科学期刊上发表论文,做出了重大贡献。 Tehseen 博士还作为首席研究员领导了多个工业项目,并担任人工智能顾问。