未经管控的大语言模型与医疗合规困境
在各行各业,生成式人工智能(GenAI)在相对较短的时间内取得了快速突破。这些进步由基础模型驱动,《加州前沿人工智能政策报告》将其定义为“一类通用技术,其生产需要大量资源,需要大量的数据和计算能力,才能产生可为各种下游人工智能应用提供支持的能力。”这些通用大语言模型(LLM),如 Gemini 和 ChatGPT,在数据分析、写作和推理等领域,正展现出日益强大的复制甚至超越人类认知能力的力量。特别是在医疗保健领域,随着临床医生和其他医疗专业人员希望借助该技术减轻行政负担、加速运营,甚至支持临床决策,生成式人工智能的采用率正在上升。然而,尽管这项技术前景广阔,但如果在医疗保健领域不负责任地实施或使用生成式人工智能,确实会带来关键的合规风险。特别是,使用通用大语言模型会带来特定的合规问题,医疗保健组织必须充分理解这些问题,以防止隐私或安全漏洞。这些模型可能依赖未经核实的数据源、以未经授权的方式利用患者健康信息,或延续偏见和/或不准确信息。为了维护患者数据隐私、遵守不断发展的法规并最大限度地降低代价高昂的风险,医疗保健领导者必须采取果断的方法,来化解“未经管控”使用大语言模型这一滴答作响的合规“定时炸弹”。通用大语言模型在医疗保健领域的使用现状在整个医疗保健领域,工作人员越来越多地利用大语言模型来支持日常任务,从行政工作到患者沟通。多模态大语言模型因其能够轻松处理文本、图像和音频,进一步扩展了这些应用。除了行政支持,我们还看到越来越多的医疗服务提供者转向该技术,以支持不仅仅是文书工作,还包括临床任务。这些模型已经展示出一些令人印象深刻的成果,多项研究表明,大语言模型在特定领域的表现达到甚至超过了人类能力。例如,GPT-4 模型通过了美国医学执照考试,总体得分达 86.7%。混合人工智能是医疗保健领域使用生成式人工智能的另一种新兴方法,它结合了机器学习(ML)和大语言模型来处理复杂分析并将结果转化为通俗语言。通过整合两种模型,这种方法旨在克服大语言模型的缺点,包括幻觉、不准确和偏见,同时发挥其优势。智能体人工智能的采用率也在上升,因为它能够在无需人工输入的情况下自动化关键任务,例如回复患者消息或安排预约。然而,人工智能所蕴含的潜力也凸显了对更积极主动治理的迫切需求。这些工具在医疗保健运营中嵌入得越深,确保其准确性、安全性和合规性的风险就越高。通用大语言模型在医疗保健领域的合规风险虽然医疗保健领域的数字化应用开启了大量新的可能性,但也暴露了关键的脆弱性。例如,在 2023 年 11 月 1 日至 2024 年 10 月 31 日期间,医疗保健行业经历了1,710 起安全事件,其中 1,542 起涉及已确认的数据泄露。人工智能时代加深了这些裂痕,给数据隐私和安全增加了新的复杂性。更具体地说,在医疗保健领域使用通用大语言模型会引发几个关键的合规风险:风险一:黑盒开发阻碍持续监控或验证闭源模型缺乏透明度,无法了解其开发过程,例如模型具体使用什么数据进行训练或如何进行更新。这种不透明性使得开发人员和研究人员无法深入挖掘模型以确定安全风险的根源或辨别决策过程。因此,闭源大语言模型可能导致使用未经核实的医疗数据源,并使安全漏洞得不到控制。风险二:患者数据泄露大语言模型并非总是依赖去标识化的患者数据。专门的提示或互动可能会无意中泄露可识别的健康信息,从而可能违反 HIPAA 法案。风险三:延续偏见和不准确信息在一项实验中,研究人员将一小部分错误事实注入生物医学模型知识库的一个类别中,同时保持其在所有其他领域的行为。研究人员发现,错误信息在模型的输出中传播,突显了大语言模型易受错误信息攻击的脆弱性。基础模型中发现的任何缺陷都会被所有采用的模型以及由此产生的应用程序从父模型继承。输出结果的差异可能会加剧健康不平等,例如为代表性不足的群体提供不准确的建议。风险四:监管错位使用通用大语言模型可能不符合 HIPAA、GDPR 或不断发展的特定人工智能法规,尤其是在供应商无法验证训练数据的情况下。这些风险因医疗保健组织员工使用未经批准或未受监控的人工智能工具(或称影子人工智能)而加剧。根据 IBM...