Anderson 视角

使用“豪斯”电视剧开发AI的诊断能力

mm
A screen capture from the NBC TV show 'House, S04E02., 'The Right Stuff'

尽管罕见疾病的诊断对AI(以及人类)来说是一个特别具有挑战性的问题,但流行的语言模型ChatGPT和Gemini在接受“豪斯”医疗剧的诊断案例训练后表现出良好的性能。

 

几乎一半的健康科学学生 经常观看 医疗剧,如 豪斯格雷的解剖剃刀边缘 。虽然这种材料只能用于教学目的,需要大量的过滤和框架,否则可能会传播有害的错误信息,但医疗条件的研究标准通常很高(尽管准确性 在不同制作中有所不同 )。

不出意料,医生经常 创作担任顾问撰写 医疗剧本。在这些情况下,广泛的医疗领域知识不仅有利于准确地传达医疗问题,还有利于提出新的和有趣的故事情节的想法。

最近“黄金时代”的电视剧中,最用心研究的医疗剧之一是 豪斯 (又称 豪斯医生 ),其中主角的古怪和大量的配角,虽然很有趣,但次于“每周的疾病”。

事实上,在其八季的播出期间, 豪斯 提供了 176 个诊断案例。虽然该剧于 2012 年结束,但到 2015 年,它已经被用作教学工具, 特别的 豪斯博士 研讨会 达到了比标准研讨会更好的效果,即使参加研讨会没有学分:

来自 2015 年研究的图表,显示了医学学生希望参加利用“豪斯”电视剧信息的诊断研讨会的多种原因。来源 [ https://journals.plos.org/plosone/article/file?id=10.1371/journal.pone.0193972&type=printable ]

来自 2015 年研究的图表,显示了医学学生希望参加利用“豪斯”电视剧信息的诊断研讨会的多种原因。研讨会安排在故意挑战性的时间,并且没有学分;尽管如此,这一举措还是很受欢迎。 来源

豪斯和AI

尽管使用 豪斯 和其他多样化的电视剧已经被证明在多项研究中是有效的学习辅助工具,但在机器学习的背景下,这种方法几乎没有被尝试过。

现在,宾夕法尼亚州立大学的一篇新论文已经在这个方向上迈出了第一步,通过开发一个包含所有 176 个 豪斯 诊断案例的数据集,将其转化为叙事驱动的诊断结构,并在 OpenAI 和 Google 的流行 LLM 上进行了评估。

尽管这个挑战很困难(这是生物科学中最具挑战性的领域之一),但研究人员发现,ChatGPT 和 Gemini 的最新版本比旧版本有所改进,表明模型开发的演化趋势可能会有效地朝着诊断过程发展。

论文指出:

‘结果显示,性能有显著的差异,范围从 16.48% 到 38.64% 的准确率,新一代模型的性能提高了 2.3 倍。虽然所有模型都面临着罕见疾病诊断的重大挑战,但观察到的改进表明,未来发展的方向很有前景。 ‘

‘我们的教育验证基准建立了基准性能指标,用于叙事医疗推理,并提供了一个公开可访问的评估框架,用于推进 AI 辅助诊断研究。’

除了建立基准性能指标外,作者还指出,新的数据集——他们将其公开提供——解决了现有医疗数据集中缺乏叙事过程的问题,并且比标准医疗数据集更容易获取。

这项 新工作 的标题是 评估大型语言模型在罕见疾病诊断中的性能:使用豪斯医生的案例研究 ,由宾夕法尼亚州立大学的四位研究人员完成。

数据

为了填充他们的数据集,作者使用了来自长期存在的 豪斯维基 粉丝网站的公开可用材料。使用流行的 Beautiful Soup 框架 提取和提炼了叙事内容,该框架可以从网页的 HTML 源代码中提取结构化数据。

在以这种方式收获基本叙事之后,使用四个 LLM 将输出转化为标准化的案例格式。使用的模型是 GPT-4o MiniGPT-5 MiniGemini 2.5 Flash ;和 Gemini 2.5 Pro 。最后,应用了质量过滤,以确保数据集具有适当的临床细节和与当前医疗推理的最新状态的一致性。

作者观察到 ‘孤儿’ 疾病 (也称为罕见疾病)在标准医疗数据库中代表性不足;在某些情况下, 豪斯 节目的覆盖范围可能代表了这些疾病总覆盖范围的异常百分比。

作者承认,这种类型的数据源的实用性必须谨慎对待,因为在开发医疗剧时,可能会优先考虑艺术许可:

‘虽然我们的数据集反映了虚构内容的局限性,包括戏剧性的夸张和复杂的案例关注,但这些特征可能会通过提供具有挑战性的边缘案例来有利于评估,这些案例可以测试模型的鲁棒性。 ‘

‘豪斯医生的教育验证为我们提供了信心,即提取的场景包含适合 AI 评估的临床上有意义的信息。 ‘

项目生成的数据集示例。来源 [ https://www.kaggle.com/datasets/arshgupta23/housemd-data-for-rare-disease-accuracy-using-llms?resource=download ]

项目生成的数据集示例。 来源

测试

为了评估模型在叙事诊断任务上的准确性,作者设计了一个简单的流水线,结合提示生成、模型推理和评分。

测试了四个上述 LLM,每个模型都配置了 温度 为零(确保 确定性 而不是“创造性”的输出),并且最大 令牌 长度为 1,500 —— 这是一个允许复杂诊断推理的容量。没有使用任何额外的系统提示来进一步框定查询。

提示本身遵循标准的结构化医疗案例演示格式 —— 这是医疗剧中新患者/疾病被介绍时,医生为其他在场的医生总结概述(有效地也是为观众的利益)时的格式。

每个提示都呈现了一个包含人口统计细节、症状时间线、相关医疗史和早期诊断结果的临床叙事。模型被要求识别一个主要诊断,并用 推理 来证明其结论。

每个模型在单次传递中生成其诊断响应,而无需任何迭代改进;并且在所有 176 个案例中都以一致的条件收集响应:

一个示例性评估示例,显示了一个叙事性临床提示及其对应的真实诊断,用于测试 Gemini 2.5 Pro。来源 [ https://arxiv.org/pdf/2511.10912 ]

一个示例性评估示例,显示了一个叙事性临床提示及其对应的真实诊断,用于测试 Gemini 2.5 Pro。 来源

对于指标,预测使用“模糊”的字符串匹配程序进行评估,该程序旨在考虑医疗术语的模糊性。使用 Python 的 SequenceMatcher 库 ,阈值为 0.8,从精确的子字符串匹配开始,必要时回退到 令牌级别比较准确率 计算为正确分类的案例比例:

研究人员使用的“模糊匹配”工作流程。

研究人员使用的“模糊匹配”工作流程。

作者指出,模糊匹配可能意味着使用不同术语的语义相同的诊断可能会被遗漏,但他们将自己的方法呈现为满足项目约束的最可复制的方法。

结果

诊断准确率在模型之间有很大差异,Gemini 2.5 Pro 的性能最好,达到 38.64%,其次是 GPT-5 Mini,达到 36.93%,然后是 Gemini 2.5 Flash,达到 32.95%,最后是 GPT-4o Mini,达到 16.48%。尽管存在这些差异,但所有模型都难以应对罕见疾病的诊断推理的要求:

四个模型的诊断准确率结果。

四个模型的诊断准确率结果。

作者还指出,性能在节目季度之间有所不同:

在《豪斯》不同季度中,准确率各异,但没有明显的曲线或明确的原因。

在《豪斯》不同季度中,准确率各异,但没有明显的曲线或明确的原因。

论文指出:

‘第一季达到最高准确率 56.52%,而第五季表现最差,仅为 20.83%。这种差异表明诊断复杂性在整个系列中有所不同,后期季度可能包含更具挑战性的罕见疾病案例。 ‘

‘然而,第八季(52.38%)相对较好的表现表明,时间进展并不能完全解释准确率的差异;案例特定的诊断复杂性似乎是主要驱动因素。 ‘

模型在诊断具有可识别症状的常见疾病时表现更为可靠,例如脑膜炎、心肌梗死和肺栓塞 —— 但在罕见疾病(如神经囊虫病和埃尔德海姆-切斯特病)以及复杂的自身免疫性疾病(如系统性红斑狼疮和肉芽肿病)方面始终难以应对。模型在需要将暴露史与临床体征联系起来的毒理学案例中的性能也会下降。

作者认为,模型之间的准确率差异表明,架构和训练策略之间存在有意义的差异,GPT-5 Mini 和 Gemini 2.5 Pro 的更好性能表明,新一代的大型语言模型从改进的推理能力中受益 —— 尽管它们的结果仍然揭示了处理复杂诊断任务的明显局限性。

作者认为,结果提供了基于叙事的罕见疾病诊断的基准指标,强烈表明当前的语言模型正在开始显示有用的医疗推理能力。

从 GPT-4o Mini 的 16.48% 到 Gemini 2.5 Pro 的 38.64% 的性能跳跃,论文得出结论,表明在开发临床上可用的 AI 支持工具方面取得了稳定的进展。

虽然研究人员承认准确率仍然适中,但基准仅关注挑战甚至训练有素的医生都难以应对的复杂案例,能够在几乎 40% 的这些困难案例中正确识别诊断,这表明真正的推理能力,并为未来的改进奠定了基础,通过有针对性的微调、结构化的医疗知识集成或混合推理策略。

结论

将电视剧叙事转化为现实世界的医疗数据集存在一些明显的危险 —— 即使在 豪斯 这样的情况下,原始材料具有高水平的合格医疗贡献和/或监督。

值得注意的是,《豪斯》的一集有效地作为一系列可能对普通人或以更为零碎和非线性的方式呈现的数据源不直接可访问的医疗条目摘要。

如果一集的剧本实际上是由医生撰写的(这在《豪斯》中经常发生),这可以被研究人员用作对内容的某种“签署”;但这忽略了这样一个事实:艺术考虑可能在剧集的开发中优先于疾病的呈现。

这使得数据处于许多其他潜在有用数据源的状态中:需要一层新的、昂贵的、合格的人类监督。

 

* 请注意,这篇很短的论文不遵循惯用的模板,我已适应了报道以适应这一点。

首次发表于 2025 年 11 月 17 日。

机器学习作家,人类图像合成领域专家。曾任 Metaphysic.ai 研究内容负责人。
个人网站: martinanderson.ai
联系: [email protected]
Twitter:@manders_ai