Anderson 视角
使用“豪斯医生”电视剧来开发人工智能的诊断能力

尽管罕见疾病的诊断对于人工智能(以及人类)来说是一个特别具有挑战性的任务,但流行的语言模型ChatGPT和Gemini在接受“豪斯医生”医疗剧的诊断案例训练后显示出令人乐观的性能。
几乎一半的健康科学学生 经常观看 医疗剧,如 豪斯医生、格雷的解剖学 和 实习医生格蕾。虽然这种材料只能经过大量的过滤和框架化用于教学目的,否则可能会传播有害的错误信息,但医疗剧中关于医疗状况的研究标准通常相当高(尽管准确性 在不同的制作中有所不同)。
毫不意外,医生经常 创作、担任顾问 或 撰写 电视医疗剧。在这种情况下,广泛的医疗领域知识不仅有利于准确地传达医疗问题,还有利于提出新的和有趣的故事情节的建议。
最近“黄金时代”电视剧中最用心研究的医疗节目之一是 豪斯医生(又称 豪斯医生),在这部剧中,主角的古怪性格和大量的配角变化,尽管很有趣,但都次于“每周的疾病”。事实上,在其八季播出期间的 177 集中,豪斯医生 提供了 176 个诊断案例。虽然该剧于 2012 年结束,但到 2015 年,它已经被用作教学工具,一个 特别的豪斯医生研讨会 比标准研讨会提供了更好的结果,即使参加研讨会没有学分:
![来自 2015 年研究的图表,显示医学生希望参加利用“豪斯医生”电视剧信息的诊断研讨会的多种原因。来源 [ https://journals.plos.org/plosone/article/file?id=10.1371/journal.pone.0193972&type=printable ]](https://www.unite.ai/wp-content/uploads/2025/11/house-seminar.jpg)
来自 2015 年研究的图表,显示医学生希望参加利用“豪斯医生”电视剧信息的诊断研讨会的多种原因。研讨会安排在故意挑战性的时间,并且没有学分;尽管如此,这一举措还是很受欢迎。 来源
豪斯医生和人工智能
虽然使用 豪斯医生 和其他多样化的电视剧作为学习的辅助工具已经被证明是有效的,但是在机器学习的背景下,这种方法几乎没有被尝试过。
现在,宾夕法尼亚州立大学的一篇新论文首次尝试了这一方向,通过开发一个包含所有 176 个 豪斯医生 可用案例的数据集,这些案例被制成叙事驱动的诊断结构,并在 OpenAI 和 Google 的流行 LLM 上进行了评估。
尽管这一挑战很困难(这是生物科学中最具挑战性的领域之一),研究人员发现,ChatGPT 和 Gemini 的更新版本比旧版本有所改进,表明模型开发的演化趋势可能会有效地随着时间的推移而改进诊断过程。
论文指出:
‘结果显示性能有显著的差异,范围从 16.48% 到 38.64% 的准确率,新一代模型的性能有 2.3 倍的改进。虽然所有模型都面临罕见疾病诊断的重大挑战,但观察到的性能改进表明了未来发展的有前途的方向。 ‘
‘我们的教育验证基准建立了叙事医疗推理的基准性能指标,并为推进人工智能辅助诊断研究提供了一个公开可用的评估框架。’
除了建立基准性能以便于评估未来努力之外,作者指出新的数据集——他们正在 公开提供——解决了现有医疗数据集中缺乏叙事过程的问题,并且比标准医疗数据集更容易获取。
这项 新工作 的标题为 评估大型语言模型在罕见疾病诊断中的性能:使用豪斯医生案例研究,由宾夕法尼亚州立大学的四位研究人员完成。
数据
为了填充他们的数据集,作者使用了来自长期存在的 豪斯医生维基 粉丝网站的公开材料。通过流行的 Beautiful Soup 框架 提取和提炼了叙事内容,该框架可以从网页的 HTML 源代码中提取结构化数据。
在以这种方式收获基本叙事之后,四个 LLM 被用来将输出转换为标准化的案例格式。使用的模型是 GPT-4o mini、GPT-5 Mini、Gemini 2.5 Flash 和 Gemini 2.5 Pro。最后,应用了质量过滤,以确保数据集具有适当的临床细节和与当前医疗推理的最新进展的一致性。
作者观察到 ‘孤儿病’(又称罕见疾病) 在标准医疗数据库中代表性不足;在某些情况下,它们在 豪斯医生 节目中的覆盖范围可能代表了它们总存在覆盖范围的一部分。
作者承认,这种类型的数据源的实用性必须谨慎地与艺术许可可能在某些时候优先于医疗剧的开发相平衡:
‘虽然我们的数据集反映了虚构内容的局限性,包括戏剧性的夸张和复杂案例的关注,但这些特征可能会通过提供具有挑战性的边缘案例来测试模型的鲁棒性而受益。’
‘豪斯医生被医疗专业人员教育验证的事实让我们相信,提取的场景包含适合人工智能评估的临床有意义的信息。’
![项目生成的数据集示例。来源 [ https://www.kaggle.com/datasets/arshgupta23/housemd-data-for-rare-disease-accuracy-using-llms?resource=download ]](https://www.unite.ai/wp-content/uploads/2025/11/dataset-examples.jpg)
项目生成的数据集示例。 来源
测试
为了评估模型在叙事诊断任务中的准确性,作者设计了一个简单的流水线,结合提示生成、模型推理和评分。
前面提到的四个 LLM 被测试,每个模型都配置了 温度 设置为零(确保 确定性 而不是“创造性”的输出),并且最大 令牌 长度为 1,500——一个旨在适应复杂诊断推理的容量。没有使用额外的系统提示来进一步框定查询。
提示本身遵循标准的结构化医疗案例呈现格式——这与医疗剧中新患者/疾病被介绍时,医生为其他医生(实际上是为观众)总结概述时的格式相同。
每个提示都呈现了一个包括人口统计细节、症状时间线、相关医疗史和早期诊断结果在内的临床叙事。模型被要求识别一个单一的主要诊断,并用 推理 来证明其结论。
每个模型在单次传递中生成其诊断响应,而无需任何迭代改进;并且在所有 176 个案例中都以一致的条件收集响应:
![一个示例,显示一个叙事临床提示及其对应的真实诊断,用于测试 Gemini 2.5 Pro。来源 [ https://arxiv.org/pdf/2511.10912 ]](https://www.unite.ai/wp-content/uploads/2025/11/table-2-1.jpg)
一个示例,显示一个叙事临床提示及其对应的真实诊断,用于测试 Gemini 2.5 Pro。 来源
