Andersonの視点
『ハウス』TVショーを使用してAIの診断能力を開発する

希少疾患の診断は、AI(および人間)にとって特に難しい課題ですが、人気のある言語モデルであるChatGPTとGeminiは、人気のある医療ドラマ『ハウス』の診断ケースでトレーニングされた場合、有望なパフォーマンスを示しています。
ほとんどの医療系学生の半分が、定期的に『ハウス』や『グレイズ・アナトミー』、『スクラブス』などの医療ドラマを視聴しています。ただし、この種の資料は、危険な誤情報の拡散のおそれがあるため、多くのフィルタリングと枠組みが必要です。医療条件を特集したドラマの研究水準は一般的に高く(ただし、正確さは作品によって異なります)。
予想通り、医師はしばしばオリジナルの医療ドラマを作成したり、アドバイスを提供したり、脚本を書いたりします。そうした場合、広範な医療ドメインの知識は、医療上の問題を正確に伝えるだけでなく、新しい興味深いストーリーラインのアイデアを出そうとする際にも有益です。
最近のテレビの「黄金時代」の最も研究に基づいた医療ショーの一つは、ハウス(別名ハウスMD)で、主役の奇抜さやサポートキャストの大きな変動は面白かったですが、「週の病気」に次ぐものでした。
実際、8シーズンにわたって放送された177エピソードのうち、ハウスは熱心に176の診断ケーススタディを提供しました。ショーは2012年に終了しましたが、2015年までに、特別なDr.ハウスセミナーが標準的なセミナー内容よりも優れた結果をもたらし、学生のクレジットは得られませんでした。
![2015年の研究から、医学生が『ハウス』TVショーからの情報を活用した診断セミナーに参加したい理由の多様性。ソース[ https://journals.plos.org/plosone/article/file?id=10.1371/journal.pone.0193972&type=printable ]](https://www.unite.ai/wp-content/uploads/2025/11/house-seminar.jpg)
2015年の研究から、医学生が『ハウス』TVショーからの情報を活用した診断セミナーに参加したい理由の多様性。セミナーは故意に難しい時間に予定され、学期クレジットは得られませんでした。にもかかわらず、この取り組みは大成功でした。 ソース
ハウスとAI
『ハウス』や他のさまざまなTVショーの使用は、医療学生にとって効果的な学習補助ツールであることが多くの研究で証明されています。ただし、これらのアプローチはまだ機械学習の文脈ではあまり試みられていません。
ペンシルバニア州立大学からの新しい論文は、この方向に初めて取り組み、すべての使用可能な176のハウスケーススタディを特集し、物語駆動型の診断構造に整理し、OpenAIとGoogleの人気LLMで評価しました。
この課題の難しさ(生物科学で最も難しい分野の一つ)にもかかわらず、研究者は、ChatGPTとGeminiの最新バージョンが古いバージョンよりも改善されたことを発見し、モデル開発の進化の傾向は将来、診断プロセスに効果的に適合する可能性が高いことを示しています。
論文には以下のように記載されています:
‘結果は、16.48%から38.64%の精度の範囲で有意な変動を示し、新しいモデル世代は2.3倍の改善を示しています。すべてのモデルは希少疾患の診断に重大な課題に直面していますが、アーキテクチャ間で観察された改善は、将来の開発の約束のある方向性を示唆しています。 ‘
‘私たちの教育的に検証されたベンチマークは、物語的な医療推論の基準となるパフォーマンスメトリクスを確立し、AI支援診断研究を進めるための公開評価フレームワークを提供します。 ‘
将来の取り組みを評価するためのパフォーマンスベースラインを確立することに加えて、著者は、新しいデータセット(公開する予定)が、既存の医療データセット内の物語的プロセスの欠如を解決し、標準的な医療データセットのゲートキープ文化とは対照的に、簡単に利用できることを指摘しています。
新しい研究は、House M.Dを使用した希少疾患診断における大規模言語モデルの評価というタイトルで、ペン州の4人の研究者によって行われています。
データ
データセットを構築するために、著者は、長期にわたって確立されたハウスウィキファンダムサイトからの公開資料を使用しました。物語的なコンテンツは、人気のあるビューティフルスープフレームワークを使用して抽出および抽象化され、WebページのHTMLソースから構造化データを抽出できます。
基本的な物語がこの方法で収集された後、4つのLLMを使用して出力を標準化されたケース形式に変換しました。使用されたモデルは、GPT-4oミニ、GPT-5ミニ、Gemini 2.5フラッシュ、Gemini 2.5 Proでした。最後に、適切な臨床的詳細と医療推論の現在の状態との整合性を確保するために、品質フィルタリングが適用されました。
著者は、‘孤児病’(希少疾患)が標準的な医療データベースでは表現されていないことを観察しています。特定の場合、ショーでのカバレッジは、存在するカバレッジの異常な割合を表す場合があります。
著者は、医療ドラマの開発において芸術的なライセンスが優先される可能性があるため、この種のデータソースの有用性は、注意をもって抑制する必要があることを認めています。
‘私たちのデータセットは、ドラマ的誇張や複雑な症例への焦点などのフィクションコンテンツの限界を反映していますが、これらの特性は、モデルロバスト性をテストする挑戦的なエッジケースを提供することで評価に利益をもたらす可能性があります。 ‘
‘ハウスM.D.の教育的検証は、医療専門家によって行われており、抽出されたシナリオには、AIの評価に適した臨床的に有意な情報が含まれていることを保証しています。 ‘
![プロジェクトで生成されたデータセットの例。ソース [ https://www.kaggle.com/datasets/arshgupta23/housemd-data-for-rare-disease-accuracy-using-llms?resource=download ]](https://www.unite.ai/wp-content/uploads/2025/11/dataset-examples.jpg)
プロジェクトで生成されたデータセットの例。 ソース
テスト
物語的な診断タスクのモデル精度を評価するために、著者は、プロンプト生成、モデル推論、スコアリングを組み合わせたシンプルなパイプラインを設計しました。
上記の4つのLLMがテストされ、各モデルは温度を0(決定論的な出力ではなく「創造的な」出力を保証する)に設定され、最大トークン長は1,500に設定されました。これは、複雑な診断推論を収容するように設計されたものでした。システムプロンプトを使用して、クエリをさらに枠組み化することはありませんでした。
プロンプト自体は、医療ドラマで新しい患者/疾患が紹介され、医師が他の医師の利益のために(実質的には、しかし、視聴者の利益のために)概要をまとめる標準的な構造化医療症例プレゼンテーション形式に従いました。
各プロンプトには、人口統計的詳細、症状のタイムライン、関連する医療歴、初期の診断結果が含まれる臨床的物語が提示され、モデルは単一の一次診断を特定し、推論によってその結論を正当化するように依頼されました。
各モデルは、反復的な改良なしに1回のパスで診断応答を生成し、応答は一貫した条件下ですべての176症例で収集されました。
![Gemini 2.5 Proをテストするために使用された物語的な臨床プロンプトと対応するグラウンドトゥルース診断の示例。ソース [ https://arxiv.org/pdf/2511.10912 ]](https://www.unite.ai/wp-content/uploads/2025/11/table-2-1.jpg)
Gemini 2.5 Proをテストするために使用された物語的な臨床プロンプトと対応するグラウンドトゥルース診断の示例。 ソース












