Anderson의 관점
‘House’ TV 쇼를 이용하여 AI의 진단 능력 개발

비록 희귀병 진단은 AI(인공지능)에게 특히 어려운 도전이지만(인간에게도 마찬가지로), 인기 있는 언어 모델인 ChatGPT와 Gemini는 인기 있는 의학 드라마 ‘House’의 진단 사례에 대해 훈련될 때 약속하는 성능을 보여준다.
의학 학생 중 거의 절반이 정규적으로 ‘House’, ‘Grey\’s Anatomy’, ‘Scrubs’와 같은 의학 드라마를 시청한다. 이러한 종류의 자료는 필터링과 프레이밍이 많이 필요한 교육 목적으로만 사용될 수 있기 때문에 위험한 잘못된 정보를 퍼뜨릴 위험이 있지만 의학적 조건을 특징으로 하는 드라마의 연구 표준은 khá 높다(그러나 정확도는 생산에 따라 다르다).
의사들은 의학 드라마를 만들거나, 상담하거나, 그리고 작성하기도 한다. 이러한 경우, 광범위한 의학 분야 지식은 의학 문제를 정확하게 전달하는 데 유용한 것만이 아니라 새로운 및 흥미로운 스토리 라인을 제안하는 데에도 유용하다.
최근 ‘골든 에이지’ TV 시리즈 중 가장 연구가 잘 된 의학 쇼 중 하나는 ‘House'(aka ‘House MD’)로, 주인공의 기이한 행동과 대규모 지원 캐스트의 큰 변동은 재미있었지만 ‘주간 질병’에 비해 두 번째 자리를 차지했다.
실제로 8시즌 동안 방영된 177개의 에피소드 중 ‘House’는 176개의 진단 사례 연구를 제공했다. 쇼가 2012년에 끝났지만 2015년까지 이미 교육 도구로 사용되고 있었으며, 특수한 ‘Dr. House’ 세미나가 제공되어 표준 세미나와 비교하여 더 나은 결과를 보여주었으며, 학생에게는 학점이 주어지지 않았다:
![2015년 연구에서 의학 학생들이 'House' TV 쇼의 정보를 활용하는 진단 세미나에 참석하고 싶은 다양한 이유. 출처 [ https://journals.plos.org/plosone/article/file?id=10.1371/journal.pone.0193972&type=printable ]](https://www.unite.ai/wp-content/uploads/2025/11/house-seminar.jpg)
2015년 연구에서 의학 학생들이 ‘House’ TV 쇼의 정보를 활용하는 진단 세미나에 참석하고 싶은 다양한 이유. 세미나는 의도적으로 어려운 시간에 예정되었으며 학점이 주어지지 않았지만 이니셔티브는 히트였다. 출처
House와 AI
‘House’와 다른 다양한 TV 쇼의 사용은 의학 학생들을 위한 효과적인 보조 도구로 입증되었지만, 기계 학습 맥락에서 아직까지 이러한 접근 방식이 시도된 바 없다.
펜실베니아 주립 대학교의 새로운 논문은 ‘House’의 모든 176개의 사용 가능한 사례 연구를 데이터셋으로 개발하여 서술형 진단 구조로 형식화하고, OpenAI와 Google의 인기 있는 LLM을 평가함으로써 이 방향으로 초기 시도를 했다.
이 도전이 어려운 것尽管(이것은 생물학의 가장 어려운 분야 중 하나를 특징으로 함), 연구자들은 ChatGPT와 Gemini의 최신 버전이 이전 버전보다 향상되었다는 것을 발견했으며, 모델 개발의 진화 트렌드는 시간이 지남에 따라 진단 프로세스에 효과적으로 기울어질 가능성이 있다.
논문은 다음과 같이 말한다:
‘결과는 16.48%에서 38.64%까지의 정확도에서 상당한 변화를 보여주며, 최신 모델 세대는 2.3배의 향상을 보여준다. 모든 모델은 희귀병 진단에 상당한 도전을 직면하지만, 아키텍처 전반에 걸친 관찰된 향상은 미래 개발을 위한 약속하는 방향을 제시한다. ‘
‘우리의 교육적으로 검증된 벤치마크는 내러티브 의학적推論을 위한 기준 성능 지표를 설정하고 AI 지원 진단 연구를 발전시키기 위한 공개적으로 접근 가능한 평가 프레임워크를 제공한다.’
미래의 노력을 평가할 수 있는 기준 성능 지표를 설정하는 것 외에도, 저자들은 새로운 데이터셋(이를 공개적으로 제공하고 있음)이 기존 의학 데이터셋 내에서 내러티브 프로세스의 부족을 해결하며, 표준 의학 데이터셋의 게이트 킵 문화와 달리 쉽게 접근할 수 있음을 주목한다.
새로운 연구는 Evaluating Large Language Models on Rare Disease Diagnosis: A Case Study using House M.D로 제목이 붙여졌으며, 펜 스테이트의 4명의 연구자로부터 나왔다.
데이터
데이터셋을 채우기 위해, 저자들은 잘 알려진 House Wiki 팬덤 사이트의 공개 자료를 사용했다. 내러티브 콘텐츠는 인기 있는 Beautiful Soup 프레임워크를 사용하여 추출 및 정제되었으며, 이는 웹 페이지의 HTML 소스에서 구조적 데이터를 추출할 수 있다.
기본 내러티브가 이 방식으로 수집된 후, 4개의 LLM을 사용하여 출력을 표준화된 사례 형식으로 변환했다. 사용된 모델은 GPT-4o 미니; GPT-5 미니; Gemini 2.5 플래시; 및 Gemini 2.5 프로였다. 마지막으로, 적절한 임상 세부 사항 및 최신 의학적推論 상태와 일치하는지 확인하기 위해 품질 필터링이 적용되었다.
저자들은 ‘고아’ 질병(즉, 희귀병)이 표준 의학 데이터베이스에서 과도하게 표현되지 않는다는 것을 관찰하며, 때때로 ‘House’ 쇼에서 이러한 질병에 대한 커버리지가 전체 커버리지의 비정상적인 百分比를 나타낼 수 있다.
저자들은 이러한 종류의 데이터 소스의 유용성이 개발에서 예술적 허구가 우선시될 수 있기 때문에 주의를 기울여야 함을 인정한다:
‘我们的 데이터셋은 허구 콘텐츠의 제한을 반영하며, 이는 극적 과장 및 복잡한 사례에 대한 초점을 포함한다. 그러나 이러한 특성은 모델의 강건성을 테스트하는 어려운 에지 케이스를 제공함으로써 평가를益する可能性이 있다.’
‘의학 전문가에 의한 House M.D.의 교육적 검증은 추출된 시나리오가 AI 평가에 적합한 임상적으로 의미 있는 정보를 포함한다는 것을 확신시킨다.’
![프로젝트를 위한 생성된 데이터셋의 예시. 출처 [ https://www.kaggle.com/datasets/arshgupta23/housemd-data-for-rare-disease-accuracy-using-llms?resource=download ]](https://www.unite.ai/wp-content/uploads/2025/11/dataset-examples.jpg)
프로젝트를 위한 생성된 데이터셋의 예시. 출처
테스트
내러티브 진단 작업에서 모델의 정확도를 평가하기 위해, 저자들은 프롬프트 생성, 모델 추론, 및 스코어링을 결합하는 간단한 파이프라인을 설계했다.
위에서 언급한 4개의 LLM이 테스트되었으며, 각 모델은 온도를 0으로 설정하여 결정적 출력을 보장했으며, 최대 토큰 길이는 1,500으로 설정되어 복잡한 진단推論을 수용하기 위해 설계되었다. 추가 시스템 프롬프트는 쿼리를 추가로 프레이밍하기 위해 사용되지 않았다.
프롬프트 자체는 표준화된 의학적 사례 프레젠테이션 형식을 따랐으며, 이는 의학 드라마에서 새로운 환자/질병이 소개되고 의사가 다른 의사들에게 요약을 제공할 때(실제로 시청자에게) 익숙한 형식이다.
각 프롬프트는 인구 통계 세부 정보, 증상 타임라인, 관련 의료 기록, 및 초기 진단 결과를 포함하는 임상 내러티브를 제시했다. 모델은 단일 주요 진단을 식별하도록 지시받았으며, 그 결론을 추론으로 정당화했다.
각 모델은 반복적인 정제 없이 단일 패스에서 진단 응답을 생성했으며, 응답은 일관된 조건 하에서 모든 176개의 사례에 대해 수집되었다:

Gemini 2.5 Pro 테스트에 사용된 내러티브 임상 프롬프트 및 해당 그라운드 트루스 진단의 설명 예시. 출처












