Погляд Anderson
Використання телешоу ‘House’, щоб розвинути діагностичні можливості штучного інтелекту

Хоча діагностика рідкісних захворювань є особливо складною задачею для штучного інтелекту (як і для людей), популярні мовні моделі ChatGPT і Gemini демонструють перспективну продуктивність, коли тренуються на діагностичних випадках з популярного медичного драматичного серіалу ‘House’.
Близько половини всіх студентів медичних наук регулярно дивляться медичні драми, такі як House, Grey’s Anatomy і Scrubs. Хоча такий матеріал можна використовувати лише для дидактичних цілей з великою фільтрацією та оформленням, через ризик поширення небезпечної дезінформації, рівень дослідження для драм, що зображують медичні умови, має тенденцію бути досить високим (хоча точність варіюється серед виробництв).
Не дивно, що лікарі часто починають, радять щодо і/або писать телевізійні медичні драми. У таких випадках велика медична галузева знання є вигідною не тільки для точного передавання медичних питань, але також для ідеї нових і цікавих сюжетних ліній.
Одним з найбільш ретельно досліджених медичних шоу недавньої “золотої ери” телебачення є House (також відомий як House MD), в якому екстравагантність головного персонажа та великі коливання в складі акторського складу, розважливі, як ці були, зайняли друге місце після “захворювання тижня”.
Фактично, з 177 епізодів, показаних протягом восьми сезонів, House надав 176 діагностичних випадків. Хоча шоу закінчилося в 2012 році, до 2015 року воно вже використовувалося як навчальний інструмент, з спеціальним семінаром Dr. House, який пропонував покращені результати порівняно зі стандартними семінарами, навіть якщо відвідування не приносило студентам кредитів:
![З дослідження 2015 року, різні причини, чому медичні студенти хотіли відвідувати діагностичний семінар, який використовував інформацію з телешоу 'House'. Джерело [ https://journals.plos.org/plosone/article/file?id=10.1371/journal.pone.0193972&type=printable ]](https://www.unite.ai/wp-content/uploads/2025/11/house-seminar.jpg)
З дослідження 2015 року, різні причини, чому медичні студенти хотіли відвідувати діагностичний семінар, який використовував інформацію з телешоу ‘House’. Семінари були заплановані на спеціально складний час, і не приносили студентам кредитів; попри ці фактори, ініціатива була успішною. Джерело
House і штучний інтелект
Хоча використання House і інших різноманітних телешоу було доведено в численних дослідженнях як ефективний допоміжний засіб для навчання медичних студентів, мало з цього підходу було здійснено на сьогодні в контексті машинного навчання.
Тепер нова робота з Університету штату Пенсільванія зробила перший крок у цьому напрямку, розробивши набір даних, що містить усі придатні 176 випадків з House, сформульованих у нарративно-орієнтовану діагностичну структуру, а потім оцінених на популярних LLM з OpenAI і Google.
Попри складність цієї задачі (яка характеризує одну з найскладніших галузей біологічних наук), дослідники виявили, що більш нові версії ChatGPT і Gemini показали покращення порівняно зі старішими версіями, вказуючи на те, що еволюційна тенденція розвитку моделей, ймовірно, буде ефективно спрямована на діагностичні процеси з часом.
У роботі зазначається:
‘Результати показують значну варіацію продуктивності, що коливається від 16,48% до 38,64% точності, при цьому новіші покоління моделей демонструють покращення у 2,3 рази. Хоча всі моделі стикаються з суттєвими труднощами при діагностиці рідкісних захворювань, спостережуване покращення архітектури моделей свідчить про перспективні напрямки подальшого розвитку.
‘Наша освітньо валідована база встановлює базові показники продуктивності для нарративної медичної логіки та забезпечує публічно доступну оцінчу основу для просування досліджень щодо діагностики, підтримуваної штучним інтелектом.’
Крім встановлення базових показників продуктивності, проти яких майбутні зусилля можуть бути оцінені, автори зазначають, що новий набір даних – який вони роблять публічно доступним – вирішує проблему відсутності нарративного процесу всередині існуючих медичних наборів даних, і легко доступний, на відміну від культури стандартних медичних наборів даних, що обмежені доступом.
Нова робота названа Evaluating Large Language Models on Rare Disease Diagnosis: A Case Study using House M.D, і походять від чотирьох дослідників з Університету штату Пенсільванія*.
Дані
Для створення набору даних автори використали публічно доступний матеріал з довго встановленого House Wiki фан-сайту. Наративний контент був витягнутий і відфільтрований за допомогою популярної Beautiful Soup framework, яка може витягувати структуровані дані з джерела HTML-сторінок.
Після того, як базові нарративи були зібрані цим способом, чотири LLM були використані для перетворення виводу у стандартизовані випадкові формати. Моделі, що використовувалися, були GPT-4o mini; GPT-5 Mini; Gemini 2.5 Flash; і Gemini 2.5 Pro. Нарешті, було застосовано фільтрацію якості, щоб забезпечити, що набір даних мав відповідну клінічну детальність і відповідність сучасному стану медичної логіки.
Автори відзначають, що ‘сирітські’ захворювання (також відомі як рідкісні захворювання) підrepresented у стандартних медичних базах даних; в деяких випадках їхнє висвітлення у шоу House може становити незвичайний відсоток їхнього загального існуючого висвітлення.
Автори визнають, що корисність джерела даних такого типу повинна бути стримана обережністю щодо художньої свободи, яка може бути пріоритетною під час розробки медичної драми:
‘Хоча наш набір даних відображає обмеження художнього змісту, включаючи драматичну перебільшення та складні випадки, ці характеристики можуть бути корисними для оцінки, забезпечуючи складні випадки, що перевіряють стійкість моделі.
‘Освітня валідність House M.D. медичними фахівцями забезпечує впевненість, що витягнуті сценарії містять клінічно значимі відомості, придатні для оцінки штучним інтелектом.’
![Приклади з набору даних, створеного для проекту. Джерело [ https://www.kaggle.com/datasets/arshgupta23/housemd-data-for-rare-disease-accuracy-using-llms?resource=download ]](https://www.unite.ai/wp-content/uploads/2025/11/dataset-examples.jpg)
Приклади з набору даних, створеного для проекту. Джерело
Тести
Для оцінки точності моделей у нарративних діагностичних завданнях автори розробили простий конвеєр, що поєднує генерацію запитів, висновок моделі та оцінку.
Чотири зазначені вище LLM були протестовані, причому кожна модель була налаштована з температурою, встановленою на нуль (забезпечуючи детермінований, а не “креативний” вивід), і з максимальною довжиною токена 1500 – це дозволяло розміщувати складну діагностичну логіку. Не було використано жодних додаткових системних запитів для подальшого кадрування запитів.
Запити самі відповідали стандартній структурованій медичній формі випадків –那种, з якою глядачі будуть найбільш знайомі з медичних драм, коли новий пацієнт/захворювання вводиться, і лікар підсумовує огляд для інших лікарів (фактично, хоча б для глядачів).
Кожен запит представляв клінічну нарративну історію, що складається з демографічних деталей; хронології симптомів; відповідної медичної історії; і ранніх діагностичних висновків. Модель була інформована про ідентифікацію однієї первинної діагностики та виправдання висновку логікою.
Кожна модель генерувала діагностичний відповідь у одному проході, без будь-якого ітеративного уточнення; і відповіді були зібрані під постійними умовами для всіх 176 випадків:
![Приклад оцінювання, що показує нарративний клінічний запит і відповідну діагностику, як використовувалося для тестування Gemini 2.5 Pro. Джерело [ https://arxiv.org/pdf/2511.10912 ]](https://www.unite.ai/wp-content/uploads/2025/11/table-2-1.jpg)
Приклад оцінювання, що показує нарративний клінічний запит і відповідну діагностику, як використовувалося для тестування Gemini 2.5 Pro. Джерело












