Andersonův úhel
Použití televizního seriálu ‘House’ pro rozvoj diagnostických schopností AI

Přestože je diagnóza vzácných onemocnění besonders obtížným úkolem pro AI (stejně jako pro lidi), populární jazykové modely ChatGPT a Gemini ukazují slibné výsledky, když jsou trénovány na diagnostických případech z populárního lékařského dramatu ‘House’.
Téměř polovina všech studentů zdravotnických věd pravidelně sleduje lékařská dramata, jako je House, Grey’s Anatomy a Scrubs. Přestože tento typ materiálu může být použit pouze pro didaktické účely s velkou filtrací a rámcováním, kvůli riziku šíření nebezpečných dezinformací, úroveň výzkumu pro dramata s lékařskými podmínkami tends to být quite vysoká (i když přesnost se liší podle produkce).
Neočekávaně, lékaři často pocházejí, poradí na a / nebo píší televizní lékařská dramata. V takových případech je rozsáhlé lékařské znalosti výhodné nejen pro přesné vyjádření lékařských problémů, ale také pro návrh nových a zajímavých příběhů.
Jedním z nejpečlivě prozkoumaných lékařských pořadů recentní ‘zlaté éry’ televize je House (také známý jako House MD), kde excentricita hlavní postavy a obrovské fluktuace v podpůrném obsazení, zábavné jako tyto byly, byly na druhém místě ‘nemocí týdne’.
Skutečně, z 177 epizod vysílaných po dobu osmi sezón, House poskytl 176 diagnostických případových studií. Přestože seriál skončil v roce 2012, do roku 2015 již byl použit jako pedagogický nástroj, se zvláštním Dr. House seminářem, který nabízel lepší výsledky ve srovnání se standardním seminářským programem, i když účast na něm nebyla udělena žádné studentské kredity:
![Z 2015 studie, různé důvody, proč studenti medicíny chtěli navštívit diagnostický seminář, který využívá informace z televizního seriálu 'House'. Source [ https://journals.plos.org/plosone/article/file?id=10.1371/journal.pone.0193972&type=printable ]](https://www.unite.ai/wp-content/uploads/2025/11/house-seminar.jpg)
Z 2015 studie, různé důvody, proč studenti medicíny chtěli navštívit diagnostický seminář, který využívá informace z televizního seriálu ‘House’. Semináře byly naplánovány na záměrně náročné časy a nezískaly žádné studentské kredity; navzdory těmto faktorům, iniciativa byla úspěšná. Source
House a AI
Přestože použití House a dalších různých televizních pořadů bylo prokázáno v několika studiích jako efektivní pomocný nástroj pro výuku, pro studenty medicíny, málo z tohoto přístupu bylo dosud pokusu v kontextu strojového učení.
Nyní, nová práce z Pensylvánské univerzity udělala počáteční krok v tomto směru, vytvořením datové sady, která zahrnuje všechny použitelné 176 House případových studií, formulovaných do narativně-řízené diagnostické struktury, následně vyhodnocené na populárních LLM z OpenAI a Google.
Přes obtížnost této výzvy (která charakterizuje jednu z nejobtížnějších oblastí biologických věd), výzkumníci zjistili, že novější verze ChatGPT a Gemini ukázaly zlepšení oproti starším verzím, což naznačuje, že evoluční trend vývoje modelů se pravděpodobně bude účinně zaměřovat na diagnostické procesy v průběhu času.
Práce uvádí:
‘Výsledky ukazují významné rozdíly ve výkonu, pohybující se od 16,48 % do 38,64 % přesnosti, s novějšími generacemi modelů demonstrujícími 2,3násobné zlepšení. Zatímco všechny modely čelí podstatným výzvám při diagnóze vzácných onemocnění, pozorované zlepšení napříč architekturami naznačuje slibné směry pro budoucí vývoj.
‘Naše vzdělávací validovaná měřítka stanoví základní výkonové metriky pro narativní lékařské uvažování a poskytují veřejně přístupný evaluační rámec pro pokrok ve výzkumu AI-asistované diagnostiky.’
Kromě stanovení výkonových základních metrik, proti kterým lze vyhodnotit budoucí úsilí, autoři poznamenávají, že nová datová sada – kterou činí veřejně dostupnou – řeší nedostatek narativního procesu uvnitř stávajících lékařských datových sad, a je snadno dostupná, na rozdíl s kulturou standardních lékařských datových sad, která je uzavřená.
Nová práce se jmenuje Evaluating Large Language Models on Rare Disease Diagnosis: A Case Study using House M.D, a pochází od čtyř výzkumníků z Penn State*.
Data
Pro vytvoření datové sady autoři použili veřejně dostupný materiál z dlouho zavedené House Wiki fandom stránky. Narativní obsah byl extrahován a destilován pomocí populárního Beautiful Soup frameworku, který může extrahovat strukturovaná data z HTML zdroje webových stránek.
Po základních narativech byly sklizeny tímto způsobem, čtyři LLM byly použity k transformaci výstupu do standardizovaného případového formátu. Modely použité byly GPT-4o mini; GPT-5 Mini; Gemini 2.5 Flash; a Gemini 2.5 Pro. Nakonec byla aplikována kvalitativní filtrace, aby se zajistilo, že datová sada má odpovídající klinické detaily a soulad se současným stavem lékařského uvažování.
Autoři poznamenávají, že ‘sirotčí’ onemocnění (tj. vzácná onemocnění) jsou podreprezentována v standardních lékařských databázích; v některých případech může jejich pokrytí v seriálu House představovat neobvyklý podíl jejich celkového existujícího pokrytí.
Autoři uznávají, že užitelnost zdroje dat tohoto typu musí být temperována s opatrností ve vztahu k umělecké licenci, která může být prioritizována v některých případech při vývoji lékařského dramatu:
‘Zatímco naše datová sada odráží omezení fiktivního obsahu, včetně dramatické exagerace a komplexního případového zaměření, tyto charakteristiky mohou prospět vyhodnocení tím, že poskytují náročné edge případy, které testují robustnost modelu.
‘Vzdělávací validace House M.D. lékařskými odborníky poskytuje důvěru, že extrahované scénáře obsahují klinicky významné informace vhodné pro AI [vyhodnocení].’
![Příklady z datové sady vygenerované pro projekt. Source [ https://www.kaggle.com/datasets/arshgupta23/housemd-data-for-rare-disease-accuracy-using-llms?resource=download ]](https://www.unite.ai/wp-content/uploads/2025/11/dataset-examples.jpg)
Příklady z datové sady vygenerované pro projekt. Source
Testy
Pro vyhodnocení modelové přesnosti na narativních diagnostických úkolech autoři navrhli jednoduchý pipeline kombinující generování podnětů, modelové inference a scoring.
Čtyři výše uvedené LLM byly testovány, s každým modelem nakonfigurovaným s teplotou nastavenou na nulu (zajišťující deterministické spíše než ‘kreativní’ výstup), a s maximální token délkou 1 500 – dovolení navržené pro ubytování komplexního diagnostického uvažování. Žádné další systémové podněty nebyly použity pro další rámcování dotazů.
Podněty samy o sobě dodržovaly standardní strukturovaný formát lékařské případové prezentace – typ, se kterým jsou diváci nejvíce seznámeni z lékařských dramat, když je uveden nový pacient/onemocnění, a lékař shrnuje přehled pro ostatní lékaře (efektivně, i když pro diváky).
Každý podnět představoval klinický narativ složený z demografických údajů; časové osy symptomů; relevantní lékařské historie; a počáteční diagnostické nálezy. Model je informován, aby identifikoval jednu primární diagnózu, a aby ospravedlnil své závěry uvažováním.
Každý model generoval svou diagnostickou odpověď v jednom průchodu, bez jakéhokoli iterativního zlepšení; a odpovědi byly shromážděny za konzistentních podmínek napříč všemi 176 případy:
![Ilustrativní evaluační příklad, ukazující narativní klinický podnět a jeho odpovídající ground truth diagnózu, jak bylo použito pro testování Gemini 2.5 Pro. Source [ https://arxiv.org/pdf/2511.10912 ]](https://www.unite.ai/wp-content/uploads/2025/11/table-2-1.jpg)
Ilustrativní příklad, ukazující narativní klinický podnět a jeho odpovídající ground truth diagnózu, jak bylo použito pro testování Gemini 2.5 Pro. Source
Pro metriky, předpovědi byly vyhodnoceny pomocí ‘fuzzy’ string-matching procedury navržené pro účetnictví ambiguity v lékařské terminologii. Přístup používal Python’s SequenceMatcher knihovnu, s podobností prahem 0,8, začínající s přesným substring matching a padající zpět na token-wise srovnání když je to nutné. Přesnost byla vypočtena jako podíl případů klasifikovaných správně za těchto podmínek:

The ‘fuzzy matching’ workflow použitý výzkumníky.
Autoři poznamenávají, že fuzzy matching může znamenat, že semanticky identické diagnózy, které používají odlišnou terminologii, mohou být vynechány, ale prezentují svůj přístup jako nejvíce reprodukovatelný, který může splnit všechny projekty omezení.
Výsledky
Diagnostická přesnost se výrazně lišila napříč modely, s Gemini 2.5 Pro, který vykázal nejlepší výkon na 38,64 %, následovaný GPT-5 Mini na 36,93 %, Gemini 2.5 Flash na 32,95 % a GPT-4o Mini na 16,48 %. Přes tyto rozdíly všechny modely bojovaly s nároky diagnostického uvažování pro vzácná onemocnění:

Výsledky pro diagnostickou přesnost napříč čtyřmi modely testovanými.
Autoři také poznamenávají, že výkon se lišil napříč sezónami seriálu:

Lišící se přesnost napříč různými sezónami House, ale bez žádné zjevné křivky nebo jasného důvodu.
Práce uvádí:
‘Sezóna 1 dosáhla nejvyšší přesnosti na 56,52 %, zatímco Sezóna 5 ukázala nejnižší na 20,83 %. Tato variace naznačuje, že diagnostická složitost se liší po celou sérii, s pozdějšími sezónami, které potenciálně představují více náročné vzácná onemocnění.
‘Nicméně, relativně silný výkon v Sezóně 8 (52,38 %) naznačuje, že temporální progrese sama o sobě plně nevykládá rozdíly v přesnosti; případově specifická diagnostická složitost se zdá být primárním řídícím faktorem.’
Modely vykázaly spolehlivější výkon při diagnostice běžných podmínek s rozpoznatelnými symptomy, jako je meningitida, infarkt myokardu a plicní embolie – ale konzistentně bojovaly s vzácnými onemocněními, jako je neurocysticerkóza a Erdheim-Chesterova choroba, stejně jako komplexními autoimunitními poruchami, jako je systémový lupus erythematosus a sarkoidóza. Výkon také poklesl u toxikologických případů, které vyžadovaly propojení expozice s klinickými známkami.
Autoři naznačují, že variace v přesnosti mezi modely naznačuje významné rozdíly v architektuře a strategii školení, se silnějším výkonem GPT-5 Mini a Gemini 2.5 Pro, který naznačuje, že novější generace LLM profitují z vylepšených uvažovacích schopností – i když jejich výsledky stále odhalují zjevná omezení při zvládání komplexních diagnostických úkolů.
Výsledky, které autoři prezentují, poskytují základní metriky pro narativní založenou vzácnou onemocnění diagnózu, silně naznačují, že současné jazykové modely začínají ukazovat užitečné lékařské uvažovací schopnosti.
Skok v výkonu z GPT-4o Mini na 16,48 % na Gemini 2.5 Pro na 38,64 %, práce uzavírá, signalizuje stálý pokrok směrem k klinicky aplikovatelným AI podpůrným nástrojům.
Zatímco výzkumníci uznávají, že úrovně přesnosti zůstávají skromné, benchmark se zaměřuje výhradně na vysoce komplexní případy, které běžně vyzývají i vyškolené lékaře, a schopnost správně identifikovat diagnózu v téměř 40 % těchto náročných příkladů naznačuje skutečnou uvažovací kapacitu, vytvářející základ pro budoucí zlepšení prostřednictvím cíleného jemného ladění, strukturované lékařské znalosti integrace nebo hybridní uvažovací strategie.
Závěr
Existují některé zjevné nebezpečí při opětovném použití televizních seriálových narativů do reálných lékařských datových sad – i v případech, jako je House, kde je zdrojový materiál má vysokou úroveň kvalifikovaných lékařských příspěvků a / nebo dohledu.
Je zajímavé poznamenat, že typický díl House efektivně funguje jako sumarizační stroj pro řadu lékařských záznamů, které nemusí být přímo přístupné na internetu pro průměrnou osobu nebo pro datové zdroje, které prezentují informace ve mnohem více fragmentovaném a ne-lineárním způsobem.
Mít lékaře, který skutečně píše scénář pro díl, jak se často stalo s House, mohl by být použit výzkumníky jako some formy ‘sign-off’ na obsahu; ale to ignoruje fakt, že umělecké úvahy mohly ovlivnit prezentaci onemocnění v dílu.
To zanechává data v podmínkách mnoha jiných potenciálně užitečných zdrojů dat pro školení: ve stavu, který vyžaduje novou vrstvu drahé, kvalifikované lidské kontroly.
* Poznámka, že tato velmi krátká práce nepodržuje obvyklý šablonu, a přizpůsobil jsem pokrytí, aby se přizpůsobilo tomuto.
Poprvé publikováno v pondělí, 17. listopadu 2025












