Unghiul lui Anderson

Utilizarea show-ului TV „House” pentru a dezvolta capacitățile de diagnostic ale inteligenței artificiale

Published November 17, 2025

Updated April 1, 2026

Martin Anderson

A screen capture from the NBC TV show 'House, S04E02., 'The Right Stuff'

Deși diagnosticarea bolilor rare este o provocare deosebit de dificilă pentru inteligența artificială (la fel ca și pentru oameni), modelele lingvistice populare ChatGPT și Gemini arată o performanță promițătoare atunci când sunt antrenate pe cazuri de diagnostic din drama medicală populară „House”.

Aproape jumătate dintre toți studenții la științe medicale privesc în mod regulat drame medicale precum House, Grey’s Anatomy și Scrubs. Deși acest tip de material poate fi utilizat doar în scopuri didactice, cu o filtrare și o încadrare adecvată, din cauza riscului de a răspândi informații false periculoase, standardul de cercetare pentru dramele care prezintă afecțiuni medicale are tendința de a fi destul de ridicat (deși acuratețea variază în funcție de producții).

Nu este de mirare că medicii adesea inițiază, consiliază și/sau scriu drame medicale TV. În astfel de cazuri, cunoștințele medicale extinse sunt avantajoase nu numai pentru a transmite în mod precis problemele medicale, ci și pentru a genera sugestii pentru noi și interesante linii de poveste.

Una dintre cele mai bine cercetate emisiuni medicale din „epoca de aur” recentă a TV-ului este House (cunoscut și sub numele de House MD), în care excentricitățile personajului principal și fluctuațiile mari ale distribuției secundare, amuzante pe cât erau, au luat locul al doilea după „boala săptămânii”.

În fapt, din cele 177 de episoade difuzate de-a lungul celor opt sezoane, House a oferit 176 de studii de caz diagnostice. Deși show-ul s-a încheiat în 2012, până în 2015 era deja utilizat ca instrument de predare, cu un seminar special Dr. House care a oferit rezultate îmbunătățite în comparație cu seminariile standard, chiar dacă participarea nu oferea credite pentru studenți:

Dintr-un studiu din 2015, diverse motive pentru care studenții medicali au vrut să participe la un seminar de diagnostic care a utilizat informații din show-ul TV „House”. Seminariile au fost programate la un moment deliberat dificil, și nu au oferit credite de studiu; în ciuda acestor factori, inițiativa a fost un succes. Sursa

House și inteligența artificială

Deși utilizarea House și a altor emisiuni TV diverse a fost dovedită în multiple studii ca fiind un ajutor eficient pentru învățarea studenților medicali, puțin din această abordare a fost încercată până acum într-un context de învățare automată.

Acum, o nouă lucrare de la Universitatea de Stat din Pennsylvania a făcut o încercare inițială în această direcție, prin dezvoltarea unui set de date care conține toate cele 176 de studii de caz House utilizabile, formulate într-o structură narativă de diagnostic, evaluată ulterior pe modelele LLM populare de la OpenAI și Google.

În ciuda dificultății acestei provocări (care caracterizează unul dintre cele mai dificile domenii din științele biologice), cercetătorii au constatat că versiunile mai recente ale ChatGPT și Gemini au arătat o îmbunătățire față de versiunile mai vechi, indicând faptul că tendința evolutivă a dezvoltării modelului este probabil să se îndrepte eficient către procese diagnostice în timp.

Articolul afirmă:

‘Rezultatele arată o variație semnificativă a performanței, variind de la 16,48% la 38,64% acuratețe, cu generații mai noi de modele demonstrând o îmbunătățire de 2,3 ori. Deși toate modelele se confruntă cu provocări substanțiale în diagnosticarea bolilor rare, îmbunătățirea observată în arhitecturi sugerează direcții promițătoare pentru dezvoltarea viitoare.

‘Benchmark-ul nostru validat educațional stabilește metrici de performanță de bază pentru raționamentul medical narativ și oferă un cadru de evaluare accesibil public pentru a avansa cercetarea asistată de inteligență artificială.’

Pe lângă stabilirea metricilor de performanță de bază, autorii notează că noul set de date – pe care îl fac public disponibil – rezolvă lipsa de proces narativ din seturile de date medicale existente și este ușor accesibil, în contrast cu cultura de gate-keeping a seturilor de date medicale standard.

Noua lucrare se intitulează Evaluarea modelelor de limbaj mare pe diagnosticarea bolilor rare: Un studiu de caz utilizând House M.D și provine de la patru cercetători de la Penn State*.

Date

Pentru a popula setul de date, autorii au utilizat material disponibil public din site-ul de fandom House Wiki bine stabilit. Conținutul narativ a fost extras și distilat utilizând cadrul popular Beautiful Soup, care poate extrage date structurale din sursele HTML ale paginilor web.

După ce s-a recoltat conținutul narativ de bază în acest mod, patru LLM-uri au fost utilizate pentru a transforma ieșirea într-un format standard de caz. Modelele utilizate au fost GPT-4o mini; GPT-5 Mini; Gemini 2.5 Flash; și Gemini 2.5 Pro. În final, s-a aplicat o filtrare a calității, pentru a se asigura că setul de date avea detalii clinice adecvate și alinierea cu stadiul actual al artei în raționamentul medical.

Autorii observă că ‘bolile orfane’ (cunoscute și sub numele de boli rare) sunt subreprezentate în bazele de date medicale standard; în anumite cazuri, acoperirea lor în show-ul House poate reprezenta o proporție neobișnuit de mare a acoperirii lor totale existente.

Autorii recunosc că utilitatea unei surse de date de acest tip trebuie temperată cu prudență în ceea ce privește licența artistică care poate fi prioritară uneori în dezvoltarea dramelor medicale:

‘Deși setul nostru de date reflectă limitările conținutului fictiv, inclusiv exagerarea dramatică și focalizarea pe cazuri complexe, aceste caracteristici pot beneficia evaluarea prin furnizarea de cazuri dificile care testează robustețea modelului.

‘Validarea educațională a lui House M.D. de către profesioniștii medicali oferă încredere că scenariile extrase conțin informații clinice semnificative, potrivite pentru evaluarea inteligenței artificiale.’

Exemple din setul de date generat pentru proiect. Sursa

Teste

Pentru a evalua acuratețea modelului pe sarcini de diagnostic narative, autorii au proiectat o pipelină simplă care combină generarea de prompturi, inferența modelului și scorarea.

Cele patru LLM-uri menționate anterior au fost testate, cu fiecare model configurat cu temperatură setată la zero (asigurând ieșire deterministică în loc de ieșire „creativă”), și cu o lungime maximă de token de 1.500 – o alocație proiectată pentru a acomoda raționamentul diagnostic complex. Nu s-au utilizat prompturi suplimentare pentru a încadra mai bine interogările.

Prompturile însele au respectat un format standard de prezentare a cazului medical – genul de prezentare cu care spectatorii sunt cei mai familiari din dramele medicale atunci când este introdus un nou pacient/boală și un medic rezumă o prezentare generală pentru beneficiul altor medici prezenți (efectiv, deși, pentru beneficiul spectatorilor).

Fiecare prompt a prezentat o narativă clinică care cuprinde detalii demografice; un cronologie a simptomelor; istoric medical relevant; și constatări diagnostice inițiale. Modelul a fost instruit să identifice o singură diagnosticare primară și să-și justifice concluzia cu raționament.

Fiecare model a generat răspunsul său diagnostic într-o singură trecere, fără nicio îmbunătățire iterativă; și răspunsurile au fost colectate în condiții consistente pentru toate cele 176 de cazuri: