Connect with us

‘House’ TV Şovunu Kullanarak Yapay Zekanın Teşhis Yeteneklerini Geliştirme

Anderson’un Açısı

‘House’ TV Şovunu Kullanarak Yapay Zekanın Teşhis Yeteneklerini Geliştirme

mm
A screen capture from the NBC TV show 'House, S04E02., 'The Right Stuff'

Nadiren görülen hastalık teşhisi, insanların yanı sıra yapay zeka için de özellikle zor bir challenge teşkil etmektedir, ancak popüler dil modelleri ChatGPT ve Gemini, popüler ‘House’ tıbbi drama dizisinden alınan teşhis vakalarına eğitim verildiğinde umut verici bir performans sergilemektedir.

 

Tıp bilimleri öğrencilerinin neredeyse yarısı düzenli olarak House, Grey’s Anatomy ve Scrubs gibi tıbbi dramaları izlemektedir. Bu tür materyaller, ancak çok fazla filtreleme ve çerçeveleme ile didaktik amaçlar için kullanılabilir, çünkü yanlış bilginin yayılma riski vardır, ancak tıbbi koşulları içeren dramalar için araştırma standardı genellikle oldukça yüksektir (ancak doğruuluk üretimler arasında değişir).

Beklenebileceği gibi, doktorlar sık sık orijin, danışmanlık yapar ve/veya yazar TV tıbbi dramaları. Böyle durumlarda, geniş tıbbi alan bilgisi, yalnızca tıbbi sorunları doğru bir şekilde aktarmak için değil, aynı zamanda yeni ve ilginç hikaye fikirleri önermek için de avantajlıdır.

Son ‘altın çağ’ TV’nin en çok araştırılan tıbbi şovlarından biri House (aka House MD), burada ana karakterin tuhaflıkları ve büyük destekleyici kadro dalgalanmaları, eğlenceli olduğu kadar, ‘haftanın hastalığına’ ikinci planda kaldı.

Aslında, sekiz sezon süresince yayınlanan 177 bölümden, House 176 teşhis vaka çalışması sağladı. Şov 2012’de bitti, ancak 2015 yılına gelindiğinde, already bir özel Dr. House semineri olarak kullanılmaya başlandı ve bu, standart seminer malzemelerine kıyasla geliştirilmiş sonuçlar sundu, öğrenci kredileri sağlamasa da:

2015 çalışmasından, tıbbi öğrencilerin 'House' TV şovundan alınan bilgileri kullanan teşhis seminerine katılmak istedikleri çeşitli nedenler. Kaynak [ https://journals.plos.org/plosone/article/file?id=10.1371/journal.pone.0193972&type=printable ]

2015 çalışmasından, tıbbi öğrencilerin ‘House’ TV şovundan alınan bilgileri kullanan teşhis seminerine katılmak istedikleri çeşitli nedenler. Seminerler, kasıtlı olarak zor bir zamanda planlandı ve çalışma kredileri sağlamadı; bu faktörlere rağmen, girişim bir hit oldu. Kaynak

House ve Yapay Zeka

House ve diğer çeşitli TV şovlarının kullanımı, tıbbi öğrenciler için etkili bir öğrenme aracı olarak kanıtlanmış olsa da, bu yaklaşımın çok azı şimdiye kadar makine öğrenimi bağlamında denenmiştir.

Şimdi, Pennsylvania Eyalet Üniversitesi’nden bir yeni çalışma, bu yönde ilk adımı atmış ve 176 House vaka çalışmasını içeren bir veri seti geliştirmiştir, bu veri seti, bir anlatı odaklı teşhis yapısına formüle edilmiştir ve OpenAI ve Google’dan popüler LLM’ler üzerinde değerlendirilmiştir.

Bu zorluğun zorluğu (biyolojik bilimlerindeki en zor alanlardan birini karakterize eder), araştırmacılar, daha yeni ChatGPT ve Gemini sürümlerinin, daha eski sürümlerine kıyasla iyileşme gösterdiğini bulmuşlardır, bu da model geliştirme trendinin zaman içinde teşhis süreçlerine etkili bir şekilde eğileceğini göstermektedir.

Makale şöyle diyor:

‘Sonuçlar, %16,48’den %38,64’e kadar değişen önemli performans varyasyonunu göstermektedir ve daha yeni model nesilleri, 2,3 katlık bir iyileşme göstermektedir. Tüm modeller, nadir hastalık teşhisi ile önemli zorluklarla karşılaşıyor olsa da, mimariler boyunca gözlenen iyileşme, gelecek gelişme için umut verici yönler gösterir.’

‘Eğitimle doğrulanmış referans çerçevemiz, anlatısal tıbbi akıl yürütme için temel performans ölçütlerini kurar ve AI destekli teşhis araştırmalarının ilerlemesi için kamu tarafından erişilebilen bir değerlendirme çerçevesi sağlar.’

Gelecek çabaların değerlendirilebileceği performans bazlarını oluşturmanın yanı sıra, yazarlar, yeni veri setinin – ki bunu kamuoyuna açık olarak sunuyorlar – mevcut tıbbi veri setlerindeki anlatısal süreç eksikliğini çözdüğünü ve standart tıbbi veri setlerinin kapalı kültürüne kıyasla kolayca erişilebileceğini belirtiyorlar.

Yeni çalışma, House M.D. Kullanarak Nadir Hastalık Teşhisi Üzerinde Büyük Dil Modellerini Değerlendirme başlıklı ve Penn State’ten dört araştırmacının eseridir.

Veri

Veri setini oluşturmak için, yazarlar, uzun süredir kurulmuş House Wiki fandom sitesinden kamuoyuna açık materyali kullandılar. Anlatısal içerik, popüler Beautiful Soup framework kullanılarak çıkarıldı ve damıtıldı, bu framework, web sayfalarının HTML kaynağından yapısal verileri çıkarabilir.

Temel anlatılar bu şekilde hasat edildikten sonra, dört LLM kullanılarak çıktı, standartlaştırılmış vaka formatına dönüştürüldü. Kullanılan modeller GPT-4o mini; GPT-5 Mini; Gemini 2.5 Flash; ve Gemini 2.5 Pro idi. Son olarak, kalite filtreleme uygulandı, böylece veri setinin uygun klinik ayrıntıya sahip olduğu ve tıbbi akıl yürütmenin güncel durumuna uyumlu olduğu garantilenir.

Yazarlar, ‘yetim’ hastalıkların (yani, nadir hastalıkların) standart tıbbi veritabanlarında temsil edilmediğini gözlemlemektedir; belirli durumlarda, bu hastalıkların House şovundaki kapsamı, mevcut toplam kapsamlarının alışılmadık bir yüzdesini temsil edebilir.

Yazarlar, bu tür bir veri kaynağının faydasının, tıbbi drama geliştirilmesinde sanatçı lisansı önceliklendirilebileceğinden, dikkatle dengelenmesi gerektiğini kabul etmektedirler:

‘Veri setimiz, kurgusal içeriğin sınırlılıklarını yansıtsa da, dramatik abartma ve karmaşık vaka odaklı gibi özellikler, model dayanıklılığını test eden zorlu kenar durumları sunarak değerlendirme için fayda sağlayabilir.’

‘House M.D.’nin eğitimle doğrulanmış referans çerçevemiz, tıbbi profesyoneller tarafından sağlanan güveni sağlar ve çıkarılan senaryoların, AI değerlendirme için uygun klinik olarak anlamlı bilgileri içerdiğini gösterir.’

Proje için oluşturulan veri setinden örnekler. Kaynak [ https://www.kaggle.com/datasets/arshgupta23/housemd-data-for-rare-disease-accuracy-using-llms?resource=download ]

Proje için oluşturulan veri setinden örnekler. Kaynak

Testler

Anlatısal teşhis görevlerindeki model doğruluğunu değerlendirmek için, yazarlar, bir pipeline tasarladılar, bu pipeline,.prompt oluşturma, model çıkarımı ve puanlama içerir.

Dört yukarıda bahsedilen LLM test edildi, her model sıcaklık sıfıra ayarlandı (deterministik çıktı garantileyen ‘yaratıcı’ çıktı yerine), ve maksimum token uzunluğu 1.500 olarak ayarlandı – karmaşık teşhis akıl yürütmesini kapsayacak şekilde tasarlanan bir izin.

Prompt’lar, standart bir yapısal tıbbi vaka sunum formatına uyuyordu – tıbbi dramalardan tanıdık olduğunuz bir format, yeni bir hasta/hastalık tanıtılır ve bir doktor, diğer doktorların (aslında, izleyicilerin) yararına bir özet sunar.

Her prompt, demografik ayrıntılar, semptomlar zaman çizelgesi, ilgili tıbbi geçmişi ve erken teşhis bulguları içeren bir klinik anlatı sunuyordu. Model, birincil teşhisi tanımlamak ve akıl yürütme ile sonucunu haklı çıkarmak için talimat verildi.

Her model, tek bir geçişte teşhis yanıtını üretti, hiçbir yineleme iyileştirme olmadan; ve yanıtlar, tüm 176 vaka boyunca tutarlı koşullar altında toplandı:

Gemini 2.5 Pro için test edilen bir anlatısal klinik prompt ve karşılık gelen gerçek teşhis gösteren bir örnek.

Gemini 2.5 Pro için test edilen bir anlatısal klinik prompt ve karşılık gelen gerçek teşhis gösteren bir örnek. Kaynak

Metrikler için, tahminler, tıbbi terminolojideki belirsizliği hesaba katmak için tasarlanmış bir ‘bulanık’ dize eşleştirme prosedürü kullanılarak değerlendirildi. Yaklaşım, Python’un SequenceMatcher kütüphanesini kullandı, 0,8 benzerlik eşiği ile, tam alt dize eşleştirmesi ile başlayarak ve gerektiğinde token-bazlı karşılaştırma ile devam etti. Doğruluk bu koşullar altında doğru sınıflandırılan vakaların oranı olarak hesaplandı:

Araştırmacıların kullandığı 'bulanık eşleştirme' iş akışı.

Araştırmacıların kullandığı ‘bulanık eşleştirme’ iş akışı.

Yazarlar, bulanık eşleştirmenin, semantik olarak aynı teşhisleri kullanan ancak farklı terminoloji kullanan teşhislerin kaçırılabileceğini belirtirler, ancak yaklaşımını, projenin kısıtlamalarına uyan en yeniden üretilen yaklaşım olarak sunarlar.

Sonuçlar

Teşhis doğruluğu, modeller arasında geniş bir şekilde değişti, Gemini 2.5 Pro %38,64 ile en iyi performansı gösterdi, onu %36,93 ile GPT-5 Mini, %32,95 ile Gemini 2.5 Flash ve %16,48 ile GPT-4o Mini izledi. Bu farklılıklara rağmen, tüm modeller, nadir hastalıkların teşhis zorluğuyla mücadele etti:

Dört modelin teşhis doğruluğu sonuçları.

Dört modelin teşhis doğruluğu sonuçları.

Yazarlar ayrıca, performansı House şovunun çeşitli sezonları boyunca değiştiğini belirtiyorlar:

<img class=" wp-image-225847" src="https://www.unite.ai/wp-content/uploads/2025/11/table-4.jpg" alt="Farklı House sezonlarındaki değişen doğruluk, ancak herhangi bir açık neden veya eğilim olmadan.” width=”605″ height=”313″ /> Farklı House sezonlarındaki değişen doğruluk, ancak herhangi bir açık neden veya eğilim olmadan.

Makale şöyle diyor:

‘1. sezon, %56,52 ile en yüksek doğruluğu elde etti, mentre 5. sezon, %20,83 ile en düşük doğruluğu gösterdi. Bu varyasyon, dizinin boyunca teşhis karmaşıklığının değiştiğini öne sürer, daha sonraki sezonların daha zor nadir hastalık vakalarına sahip olabileceğini gösterir.’

‘Ancak, 8. sezonun nispeten güçlü performansı (%52,38), zamanın ilerlemesinin doğruluk farklılıklarını tam olarak açıklamadığını, ancak vaka spesifik teşhis karmaşıklığının temel sürücü olduğunu gösterir.’

Modeller, tanınabilir semptomları olan ortak koşulları teşhis ettiğinde, Örneğin, menenjit, miyokard enfarktüsü ve pulmoner emboli, daha güvenilir bir şekilde performans gösterdiler, ancak nadir hastalıklar, Örneğin, nörosistiserkoz ve Erdheim-Chester hastalığı, ve kompleks otoimmün bozukluklar, Örneğin, sistemik lupus eritematozus ve sarkoidoz ile sürekli olarak mücadele ettiler. Toksikolojik vakalarda, performans da, maruz kalma geçmişini klinik bulgulara bağlama gerektiğinde düştü.

Yazarlar, model performansı arasındaki varyasyonun, mimari ve eğitim stratejisi arasındaki anlamlı farklılıkları gösterdiğini, GPT-5 Mini ve Gemini 2.5 Pro’nun daha güçlü performansının, daha yeni LLM nesillerinin geliştirilmiş akıl yürütme yeteneklerine sahip olduğunu gösterdiğini öne sürmektedir.

Sonuçlar, yazarlara göre, anlatısal nadir hastalık teşhisi için temel performans ölçütleri sağlar ve mevcut dil modellerinin, tıbbi akıl yürütme yetenekleri açısından faydalı bir seviyeye ulaştığını gösterir.

GPT-4o Mini’den %16,48’den Gemini 2.5 Pro’dan %38,64’e kadar olan atılım, makaleye göre, klinik olarak uygulanabilir AI destek araçlarına doğru istikrarlı ilerleme sinyali verir.

Araştırmacılar, doğruluk seviyelerinin hala mütevazı olduğunu kabul etseler de, referans çerçevelerinin, yalnızca çok karmaşık vakalara odaklandığını, hatta eğitimli doktorları da zorlayabilecek vakalara odaklandığını belirtirler ve bu zor örneklerde teşhisi doğru bir şekilde tanımlayabilme yeteneği, gerçek akıl yürütme kapasitesini gösterir ve gelecekte, hedefli fine-tuning, yapılandırılmış tıbbi bilgi entegrasyonu veya melez akıl yürütme stratejileri yoluyla geliştirme için temel oluşturur.

Sonuç

TV şovlarının anlatılarını gerçek dünya tıbbi veri setlerine dönüştürmenin bazı açık tehlikeleri vardır – hatta House gibi, kaynak materyalin yüksek düzeyde nitelikli tıbbi katkıları ve/veya gözetimi olduğu durumlarda bile.

Bir House bölümünün, aslında, bir dizi tıbbi girişi özetleyen bir makine gibi çalıştığı ilginçtir, bu girişler, ortalama bir kişi veya internet üzerindeki veri kaynakları için doğrudan erişilemeyebilir veya çok daha parçalı ve doğrusal olmayan bir şekilde sunulabilir.

Bir doktorun, sık sık House ile olduğu gibi, bir bölümün senaryosunu yazması, araştırmacılar için içerik hakkında bir tür ‘onay’ olarak kullanılabilir, ancak bu, sanatçı lisansı, bölümdeki hastalığın sunumunu etkileyebileceğinden, göz ardı edilir.

Bu, veri setini, diğer potansiyel olarak faydalı veri kaynakları gibi, pahalı, nitelikli insan gözetimi için ihtiyaç duyulan bir duruma bırakır.

 

* Lütfen bu çok kısa makalenin, alışılmış şablonu takip etmediğini ve kapsamı, bunu kapsayacak şekilde uyarladığımı unutmayın.

İlk olarak 17 Kasım 2025 Pazartesi günü yayınlandı.

Makine öğrenimi üzerine yazar, insan görüntü sentezinde alan uzmanı. Metaphysic.ai'de eski araştırma içeriği başkanı.
Kişisel site: martinanderson.ai
İletişim: [email protected]