زاوية Anderson
استخدام برنامج “House” التلفزيوني لتطوير قدرات التشخيص الاصطناعي

على الرغم من أن تشخيص الأمراض النادرة هو تحدي خاص للغاية للذكاء الاصطناعي (كما هو الحال مع البشر)، فإن نماذج اللغة الشائعة ChatGPT وGemini تظهر أداء واعد عند تدريبها على حالات تشخيصية من مسلسل الدراما الطبي الشهير “House”.
يتم مشاهدة مسلسلات الدراما الطبية مثل House وGrey’s Anatomy وScrubs من قبل ما يقرب من نصف طلاب العلوم الصحية بانتظام. على الرغم من أن هذا النوع من المواد يمكن استخدامه فقط لأغراض تعليمية مع تصفية وتنسيق كبيرين، بسبب خطر نشر معلومات خاطئة خطيرة، فإن معيار البحث للمسلسلات التي تتمحور حول الحالات الطبية يعتبر عالياً (على الرغم من أن الدقة تختلف عبر الإنتاجات).
ليس من المستغرب أن يتم تأليف الأطباء أو إسداء المشورة أو كتابة مسلسلات تلفزيونية طبية. في هذه الحالات، تكون المعرفة الطبية المتقدمة مفيدة ليس فقط لنقل القضايا الطبية بدقة، ولكن أيضًا لتقديم اقتراحات لسيناريوهات جديدة ومثيرة.
أحد أكثر المسلسلات التلفزيونية الطبية التي تمت دراستها بدقة في العصر الذهبي الأخير للتلفزيون هو House (أو House MD)، حيث تأتي غرابة الشخصية الرئيسية وتقلبات كبيرة في طاقم الدعم في المرتبة الثانية بعد “مرض الأسبوع”.
في الواقع، من بين 177 حلقة تم بثها خلال موسمه الثامن، قدم House 176 دراسة حالة تشخيصية متقنة. على الرغم من انتهاء المسلسل في عام 2012، إلا أنه كان يستخدم بالفعل كأداة تعليمية في عام 2015، مع دورة đặcية حول دكتور هاوس التي قدمت نتائج محسنة مقارنة بالدورات العادية، حتى بدون منح أي رصيد للطلاب:

من دراسة 2015، أسباب متنوعة لماذا يريد الطلاب المشاركة في دورة تشخيصية تستخدم معلومات من برنامج “House” التلفزيوني. تم جدولة الدورات في وقت متعمد للتحدي، ولم تمنح أي رصيد دراسي؛ على الرغم من هذه العوامل، كان المبادرة ناجحة. المصدر
House والذكاء الاصطناعي
على الرغم من أن استخدام House والمسلسلات التلفزيونية المتنوعة الأخرى قد أثبتت في العديد من الدراسات أنها وسيلة مساعدة فعالة للتعلم، بالنسبة للطلاب الطبيين، إلا أن القليل من هذه النهج تم محاولة حتى الآن في سياق التعلم الآلي.
الآن، قدمت ورقة جديدة من جامعة ولاية بنسلفانيا محاولة أولية في هذا الاتجاه، من خلال تطوير مجموعة بيانات تضم جميع الحالات التشخيصية القابلة للاستخدام من House، مع صياغةها في هيكل تشخيصي قائم على السرد، ثم تقييمها على نماذج اللغة الكبيرة الشائعة من OpenAI وGoogle.
على الرغم من صعوبة هذا التحدي (الذي يمثل أحد أكثر المجالات صعوبة في العلوم البيولوجية)، وجد الباحثون أن الإصدارات الأحدث من ChatGPT وGemini أظهرت تحسنًا مقارنة بالإصدارات القديمة، مما يشير إلى أن اتجاه التطور في تطوير النماذج من المرجح أن يتحول بشكل فعال إلى عمليات تشخيصية مع مرور الوقت.
تنص الورقة على:
‘تظهر النتائج تباينًا كبيرًا في الأداء، يتراوح بين 16.48٪ و38.64٪ من الدقة، مع تحقيق الإصدارات الأحدث من النماذج تحسنًا بنسبة 2.3 مرة. في حين أن جميع النماذج تواجه تحديات كبيرة في تشخيص الأمراض النادرة، فإن التحسن الملاحظ عبر الهياكل يشير إلى اتجاهات واعدة للتطوير المستقبلي. ‘
‘يقوم مقياسنا التعليمي المعتمد على تعيين معايير الأداء الأساسية للتفكير الطبي السردي ويقدم إطارًا تقييميًا متاحًا علنًا لتطوير أبحاث التشخيص بمساعدة الذكاء الاصطناعي.’
بجانب تحديد معايير الأداء الأساسية التي يمكن تقييم الجهود المستقبلية بها، يلاحظ المؤلفون أن مجموعة البيانات الجديدة – التي سيتم إتاحتها للجمهور – تحل مشكلة عدم وجود عملية سردية داخل مجموعات البيانات الطبية الحالية، وهي متاحة بسهولة، على عكس ثقافة التحكم في مجموعات البيانات الطبية العادية.
يعتبر هذا العمل الجديد بعنوان تقييم نماذج اللغة الكبيرة على تشخيص الأمراض النادرة: دراسة حالة باستخدام House M.D، ويأتي من أربعة باحثين في جامعة بنسلفانيا*.
بيانات
为了 ملء مجموعة البيانات، استخدم المؤلفون مواد متاحة للجمهور من موقع ويكيبيديا التلفزيوني House Wiki. تم استخراج المحتوى السردي وتنقيته باستخدام إطار Beautiful Soup الشهير، الذي يمكنه استخراج بيانات هيكلية من مصدر HTML للصفحات الإلكترونية.
بعد حصاد السرد الأساسي بهذه الطريقة، تم استخدام أربعة نماذج لغة كبيرة لتحويل الإخراج إلى تنسيق حالة معياري. النماذج المستخدمة هي GPT-4o mini؛ GPT-5 Mini؛ Gemini 2.5 Flash؛ وGemini 2.5 Pro. أخيرًا، تم تطبيق تصفية الجودة لضمان أن مجموعة البيانات تحتوي على تفاصيل سريرية مناسبة ومتوافقة مع حالة الفن الحالية في التفكير الطبي.
يلاحظ المؤلفون أن ‘أمراض الأيتام’ (أي الأمراض النادرة) تمثّل أقل تمثيلاً في قواعد البيانات الطبية العادية؛ في بعض الحالات، قد تمثل تغطيتها في برنامج House نسبة غير عادية من التغطية الكلية الموجودة.
يقر المؤلفون بأن فائدة مصدر بيانات من هذا النوع يجب أن تتم معالجته بحذر فيما يتعلق بالترخيص الفني الذي قد يتم إعطاؤه الأولوية في بعض الأحيان في تطوير الدراما الطبية:
‘في حين أن مجموعة بياناتنا تعكس قيود المحتوى الخيالي، بما في ذلك التضخيم الدرامي والتركيز على الحالات المعقدة، قد تفيد هذه الخصائص التقييم من خلال تقديم حالات حافة تحديية تختبر متانة النموذج.’
‘توفّر التأييد التعليمي لبرنامج House M.D. من قبل المحترفين الطبيين يمنحنا الثقة بأن السيناريوهات المستخرجة تحتوي على معلومات سريرية ذات معنى سريري مناسب للتقييم الاصطناعي.’
![أمثلة من مجموعة البيانات التي تم إنشاؤها للمشروع. المصدر [ https://www.kaggle.com/datasets/arshgupta23/housemd-data-for-rare-disease-accuracy-using-llms?resource=download ]](https://www.unite.ai/wp-content/uploads/2025/11/dataset-examples.jpg)
أمثلة من مجموعة البيانات التي تم إنشاؤها للمشروع. المصدر
اختبارات
为了 تقييم دقة النموذج في المهام التشخيصية السردية، صمم المؤلفون خط أنابيب بسيطًا يجمع بين توليد التلميحات، واشتقاق النموذج، وتسجيل النتائج.
تم اختبار النماذج الأربعة المذكورة أعلاه، مع تكوين كل نموذج بدرجة حرارة تساوي صفر (لضمان خرج محدد بدلاً من خرج “إبداعي”)، وحد أقصى لطول الرمز البرمجي يبلغ 1500 – سماح مصمم لاستيعاب عمليات التفكير التشخيصية المعقدة. لم يتم استخدام أي تلميحات نظام إضافية لتحديد الاستفسارات بشكل أكبر.
تم اتباع تلميحات بنفس الشكل للمقدمات الطبية المعتادة – النوع الذي يعتاده المشاهدون من المسلسلات الطبية عندما يتم تقديم مريض جديد / مرض جديد، ويقوم الطبيب بتلخيص نظرة عامة لمصلحة الأطباء الآخرين الحاضرين (فعالًا، على الرغم من ذلك، لمصلحة المشاهدين).
تم تقديم كل تلميح بموجب ملخص سردي سريري يتضمن تفاصيل ديموغرافية؛ جدول زمني للأعراض؛ التاريخ الطبي ذي الصلة؛ والنتائج التشخيصية المبكرة. تم توجيه النموذج لتحديد تشخيص أولي واحد، وتبرير استنتاجه بالتفكير:

مثال توضيحي لاختبار Gemini 2.5 Pro. المصدر












