الرعاية الصحية

مجموعة بيانات COVIDx الشهيرة تُنتقد من قبل باحثين بريطانيين

Published September 22, 2021

Updated April 28, 2026

Martin Anderson

يُنتقد اتحاد بحثي من المملكة المتحدة مدى الثقة العلمية المُستثمَرة في مجموعات البيانات المفتوحة المستخدمة في تحليل صور الأشعة السينية للصدر لمرضى كوفيد-19 باستخدام التحليل القائم على رؤية الكمبيوتر، ويتضمن ذلك مجموعة البيانات الشهيرة COVIDx.

ويُدعي الباحثون، بعد اختبارهم لمجموعة بيانات COVIDx في نماذج تدريب الذكاء الاصطناعي المختلفة، أنها “ليست ممثلة للمشكلة السريرية الحقيقية”، وأن النتائج التي تم الحصول عليها باستخدامها “مُضخمة”، وأن النماذج “لا تُ일반 جيدًا” إلى بيانات العالم الحقيقي.

ويُشير المؤلفون أيضًا إلى عدم الاتساق في البيانات المُساهمة التي تتكون منها COVIDx، حيث تأتي الصور الأصلية بمجموعة متنوعة من الدقة التي يتم إعادة تشكيلها تلقائيًا بواسطة تدفق التعلم العميق إلى الأحجام الثابتة اللازمة للتدريب، ويشيرون إلى أن هذا العملية يمكن أن تُدخل خدعًا متعلقة بخوارزمية تغيير الحجم الصورة، بدلاً من الجانب السريري للبيانات.

يُسمى الورقة “أخطاء استخدام البيانات المفتوحة لتطوير حلول التعلم العميق لاكتشاف كوفيد-19 في صور الأشعة السينية للصدر”، وهي تعاون بين مركز التصوير الحاسوبي والتحاكي في الطب البيولوجي (CISTIB) في جامعة ليدز، جنبًا إلى جنب مع باحثين من خمسة منظمات أخرى في نفس المدينة، بما في ذلك مستشفيات ليدز التعليمية NHS.

وتفاصيل البحث، من بين ممارسات سلبية أخرى، “إساءة استخدام التسميات” في مجموعة بيانات COVIDx، بالإضافة إلى “مخاطر عالية من التحيز والارتباط”. وقد أدى تجارب الباحثين الخاصة بوضع المجموعة من البيانات عبر ثلاثة نماذج قابلة للتطبيق من التعلم العميق إلى استنتاجهم بأن “‘الأداء الاستثنائي المُبلَغ عنه على نطاق واسع في مجال المشكلة مُضخم، وأن نتائج أداء النموذج مُضللة، وأن النماذج لا تُ일반 جيدًا إلى بيانات سريرية واقعية”.

خمسة مجموعات بيانات متباينة في واحدة

تُشير التقرير إلى أن معظم المناهج القائمة على الذكاء الاصطناعي الحالية في هذا المجال تعتمد على “مجموعة غير متجانسة” من البيانات من مستودعات مفتوحة المصدر المنفصلة، وتُلاحظ أن خمس مجموعات بيانات ذات سمات مُختلفة تم تجميعها في مجموعة بيانات COVIDx على الرغم من (في اعتبار الباحثين) عدم وجود مساواة كافية في جودة البيانات ونوعها.

تم إصدار مجموعة بيانات COVIDx في مايو 2020 كجهد تعاوني بقيادة قسم هندسة التصميم النظم في جامعة واترلو في كندا، مع إتاحة البيانات كجزء من مبادرة COVID-Net المفتوحة المصدر.

المجموعات الخمس التي تتكون منها COVIDx هي: مجموعة بيانات صور كوفيد-19 (مجموعة مفتوحة المصدر من باحثين في مونتريال); مبادرة مجموعة بيانات الأشعة السينية للصدر لكوفيد-19; مجموعة بيانات الأشعة السينية للصدر لكوفيد-19 من Actualmed; قاعدة بيانات الأشعة السينية لكوفيد-19; ومجموعة بيانات تحدي كشف الالتهاب الرئوي من RSNA، واحدة من العديد من المجموعات التي تم إعدادها قبل كوفيد والتي تم ضغطها لخدمة أزمة الوباء.

(RICORD – انظر أدناه – تمت إضافتها إلى COVIDx فيما بعد، ولكن نظرًا لأنها تمت إضافتها بعد نماذج الدراسة، تم استبعادها من بيانات الاختبار، وبالنسبة لأي حالة، سوف تُضيف المزيد من التنوع إلى COVIDx، وهو الشكوى المركزية للمؤلفين.

يُدعي الباحثون أن COVIDx هي “الأكبر والأكثر استخدامًا” مجموعة بيانات من نوعها في المجتمع العلمي المتعلق بأبحاث كوفيد، وأن البيانات المستوردة إلى COVIDx من مجموعات البيانات الخارجية المكونة لا تتوافق بشكل كافٍ مع مخطط ثلاثي الأجزاء لمجموعة بيانات COVIDx (أي “عادي” و “التهاب الرئة” و “كوفيد-19”).

مكافئ…

عندما فحص الباحثون أصل وملاءمة مجموعات البيانات المُساهمة لمجموعة بيانات COVIDx في وقت الدراسة، وجدوا “إساءة استخدام” بيانات RSNA، حيث تم جمع بيانات من نوع معين في فئة مختلفة:

‘مخزن RSNA، الذي يستخدم بيانات الأشعة السينية للصدر العامة من NIH Chestx-ray8 [**]، تم تصميمه لمهمة التجزئة وبالتالي يحتوي على ثلاث فئات من الصور، ‘الغيوم الرئوية’ و ‘لا يوجد غيوم رئوية / غير طبيعي’ و ‘طبيعي’، مع وجود صناديق تحديد متوفرة لصور ‘الغيوم الرئوية’.

‘في تجميعها في COVIDx، تم تضمين جميع صور الأشعة السينية من فئة ‘الغيوم الرئوية’ في فئة الالتهاب الرئوي’.

بصورة فعالة، يُدعي الورقة أن منهجية COVIDx توسع تعريف “الالتهاب الرئوي” ليشمل “جميع الغيوم الرئوية الشبيهة بالالتهاب الرئوي”. وبالتالي، يتم التهديد بقيمة البيانات المقارنة من النوع نفسه. ويُذكر الباحثون:

‘[…] تحتوي فئة الالتهاب الرئوي في مجموعة بيانات COVIDx على صور أشعة سينية مع مجموعة من الأمراض الأخرى، بما في ذلك التهاب الجنبة و الغزو و التكاثف و الانسداد و الأورام. التكاثف هو ميزة شعاعية لالتهاب رئوي محتمل، وليس تشخيصًا سريريًا. استخدام التكاثف كبديل لالتهاب الرئة دون توثيق ذلك قد يكون مُضللًا’.

الأمراض البديلة (بصرف النظر عن كوفيد-19) المرتبطة بمجموعة بيانات COVIDx. مصدر: https://arxiv.org/ftp/arxiv/papers/2109/2109.08020.pdf

تُشير التقرير إلى أن 6.13% فقط من 4,305 حالة الالتهاب الرئوي المأخوذة من RSNA تمت تصنيفها بشكل صحيح، مما يمثل 265 حالة الالتهاب الرئوي الحقيقية.

علاوة على ذلك، تمثل العديد من حالات غير الالتهاب الرئوي المُضمنة في COVIDx مضاعفات – مضاعفات أمراض أخرى، أو مشاكل طبية ثانوية في حالات ليست بالضرورة متعلقة بالالتهاب الرئوي.

ليست ‘عادية’

يُشير التقرير أيضًا إلى أن تأثير مجموعة بيانات تحدي RSNA في COVIDx قد أثر على استقرار البيانات التجريبية. ويشير الباحثون إلى أن COVIDx تُفضل فئة “الطبيعي” من بيانات RSNA، مما يؤدي فعليًا إلى استبعاد جميع فئات “لا يوجد غيوم رئوية / غير طبيعي” في المجموعة الأوسع.
يُذكر الورقة:

‘في حين أن هذا يتوافق مع ما هو متوقع في рамках التصنيف ‘الطبيعي’، فإن توسيع فئة الالتهاب الرئوي و استخدام صور الأشعة السينية ‘الطبيعية’ فقط، بدلاً من حالات الالتهاب الرئوي السلبية، يُبسط بشكل كبير مهمة التصنيف.

‘النتيجة النهائية لهذا هو مجموعة بيانات تعكس مهمة منفصلة عن المشكلة السريرية الحقيقية’.

تحيزات محتملة من معايير بيانات غير متوافقة

تُلاحظ الورقة عددًا من أنواع التحيز الأخرى في COVIDx، مشيرة إلى أن بعض البيانات المُساهمة تُخلوط بين صور الأشعة السينية للصدر للأطفال وصور الأشعة السينية للبالغين، وتُلاحظ أيضًا أن هذه البيانات هي المصدر الوحيد “المهم” لصور الأطفال في COVIDx.

كما أن صورًا من مجموعة بيانات RSNA تتمتع بدقة 1024×1024، في حين توفر مجموعة بيانات أخرى صورًا فقط بدقة 299×299. منذ أن سوف تقوم نماذج التعلم الآلي دائمًا بإعادة تحجيم الصور لتكييفها مع الفضاء التدريبي المتاح (الفضاء الكامن)، هذا يعني أن الصور 299×299 سوف يتم تحجيمها إلى الأعلى في تدفق التدريب (مما قد يؤدي إلى وجود خدع متعلقة بخوارزمية التحجيم بدلاً من الأمراض)، والصور الأكبر سوف يتم تحجيمها إلى الأسفل. مرة أخرى، هذا يُقلل من معايير البيانات المتجانسة اللازمة لتحليل رؤية الكمبيوتر القائم على الذكاء الاصطناعي.

علاوة على ذلك، تحتوي بيانات ActMed التي تم تضمينها في COVIDx على “أدوات قرصية الشكل” في صور الأشعة السينية لكوفيد-19، وهي ميزة متكررة غير متوافقة مع المجموعة الأوسع، والتي سوف تحتاج إلى التعامل معها كـ “مخالف متكرر”.

هذا هو نوع القضايا التي يتم عادةً معالجتها عن طريق تنظيف البيانات أو استبعادها، منذ أن تكون تكرار الأدوات كافية لتحقيقها كـ “ميزة” في التدريب، ولكن ليس بدرجة كافية لتعميمها بشكل مفيد في مخطط المجموعة من البيانات. بدون آلية لتحديد تأثير الأدوات الاصطناعية، يمكن أن تُعتبر من قبل منهجية نظام التعلم الآلي هذه كأحداث مرضية.

التدريب والاختبار

قام الباحثون باختبار COVIDx مقابل مجموعتي بيانات مقارنة عبر ثلاثة نماذج. كانت المجموعتان الإضافيتان هما RICORD، التي تحتوي على 1096 صورة أشعة سينية لكوفيد-19 عبر 361 مريضًا، تم الحصول عليها من أربع دول؛ و CheXpert، مجموعة بيانات عامة

النماذج الثلاثة المستخدمة كانت COVID-Net و CoroNet و DarkCovidNet. جميع النماذج الثلاثة تستخدم شبكات عصبية التجميع، على الرغم من أن CoroNet تتكون من عملية تصنيف الصور ذات المرحلتين، حيث يتم تمرير الإخراج من محول التشفير إلى مصنف الشبكة العصبية.

أظهر الاختبار “انخفاضًا حادًا” في أداء جميع النماذج على مجموعات بيانات غير COVIDx مقارنة بالدقة البالغة 86% الناتجة عند استخدام بيانات COVIDx. ومع ذلك، إذا كانت البيانات مُضللة أو مُخالفة، فهذه هي النتائج الكاذبة. ولاحظ الباحثون نتائج دقة منخفضة بشكل كبير على مجموعات البيانات الخارجية المقارنة، والتي تُقترح في الورقة كبيانات أكثر واقعية وتصنيفًا صحيحًا.

علاوة على ذلك، تُلاحظ الورقة:

‘استعراض سريري لخريطة التأثير السالبة ل 500 من grad-CAM التي تم إنشاؤها بواسطة التنبؤ على بيانات اختبار COVIDx أظهر اتجاهًا من الأهمية في الميزات السريرية غير ذات الصلة. هذا يشمل عادةً التركيز على الهياكل العظمية والأنسجة اللينة بدلاً من التكاثف الرئوي الثنائي المنتشر الذي هو نموذجي لعدوى كوفيد-19’.

هذه هي صورة أشعة سينية لحالة مؤكدة من كوفيد-19، تم تخصيصها لاحتمالية التنبؤ البالغة 0.938 من COVIDx مدرب على DarkCovidNet.

الاستنتاجات

يُنتقد الباحثون عدم وجود بيانات ديموغرافية أو سريرية متعلقة بصور الأشعة السينية في COVIDx، بحجة أنه بدون هذه، من المستحيل مراعاة “العوامل المُضطربة” مثل العمر.

كما يُلاحظون أن المشاكل الموجودة في مجموعة بيانات COVIDx قد تكون قابلة للتطبيق على مجموعات بيانات أخرى تم الحصول عليها بنفس الطريقة (أي عن طريق مزج قواعد بيانات الأشعة السينية قبل كوفيد مع بيانات الأشعة السينية لكوفيد-19 الحديثة بدون هيكل بيانات كافٍ، ومكافحة التباين، ووضوح حدود هذا النهج).

في تلخيص عيوب مجموعة بيانات COVIDx، يُشدد الباحثون على عدم توازن الإدراج “الواضح” لصور الأشعة السينية للأطفال، بالإضافة إلى إساءة استخدام التسميات وارتفاع مخاطر التحيز والارتباط في COVIDx، بحجة أن “‘الأداء الاستثنائي [لمجموعة بيانات COVIDx] المُبلَغ عنه على نطاق واسع في مجال المشكلة مُضخم، وأن نتائج أداء النموذج مُضللة، وأن النماذج لا تُ일반 جيدًا إلى بيانات سريرية واقعية”.

يُختتم التقرير:

‘نقص في البيانات المتاحة من المستشفيات، بالإضافة إلى تقييم النماذج غير الكافي عبر مجال المشكلة، قد سمح باستخدام البيانات المفتوحة لإضلال مجتمع البحث. استمرار نشر معايير أداء النموذج المُضخمة يُهدد بتعريض ثقة أبحاث الذكاء الاصطناعي في التشخيص الطبي، خاصةً حيث أن المرض ذو اهتمام عام كبير. يجب أن تتحسن جودة البحث في هذا المجال لمنع حدوث ذلك، ويجب أن يبدأ ذلك مع البيانات’.

*على الرغم من أن باحثي الدراسة يُدعون أنهم قد جعلوا البيانات والملفات والبرامج لورقة جديدة متاحة على الإنترنت، يتطلب الوصول إلى تسجيل الدخول، وفي وقت الكتابة، لم يكن هناك وصول عام للملفات.
** ChestX-ray8: Hospital-scale Chest X-ray Database and Benchmarks on Weakly-Supervised Classification and Localization of Common Thorax Diseases – https://arxiv.org/pdf/1705.02315.pdf