اتصل بنا للحصول على مزيد من المعلومات

مجموعة بيانات COVIDx الشهيرة التي ينتقدها باحثون بريطانيون

قطاع الرعاية الصحية

مجموعة بيانات COVIDx الشهيرة التي ينتقدها باحثون بريطانيون

mm

وجه اتحاد بحثي من المملكة المتحدة انتقادات إلى مدى الثقة العلمية الممنوحة لمجموعات البيانات مفتوحة المصدر المستخدمة في تحليل الأشعة السينية لصدر مرضى كوفيد-19 باستخدام الرؤية الحاسوبية، مع التركيز على مجموعة البيانات مفتوحة المصدر الشهيرة COVIDx.

يزعم الباحثون، الذين اختبروا COVIDx في نماذج تدريب الذكاء الاصطناعي المختلفة، أنه "لا يمثل المشكلة السريرية الحقيقية"، وأن النتائج التي تم الحصول عليها باستخدامها "متضخمة"، وأن النماذج "لا تعمم بشكل جيد" على بيانات العالم الحقيقي.

لاحظ المؤلفون أيضًا عدم تناسق البيانات المساهمة التي تشكل COVIDx ، حيث تأتي الصور الأصلية في مجموعة متنوعة من القرارات التي يتم إعادة تنسيقها تلقائيًا من خلال سير عمل التعلم العميق إلى الأحجام المتسقة اللازمة للتدريب ، ولاحظوا أن هذه العملية يمكن أن تقدم أدوات خادعة المتعلقة بخوارزمية تغيير حجم الصورة ، بدلاً من الجانب السريري للبيانات.

أكثر من ورقة يسمى مخاطر استخدام البيانات المفتوحة لتطوير حلول التعلم العميق لاكتشاف COVID-19 في الأشعة السينية للصدر، وهو عبارة عن تعاون بين مركز التصوير والمحاكاة الحاسوبية في الطب الحيوي (CISTIB) في جامعة ليدز ، جنبًا إلى جنب مع باحثين من خمس منظمات أخرى في نفس المدينة ، بما في ذلك NHS Trust مستشفيات ليدز التعليمية.

يُفصّل البحث، من بين ممارسات سلبية أخرى، "إساءة استخدام التسميات" في مجموعة بيانات كوفيد-19، بالإضافة إلى "ارتفاع خطر التحيز والتشويش". وقد دفعت تجارب الباحثين أنفسهم في اختبار مجموعة البيانات عبر ثلاثة نماذج تعلّم عميق قابلة للتطبيق إلى استنتاج أن "إن الأداء الاستثنائي الذي تم الإبلاغ عنه على نطاق واسع في جميع أنحاء مجال المشكلة مبالغ فيه، وأن نتائج أداء النموذج غير ممثلة بشكل صحيح، وأن النماذج لا تعمم بشكل جيد على البيانات الواقعية سريريًا."

خمس مجموعات بيانات متناقضة في واحد

يشير التقرير* إلى أن غالبية منهجيات الذكاء الاصطناعي الحالية في هذا المجال تعتمد على تشكيلة "غير متجانسة" من البيانات من مستودعات مفتوحة المصدر متباينة، مع ملاحظة أن خمس مجموعات بيانات ذات خصائص مختلفة بشكل ملحوظ تم تجميعها في مجموعة بيانات COVIDx على الرغم من (في نظر الباحثين) عدم التكافؤ الكافي في جودة البيانات ونوعها.

كانت مجموعة بيانات COVIDx صدر في مايو 2020 كجهد اتحاد بقيادة قسم هندسة تصميم النظم في جامعة واترلو في كندا ، مع البيانات تمت الاتاحة كجزء من مبادرة COVID-Net مفتوحة المصدر.

المجموعات الخمس التي تشكل COVIDx هي: COVID-19 جمع بيانات الصورةمفتوحة المصدر مجموعة من باحثي مونتريال) ؛ مجموعة بيانات الأشعة السينية للصدر COVID-19 .؛ تصوير الصدر بالأشعة السينية لمرض كوفيد -19 بيانات؛ التصوير الشعاعي COVID-19 قاعدة البيانات؛ وتحدي الكشف عن الالتهاب الرئوي RSNA بيانات، واحدة من العديد من مجموعات ما قبل COVID التي تم الضغط عليها للخدمة من أجل أزمة الوباء.

(RICORD - انظر أدناه - تمت إضافته إلى COVIDx منذ ذلك الحين ، ولكن نظرًا لأنه تم تضمينه بعد النماذج ذات الأهمية في الدراسة ، فقد تم استبعاده من بيانات الاختبار ، وعلى أي حال كان يميل إلى تنويع COVIDx بشكل أكبر ، والذي هي الشكوى المركزية لمؤلفي الدراسة.)

يؤكد الباحثون أن COVIDx هو "الأكبر والأكثر استخدامًا" مجموعة بيانات من نوعها ضمن المجتمع العلمي فيما يتعلق بأبحاث كوفيد، وأن البيانات المستوردة إلى كوفيدx من مجموعات البيانات الخارجية المكونة لا تتوافق بشكل كافٍ مع المخطط الثلاثي لمجموعة بيانات كوفيدx (أي "طبيعي"، و"الالتهاب الرئوي"، و"كوفيد-19").

قرب كفى ..؟

عند فحص مصدر وملاءمة مجموعات البيانات المساهمة في دراسة كوفيد-19 في وقت الدراسة، وجد الباحثون "إساءة استخدام" لبيانات الجمعية الملكية لعلم الأوبئة في أمريكا الشمالية، حيث تم تجميع بيانات من نوع واحد، كما يدعي الباحثون، في فئة مختلفة:

مستودع RSNA ، الذي يستخدم بيانات الأشعة السينية المتوفرة للجمهور من NIH Chestx-ray8 [**]، تم تصميمه لمهمة التجزئة وعلى هذا النحو يحتوي على ثلاث فئات من الصور ، "عتامة الرئة" ، "لا عتامة الرئة / ليست طبيعية" ، و "عادي" ، مع توفر مربعات إحاطة لحالات "عتامة الرئة".

'عند تجميعها في COVIDx، يتم تضمين جميع الأشعة السينية للصدر من فئة "عتامة الرئة" ضمن فئة الالتهاب الرئوي.'

في الواقع، تزعم الورقة البحثية أن منهجية كوفيد-19 تُوسّع تعريف "الالتهاب الرئوي" ليشمل "جميع حالات عتامة الرئة الشبيهة بالالتهاب الرئوي". وبالتالي، يُفترض أن تكون قيمة التشابه بين أنواع البيانات المقارنة مُهددة. ويذكر الباحثون:

تتضمن فئة الالتهاب الرئوي ضمن مجموعة بيانات كوفيد-19 صورًا بالأشعة السينية للصدر تُظهر مجموعة متنوعة من الأمراض الأخرى، بما في ذلك الانصباب الجنبي، والتسلل، والتصلب، وانتفاخ الرئة، والكتل. يُعد التصلب سمة إشعاعية لاحتمالية الإصابة بالالتهاب الرئوي، وليس تشخيصًا سريريًا. إن استخدام التصلب كبديل للالتهاب الرئوي دون توثيق ذلك قد يكون مضللًا.

الأمراض البديلة (إلى جانب COVID-19) المرتبطة بـ COVIDx.

الأمراض البديلة (إلى جانب COVID-19) المرتبطة بـ COVIDx. المصدر: https://arxiv.org/ftp/arxiv/papers/2109/2109.08020.pdf

وجد التقرير أن 6.13٪ فقط من 4,305 حالة التهاب رئوي تم الحصول عليها من RSNA تم تصنيفها بدقة ، وهو ما يمثل مجرد 265 حالة التهاب رئوي حقيقية.

علاوة على ذلك ، فإن العديد من حالات الالتهاب الرئوي المدرجة في COVIDx مثلت حالات مرضية مشتركة - مضاعفات أمراض أخرى ، أو مشكلات طبية ثانوية في حالات لا تتعلق بالضرورة بالالتهاب الرئوي.

ليس "طبيعيا"

يشير التقرير أيضًا إلى أن تأثير مجموعة بيانات تحدي RSNA في كوفيد-19 قد أثّر سلبًا على الاستقرار التجريبي للبيانات. ويلاحظ الباحثون أن كوفيد-19 يُعطي الأولوية للفئة "الطبيعية" من بيانات RSNA، مستبعدًا بذلك جميع فئات "عدم وجود عتامة رئة/غير طبيعية" في مجموعة البيانات الأوسع. وتقول الورقة البحثية:

في حين أن هذا يتماشى مع ما هو متوقع ضمن التصنيف "الطبيعي" ، فإن توسيع فئة الالتهاب الرئوي واستخدام الأشعة السينية للصدر "العادية" فقط ، بدلاً من حالات الالتهاب الرئوي السلبية يبسط مهمة التصنيف إلى حد كبير.

'والنتيجة النهائية لذلك هي مجموعة بيانات تعكس مهمة بعيدة كل البعد عن المشكلة السريرية الحقيقية.'

التحيزات المحتملة من معايير البيانات غير المتوافقة

وتكشف الورقة البحثية عن عدد من أنواع التحيز الأخرى في كوفيد-19، مشيرة إلى أن بعض البيانات المساهمة تخلط بين صور الأشعة السينية لصدر الأطفال مع الأشعة السينية للمرضى البالغين، وتلاحظ كذلك أن هذه البيانات هي المصدر "المهم" الوحيد لصور الأطفال في كوفيد-19.

أيضًا، الصور من مجموعة بيانات RSNA لها دقة 1024×1024، بينما توفر مجموعة بيانات مساهمة أخرى صورًا بدقة 299×299 فقط. نظرًا لأن نماذج التعلم الآلي ستعمل دائمًا على تغيير حجم الصور لاستيعاب مساحة التدريب المتاحة (المساحة الكامنة)، فهذا يعني أنه سيتم ترقية الصور مقاس 299 × 299 في سير عمل تدريبي (مما قد يؤدي إلى عناصر مرتبطة بخوارزمية القياس بدلاً من علم الأمراض)، و تم تصغير حجم الصور الأكبر. مرة أخرى، هذا يخفف من معايير البيانات المتجانسة اللازمة لتحليل الرؤية الحاسوبية القائمة على الذكاء الاصطناعي.

علاوة على ذلك، تحتوي بيانات ActMed التي تم استيعابها في COVIDx على "علامات على شكل قرص" في الأشعة السينية للصدر لـ COVID-19، وهي سمة متكررة غير متسقة مع مجموعة البيانات الأوسع، والتي يجب التعامل معها باعتبارها "قيمة شاذة متكررة".

هذا هو نوع المشكلة التي تُعالَج عادةً إما بتنظيف البيانات أو حذفها، إذ يكفي تكرار العلامات لتسجيلها كـ"ميزة" في التدريب، ولكنه ليس متكررًا بما يكفي لتعميمها على نطاق أوسع في مجموعة البيانات. وبدون آلية لاستبعاد تأثير العلامات الاصطناعية، قد تُعتبر هذه العلامات ظاهرة مرضية في منهجية نظام التعلم الآلي.

التدريب والاختبار

اختبر الباحثون كوفيد-1096 على مجموعتين بيانات مقارنتين عبر ثلاثة نماذج. كانت مجموعتا البيانات الإضافيتان هما RICORD، التي تحتوي على 19 صورة أشعة سينية للصدر لكوفيد-361 عبر XNUMX مريضًا، تم الحصول عليها من أربع دول؛ و تشي اكسبرت، مجموعة بيانات عامة

النماذج الثلاثة المستخدمة هي COVID-Net ، الإكليل و دارككوفيدنيت. تستخدم جميع النماذج الثلاثة الشبكات العصبية التلافيفية (CNNs) ، على الرغم من أن CoroNet يتكون من عملية تصنيف للصور على مرحلتين ، حيث تقوم المبردات التلقائية بتمرير الإخراج إلى مصنف CNN.

أظهرت الاختبارات انخفاضًا حادًا في أداء جميع النماذج على مجموعات البيانات غير المتعلقة بكوفيد، مقارنةً بدقة 86% الناتجة عن استخدام بيانات كوفيد. ومع ذلك، إذا كانت البيانات مُصنّفة أو مُجمّعة بشكل خاطئ، فهذه نتائج خاطئة فعليًا. لاحظ الباحثون انخفاضًا كبيرًا في دقة النتائج على مجموعات البيانات الخارجية المُقارنة، والتي تقترحها الورقة البحثية باعتبارها بيانات أكثر واقعيةً وتصنيفًا دقيقًا.

علاوة على ذلك ، تلاحظ الورقة:

أظهرت مراجعة سريرية لـ 500 خريطة بروز غراد-CAM، مُولَّدة من التنبؤ ببيانات اختبار كوفيد-19، اتجاهًا ذا دلالة إحصائية في السمات غير ذات الصلة السريرية. وشمل ذلك عادةً التركيز على البنى العظمية والأنسجة الرخوة بدلًا من التعتيم الثنائي المنتشر لحقول الرئة، وهو أمر شائع في عدوى كوفيد-XNUMX.

هذه صورة بالأشعة السينية لحالة COVID-19 مؤكدة ، تم تعيين احتمال توقع 0.938 فقط من COVIDx المدربة على DarkCovidNet. المصدر: https://arxiv.org/ftp/arxiv/papers/2109/2109.08020.pdf

هذه صورة بالأشعة السينية لحالة COVID-19 مؤكدة ، تم تعيين احتمال توقع 0.938 فقط من COVIDx المدربة على DarkCovidNet.

استنتاجات

ينتقد الباحثون عدم وجود بيانات ديموغرافية أو سريرية تتعلق بصور الأشعة السينية في حالات كوفيد-19، بحجة أنه بدون هذه البيانات، من المستحيل تفسير "العوامل المربكة" مثل العمر.

كما لاحظوا أن المشكلات الموجودة في مجموعة بيانات COVIDx قد تكون قابلة للتطبيق على مجموعات البيانات الأخرى التي تم الحصول عليها من مصادر مماثلة (على سبيل المثال ، عن طريق مزج قواعد بيانات الصور الإشعاعية السابقة لـ COVID مع بيانات صورة COVID بالأشعة السينية الحديثة بدون بنية بيانات مناسبة وتعويض التباين ونطاق واضح من قيود هذا النهج).

في تلخيص أوجه القصور في كوفيد-19، أكد الباحثون على الإدراج غير المتوازن لأشعة الأطفال السينية "الواضحة"، فضلاً عن تصورهم لإساءة استخدام الملصقات والخطر العالي للتحيز والارتباك في كوفيد-19، معتبرين أن "الأداء الاستثنائي [من COVIDx] "إن التقارير التي تم الإبلاغ عنها على نطاق واسع في جميع أنحاء مجال المشكلة مبالغ فيها، وأن نتائج أداء النموذج غير ممثلة بشكل صحيح، وأن النماذج لا تعمم بشكل جيد على البيانات الواقعية سريريًا.

ويخلص التقرير إلى:

أدى نقص بيانات المستشفيات المتاحة، إلى جانب التقييم غير الكافي للنماذج في نطاق المشكلة، إلى تضليل مجتمع البحث العلمي باستخدام بيانات مفتوحة المصدر. ويُهدد النشر المستمر لمقاييس أداء النماذج المُبالغ فيها بتقويض موثوقية أبحاث الذكاء الاصطناعي في التشخيص الطبي، لا سيما عندما يكون المرض محل اهتمام عام كبير. لذا، يجب تحسين جودة الأبحاث في هذا المجال لمنع حدوث ذلك، ويجب أن يبدأ ذلك بالبيانات.

 

 

*على الرغم من أن الباحثين في الدراسة يدعون أنهم صنعوا البيانات والملفات والرموز للورقة الجديدة متاحة على شبكة الإنترنت، يتطلب الوصول تسجيل الدخول ، وفي وقت كتابة هذا التقرير ، لا يتوفر وصول عام إلى الملفات.
** ChestX-ray8: قاعدة بيانات الأشعة السينية للصدر على نطاق المستشفى والمعايير المتعلقة بالتصنيف الخاضع للإشراف الضعيف وتوطين أمراض الصدر الشائعة -
https://arxiv.org/pdf/1705.02315.pdf

 

كاتب في مجال التعلم الآلي، متخصص في مجال تركيب الصور البشرية. رئيس سابق لمحتوى الأبحاث في Metaphysic.ai.
الموقع الشخصي: martinanderson.ai
اتصال: [البريد الإلكتروني محمي]
تويتر:manders_ai