Зв'язатися з нами

Популярний набір даних COVIDx критикують британські дослідники

Охорона здоров'я

Популярний набір даних COVIDx критикують британські дослідники

mm

Дослідницький консорціум з Великої Британії розкритикував ступінь наукової довіри до наборів даних з відкритим кодом, що використовуються для аналізу рентгенівських знімків грудної клітки пацієнтів з COVID-19 за допомогою комп'ютерного зору, зосереджуючись на популярному наборі даних з відкритим кодом COVIDx.

Дослідники, протестувавши COVIDx у різних моделях навчання штучного інтелекту, стверджують, що це «не відображає реальну клінічну проблему», що результати, отримані з його використанням, «завищені», і що моделі «не дуже добре узагальнюються» на реальні дані.

Автори також відзначають неузгодженість наданих даних, які складають COVIDx, де оригінальні зображення мають різну роздільну здатність, яка автоматично переформатується робочим процесом глибокого навчання в узгоджені розміри, необхідні для навчання, і зауважують, що цей процес може вводити оманливі артефакти. пов’язані з алгоритмом зміни розміру зображення, а не з клінічним аспектом даних.

Команда папір це називається Підводні камені використання відкритих даних для розробки рішень глибокого навчання для виявлення COVID-19 на рентгенівських знімках грудної клітки, і є результатом співпраці між Центром обчислювальної візуалізації та моделювання в біомедицині (CISTIB) при Університеті Лідса та дослідниками з п’яти інших організацій у тому ж місті, включаючи Лідський навчальний фонд NHS Trust.

У дослідженні, серед інших негативних практик, детально описано «зловживання ярликами» в наборі даних COVIDx, а також «високий ризик упередженості та плутанини». Власні експерименти дослідників з тестування набору даних за трьома життєздатними моделями глибокого навчання спонукали їх дійти висновку, що «виняткова продуктивність, про яку широко повідомляється в проблемній області, перебільшена, результати моделювання ефективності представлені неправильно, а моделі погано узагальнюються для клінічно реалістичних даних».

П'ять контрастних наборів даних в одному

У звіті* зазначається, що більшість сучасних методологій на основі штучного інтелекту в цій галузі залежать від «неоднорідного» асортименту даних з різних репозиторіїв з відкритим кодом, зазначаючи, що п'ять наборів даних із помітно різними характеристиками були об'єднані в набір даних COVIDx, незважаючи (на думку дослідників) на недостатню паритетність якості та типу даних.

Набір даних COVIDx був випущений у травні 2020 року як зусилля консорціуму під керівництвом Департаменту проектування систем Університету Ватерлоо в Канаді з даними доступні в рамках Ініціативи відкритого коду COVID-Net.

П’ять колекцій, які складають COVIDx, це: COVID-19 Збір даних зображень (ан відкритий джерело набір дослідників з Монреаля); набір даних рентгенівського дослідження грудної клітки COVID-19 ініціатива; рентген грудної клітки Actualmed COVID-19 набору даних; рентгенографія COVID-19 Database; і RSNA Pneumonia Detection Challenge набору даних, один із багатьох наборів до COVID, які були введені в експлуатацію під час пандемічної кризи.

(RICORD – див. нижче – з тих пір було додано до COVIDx, але оскільки його було включено після моделей, які цікавлять дослідження, його було виключено з даних тестування, і в будь-якому випадку це призведе до ще більшої різноманітності COVIDx, що є центральною скаргою авторів дослідження.)

Дослідники стверджують, що COVIDX є «найбільший і найширше використовуваний» набір даних такого типу в науковій спільноті, пов'язаний з дослідженнями COVID, а також те, що дані, імпортовані в COVIDx зі складових зовнішніх наборів даних, не відповідають належним чином тристоронній схемі набору даних COVIDx (тобто «нормальний», «пневмонія» та «COVID-19»).

Достатньо близько..?

Вивчаючи походження та придатність наборів даних для COVIDx на момент дослідження, дослідники виявили «неправильне використання» даних RSNA, коли дані одного типу, за словами дослідників, були віднесені до іншої категорії:

«Репозиторій RSNA, який використовує загальнодоступні дані рентгенівських знімків грудної клітки від NIH Chestx-ray8 [**], було розроблено для завдання сегментації та, таким чином, містить три класи зображень: «Помутніння легенів», «Непрозорість легенів/ненормальне» та «Нормальне» з обмежувальними рамками, доступними для випадків «Помутніння легень».

«У своїй компіляції до COVIDx усі рентгенограми грудної клітки з класу «Непрозорість легень» включені до класу пневмонії».

У статті стверджується, що методологія COVIDx фактично розширює визначення «пневмонії», включивши до нього «всі пневмоподібноподібні помутніння легень». Отже, цінність порівняння типів даних (ймовірно) знаходиться під загрозою. Дослідники стверджують:

«[…] клас пневмонії в наборі даних COVIDx містить рентгенівські знімки грудної клітки з різноманітними іншими патологіями, включаючи плевральний випіт, інфільтрацію, консолідацію, емфізему та маси. Консолідація є радіологічною ознакою можливої ​​пневмонії, а не клінічним діагнозом. Використання консолідації як заміни пневмонії без документування цього потенційно може вводити в оману».

Альтернативні патології (крім COVID-19), пов’язані з COVIDx.

Альтернативні патології (крім COVID-19), пов’язані з COVIDx. Джерело: https://arxiv.org/ftp/arxiv/papers/2109/2109.08020.pdf

У звіті встановлено, що лише 6.13% із 4,305 випадків пневмонії, отриманих від RSNA, були точно позначені, тобто лише 265 випадків справжньої пневмонії.

Крім того, багато випадків не пов’язаних з пневмонією, включених до COVIDx, являли собою супутні захворювання – ускладнення інших захворювань або інші вторинні медичні проблеми в умовах, які не обов’язково пов’язані з пневмонією.

Не «Нормальний»

У звіті також зазначається, що вплив набору даних RSNA на COVIDx спотворив емпіричну стабільність даних. Дослідники зазначають, що COVIDx надає пріоритет класу «нормальний» даних RSNA, фактично виключаючи всі класи «немає непрозорості легень/не нормальний» у ширшому наборі даних. У статті йдеться:

«Хоча це відповідає тому, що очікується в рамках «нормальної» позначки, розширення класу пневмонії та використання лише «нормальних» рентгенівських знімків грудної клітки, а не випадків пневмонії з негативним результатом, значно спрощує завдання класифікації.

«Кінцевим результатом цього є набір даних, який відображає завдання, віддалене від справжньої клінічної проблеми».

Потенційні відхилення від несумісних стандартів даних

У статті виявляється низка інших типів упередженості при COVIDx, зазначаючи, що деякі з даних, що використовуються, змішують дитячі рентгенівські знімки грудної клітки з рентгенівськими знімками дорослих пацієнтів, а також зазначається, що ці дані є єдиним «значним» джерелом педіатричних зображень при COVIDx.

Крім того, зображення з набору даних RSNA мають роздільну здатність 1024 × 1024, тоді як інший набір даних надає зображення лише з роздільною здатністю 299 × 299. Оскільки моделі машинного навчання незмінно змінюватимуть розміри зображень відповідно до доступного навчального простору (латентного простору), це означає, що зображення розміром 299 × 299 будуть масштабовані під час навчального процесу (потенційно призводячи до артефактів, пов’язаних із алгоритмом масштабування, а не з патологією), і більші зображення зменшено. Знову ж таки, це пом’якшує стандарти однорідних даних, необхідні для аналізу комп’ютерного зору на основі ШІ.

Крім того, дані ActMed, отримані в COVIDx, містять «дископодібні маркери» на рентгенограмах грудної клітки COVID-19, що є повторюваною ознакою, яка не узгоджується з ширшим набором даних і яку слід розглядати як «повторюваний випадок».

Це той тип проблеми, який зазвичай вирішується шляхом очищення або виключення даних, оскільки повторюваність маркерів достатня для реєстрації як «особливості» в навчанні, але недостатньо часта для корисного узагальнення в ширшій схемі набору даних. Без механізму для ігнорування впливу штучних маркерів, вони потенційно можуть розглядатися методологією системи машинного навчання як патологічні явища.

Навчання та тестування

Дослідники перевірили COVIDx на двох порівняльних наборах даних у трьох моделях. Додатковими двома наборами даних були RICORD, який містить 1096 рентгенівських знімків грудної клітки COVID-19 у 361 пацієнта, отриманих із чотирьох країн; і Гексперт, публічний набір даних

Використані три моделі: COVID-Net, Коронка та DarkCovidNet. У всіх трьох моделях використовуються згорткові нейронні мережі (CNN), хоча CoroNet складається з двоетапного процесу класифікації зображень, коли автокодери передають вихідні дані в класифікатор CNN.

Тестування показало «різке падіння» продуктивності всіх моделей на наборах даних, відмінних від COVIDx, порівняно з 86% точністю, яка досягається при використанні даних COVIDx. Однак, якщо дані неправильно позначені або згруповані, це фактично хибні результати. Дослідники відзначили значне зниження точності результатів на порівнянних зовнішніх наборах даних, які в статті пропонуються як більш реалістичні та правильно класифіковані дані.

Крім того, у статті зазначається:

«Клінічний огляд 500 карт помітності grad-CAM, створених шляхом прогнозування на основі даних тестів на COVIDx, показав тенденцію до значущості клінічно незначущих ознак. Зазвичай це включало зосередження на кісткових структурах та м’яких тканинах замість дифузного двостороннього помутніння легеневих полів, типового для інфекції COVID-19».

Це рентгенівський знімок підтвердженого випадку COVID-19, якому присвоєно лише 0.938 ймовірності прогнозу від COVIDx, навченого на DarkCovidNet. Джерело: https://arxiv.org/ftp/arxiv/papers/2109/2109.08020.pdf

Це рентгенівський знімок підтвердженого випадку COVID-19, якому присвоєно лише 0.938 ймовірності прогнозу від COVIDx, навченого на DarkCovidNet.

Висновки

Дослідники критикують брак демографічних чи клінічних даних, пов'язаних з рентгенівськими знімками при COVID-19, стверджуючи, що без них неможливо врахувати «фактори, що впливають на результати», такі як вік.

Вони також зауважують, що проблеми, виявлені в наборі даних COVIDx, можуть бути застосовані до інших наборів даних, які були отримані з подібного джерела (тобто шляхом змішування баз даних радіологічних зображень до COVID з даними останніх рентгенівських зображень COVID без належної архітектури даних, компенсації дисперсії та чіткого обсягу обмежень цього підходу).

Підсумовуючи недоліки COVIDx, дослідники наголошують на однобокому включенні «чітких» дитячих рентгенівських знімків, а також на своєму сприйнятті неправильного використання позначень та високого ризику упередженості та введення в оману при COVIDx, стверджуючи, що «…виняткова продуктивність [від COVIDx] широко повідомляється в проблемній області, що це завищено, що результати моделювання неправильно представлені, і що моделі погано узагальнюються для клінічно реалістичних даних.

У звіті робиться висновок:

«Відсутність доступних даних лікарень у поєднанні з неадекватною оцінкою моделей у всій проблемній області дозволила використовувати дані з відкритих джерел для введення в оману дослідницької спільноти. Подальша публікація завищених показників ефективності моделей ризикує пошкодити довіру до досліджень штучного інтелекту в медичній діагностиці, особливо там, де захворювання становить великий суспільний інтерес. Якість досліджень у цій галузі має покращитися, щоб запобігти цьому, і це має починатися з даних».

 

 

*Хоча дослідники дослідження стверджують, що створили дані, файли та код для нової статті доступні в Інтернеті, для доступу потрібен вхід, і на момент написання статті загальний публічний доступ до файлів недоступний.
** ChestX-ray8: лікарняна база даних рентгенівських знімків грудної клітки та контрольні показники класифікації та локалізації поширених захворювань грудної клітки під слабким контролем –
https://arxiv.org/pdf/1705.02315.pdf