stub Popularny zbiór danych COVIDx skrytykowany przez brytyjskich badaczy – Unite.AI
Kontakt z nami

Zdrowie

Popularny zbiór danych COVIDx skrytykowany przez brytyjskich badaczy

mm

Opublikowany

 on

Konsorcjum badawcze z Wielkiej Brytanii skrytykowało zakres zaufania naukowego do zbiorów danych typu open source wykorzystywanych do komputerowej analizy prześwietleń klatki piersiowej pacjentów z COVID-19 w oparciu o wizję komputerową, koncentrując się na popularnym zbiorze danych open source „COVIDX”.

Badacze, po przetestowaniu COVIDx w różnych modelach szkoleniowych AI, twierdzą, że „nie jest on reprezentatywny dla rzeczywistego problemu klinicznego”, że wyniki uzyskane przy jego użyciu są „zawyżone” oraz że modele „nie uogólniają się dobrze” na rzeczywiste dane światowe.

Autorzy zwracają również uwagę na niespójność dostarczonych danych tworzących COVIDx, gdzie oryginalne obrazy są dostępne w różnych rozdzielczościach i są automatycznie przekształcane w ramach przepływu pracy głębokiego uczenia do spójnych rozmiarów niezbędnych do szkolenia, i zauważają, że proces ten może wprowadzić zwodnicze artefakty odnoszące się do algorytmu zmiany rozmiaru obrazu, a nie do klinicznego aspektu danych.

Połączenia papier jest nazywany Pułapki związane z wykorzystaniem otwartych danych do opracowania rozwiązań głębokiego uczenia się do wykrywania COVID-19 na prześwietleniach klatki piersioweji jest wynikiem współpracy Centrum Obrazowania i Symulacji Obliczeniowej w Biomedycynie (CISTIB) na Uniwersytecie w Leeds wraz z badaczami z pięciu innych organizacji w tym samym mieście, w tym Leeds Teaching Hospitals NHS Trust.

W badaniu wyszczególniono, między innymi negatywne praktyki, „niewłaściwe użycie etykiet” w zbiorze danych dotyczących COVIDx, a także „wysokie ryzyko stronniczości i wprowadzenia w błąd”. Własne eksperymenty badaczy polegające na sprawdzaniu zbioru danych w trzech realnych modelach głębokiego uczenia się skłoniły ich do wniosku, że „wyjątkowe wyniki szeroko zgłaszane w całej dziedzinie problematycznej są zawyżone, wyniki działania modeli są błędnie przedstawiane, a modele słabo uogólniają się na dane realistyczne klinicznie”.

Pięć kontrastujących zestawów danych w jednym

W raporcie* zauważono, że większość obecnych metodologii opartych na sztucznej inteligencji w tej dziedzinie opiera się na „heterogenicznym” zestawie danych z różnych repozytoriów open source, przy czym zauważono, że pięć zbiorów danych o szczególnie różnych cechach zostało aglomerowanych w zbiorze danych dotyczących COVIDx pomimo (w uwagi badaczy) nieodpowiednia równość jakości i rodzaju danych.

Zbiór danych COVIDx był wydany w maju 2020 r. w ramach konsorcjum pod przewodnictwem Wydziału Inżynierii Projektowania Systemów Uniwersytetu Waterloo w Kanadzie, z danymi udostępnione w ramach inicjatywy Open Source Covid-Net.

Pięć kolekcji składających się na Covidx to: Covid-19 Zbieranie danych obrazu (na otwarte źródła zestaw od badaczy z Montrealu); zbiór danych dotyczących prześwietlenia klatki piersiowej w związku z chorobą COVID-19 inicjatywa; prześwietlenie klatki piersiowej Actualmed w związku z COVID-19 zestaw danych; radiogramu Covid-19 Baza danych; oraz wyzwanie polegające na wykrywaniu zapalenia płuc RSNA zestaw danych, jeden z wielu zestawów sprzed pandemii, które zostały wprowadzone do użytku w związku z kryzysem związanym z pandemią.

(RICORD – patrz poniżej – został od tego czasu dodany do COVIDx, ale ponieważ został włączony po modelach będących przedmiotem zainteresowania w badaniu, został wykluczony z danych testowych, a w każdym razie będzie miał tendencję do jeszcze większego różnicowania COVIDx, co jest głównym zarzutem autorów badania.)

Naukowcy twierdzą, że COVIDx jest „największy i najczęściej używany” zbioru danych tego rodzaju w społeczności naukowej związanego z badaniami nad COVID oraz że dane zaimportowane do COVIDx ze składowych zewnętrznych zbiorów danych nie są odpowiednio zgodne z trójstronnym schematem zbioru danych COVIDx (tj. „normalny”, „zapalenie płuc” i „ COVID 19').

Prawie wystarczająco..?

Badając pochodzenie i przydatność zbiorów danych dotyczących COVIDx w momencie badania, naukowcy odkryli „niewłaściwe wykorzystanie” danych RSNA, w przypadku których dane jednego typu zostały, jak twierdzą naukowcy, zebrane w innej kategorii:

„Repozytorium RSNA, które wykorzystuje publicznie dostępne dane dotyczące zdjęć rentgenowskich klatki piersiowej z NIH Chestx-ray8 [**], został zaprojektowany do zadania segmentacji i jako taki zawiera trzy klasy obrazów: „Zmętnienie płuc”, „Brak zmętnienia płuc/nienormalne” i „Normalne”, z ramkami ograniczającymi dostępnymi dla przypadków „Zmętnienie płuc”.

„W zestawieniu z COVIDx wszystkie zdjęcia rentgenowskie klatki piersiowej z klasy „Zmętnienie płuc” są uwzględnione w klasie zapalenia płuc”.

W artykule twierdzi się, że w rzeczywistości metodologia COVIDx rozszerza definicję „zapalenia płuc” o „wszystkie zmętnienia płuc przypominające zapalenie płuc”. W rezultacie porównywalna wartość typów danych porównawczych jest (prawdopodobnie) zagrożona. Naukowcy stwierdzają:

„ […] klasa zapalenia płuc w zbiorze danych COVIDx obejmuje zdjęcia rentgenowskie klatki piersiowej z szeregiem innych patologii, w tym wysiękiem opłucnowym, naciekiem, konsolidacją, rozedmą płuc i guzami. Konsolidacja jest radiologiczną cechą możliwego zapalenia płuc, a nie diagnozą kliniczną. Stosowanie konsolidacji jako substytutu zapalenia płuc bez udokumentowania tego może wprowadzić w błąd”.

Patologie alternatywne (oprócz COVID-19) związane z COVIDx.

Patologie alternatywne (oprócz COVID-19) związane z COVIDx. Źródło: https://arxiv.org/ftp/arxiv/papers/2109/2109.08020.pdf

Z raportu wynika, że ​​jedynie 6.13% z 4,305 przypadków zapalenia płuc pochodzących z RSNA zostało prawidłowo oznakowanych, co stanowi zaledwie 265 przypadków prawdziwego zapalenia płuc.

Co więcej, wiele przypadków innych niż zapalenie płuc uwzględnionych w COVIDx dotyczyło chorób współistniejących – powikłań innych chorób lub innych wtórnych problemów medycznych w stanach, które niekoniecznie są związane z zapaleniem płuc.

Nie normalne'

Raport sugeruje ponadto, że wpływ zbioru danych prowokacji RSNA na Covidx wypaczył empiryczną stabilność danych. Naukowcy zauważają, że w przypadku COVIDx priorytetem jest „normalna” klasa danych RSNA, skutecznie wykluczając z szerszego zbioru danych wszystkie klasy „brak zmętnienia płuc/nieprawidłowość”. W artykule napisano:

„Chociaż jest to zgodne z oczekiwaniami w ramach określenia „normalny”, rozszerzenie klasy zapalenia płuc i stosowanie wyłącznie „normalnych” prześwietleń klatki piersiowej zamiast przypadków bez zapalenia płuc znacznie upraszcza zadanie klasyfikacji.

„Końcowym efektem tego jest zbiór danych odzwierciedlający zadanie usunięte z prawdziwego problemu klinicznego”.

Potencjalne błędy wynikające z niekompatybilnych standardów danych

W artykule wskazano szereg innych rodzajów błędu systematycznego w przypadku COVIDx, zauważając, że niektóre z dostarczanych danych łączą zdjęcia rentgenowskie klatki piersiowej u dzieci z zdjęciami rentgenowskimi dorosłych pacjentów, a ponadto zauważono, że dane te są jedynym „istotnym” źródłem obrazy pediatryczne w Covidx.

Ponadto obrazy ze zbioru danych RSNA mają rozdzielczość 1024 × 1024, podczas gdy inny zbiór danych udostępnia obrazy tylko w rozdzielczości 299 × 299. Ponieważ modele uczenia maszynowego niezmiennie będą zmieniać rozmiar obrazów, aby dostosować je do dostępnej przestrzeni szkoleniowej (przestrzeni ukrytej), oznacza to, że obrazy o wymiarach 299 × 299 zostaną przeskalowane w procesie szkolenia (potencjalnie prowadząc do artefaktów związanych raczej z algorytmem skalowania niż z patologią) i większe obrazy zostały zmniejszone. Ponownie stanowi to zagrożenie dla jednolitych standardów danych niezbędnych do komputerowej analizy obrazu opartej na sztucznej inteligencji.

Co więcej, dane ActMed zarejestrowane w systemie COVIDx zawierają „markery w kształcie dysku” na zdjęciach rentgenowskich klatki piersiowej w przypadku COVID-19, co jest cechą powtarzającą się, która jest niespójna z szerszym zbiorem danych i którą należy traktować jako „powtarzającą się wartość odstającą”.

Jest to tego rodzaju problem, który zwykle rozwiązuje się poprzez czyszczenie lub pomijanie danych, ponieważ powtarzanie się znaczników jest wystarczające, aby zarejestrować je jako „cechę” w szkoleniu, ale nie na tyle często, aby można je było z korzyścią uogólnić w szerszym schemacie zbioru danych . Bez mechanizmu dyskontującego wpływ sztucznych markerów, mogłyby one potencjalnie zostać uznane przez metodologię systemu uczenia maszynowego za zjawisko patologiczne.

Szkolenia i testowanie

Naukowcy przetestowali COVIDx na dwóch porównawczych zbiorach danych w trzech modelach. Dodatkowe dwa zbiory danych to RICORD, które zawiera 1096 zdjęć rentgenowskich klatki piersiowej w kierunku Covid-19 u 361 pacjentów, pochodzących z czterech krajów; I CheXpert, publiczny zbiór danych

Wykorzystano trzy modele: sieć COVID-Net, Diadem i DarkCovidNet. Wszystkie trzy modele wykorzystują konwolucyjne sieci neuronowe (CNN), chociaż CoroNet składa się z dwuetapowego procesu klasyfikacji obrazu, w którym autoenkodery przekazują dane wyjściowe do klasyfikatora CNN.

Testy wykazały „gwałtowny spadek” wydajności wszystkich modeli na zbiorach danych innych niż COVIDx w porównaniu z 86% dokładnością wynikającą z wykorzystania danych dotyczących COVIDx. Jeśli jednak dane są błędnie oznakowane lub źle pogrupowane, są to w rzeczywistości fałszywe wyniki. Naukowcy zauważyli znacznie zmniejszoną dokładność wyników porównywalnych zewnętrznych zbiorów danych, które w artykule uznano za dane bardziej realistyczne i prawidłowo sklasyfikowane.

W artykule zauważono ponadto:

„Kliniczny przegląd 500 map istotności grad-CAM wygenerowanych na podstawie przewidywań na podstawie danych z testu COVIDx wykazał trend istotności w zakresie cech nieistotnych klinicznie. Zwykle obejmowało to skupienie się na strukturach kostnych i tkankach miękkich zamiast rozproszonego, obustronnego zmętnienia pól płucnych, które jest typowe dla zakażenia Covid-19”.

To jest zdjęcie rentgenowskie potwierdzonego przypadku Covid-19, któremu prawdopodobieństwo przewidywania wynosi zaledwie 0.938 na podstawie informacji o COVIDx przeszkolonych w DarkCovidNet. Źródło: https://arxiv.org/ftp/arxiv/papers/2109/2109.08020.pdf

To jest zdjęcie rentgenowskie potwierdzonego przypadku Covid-19, któremu prawdopodobieństwo przewidywania wynosi zaledwie 0.938 na podstawie informacji o COVIDx przeszkolonych w DarkCovidNet.

wnioski

Naukowcy krytykują brak danych demograficznych lub klinicznych związanych ze zdjęciami rentgenowskimi w przypadku COVIDx, argumentując, że bez nich nie da się uwzględnić „czynników zakłócających”, takich jak wiek.

Zauważają również, że problemy wykryte w zbiorze danych COVIDx mogą mieć zastosowanie do innych zbiorów danych, które pochodziły z podobnego źródła (tj. poprzez zmieszanie baz danych obrazów radiologicznych sprzed pandemii z najnowszymi danymi dotyczącymi obrazów rentgenowskich COVIDx bez odpowiedniej architektury danych, kompensacji wariancji i jasnego zakresu). ograniczeń tego podejścia).

Podsumowując niedociągnięcia związane z COVIDx, badacze podkreślają nierówne włączenie „czytelnych” zdjęć rentgenowskich dzieci, a także ich postrzeganie niewłaściwego stosowania etykiet oraz wysokiego ryzyka stronniczości i wprowadzenia w błąd w przypadku COVIDx, twierdząc, że „wyjątkowa wydajność [COVIDX] zgłaszane powszechnie w całej dziedzinie problemu jest zawyżone, wyniki działania modeli są błędnie przedstawiane i że modele nie dają się dobrze uogólnić na dane realistyczne klinicznie.

Raport podsumowuje:

„Brak dostępnych danych szpitalnych w połączeniu z nieodpowiednią oceną modelu w całej dziedzinie problematycznej pozwolił na wykorzystanie danych open source do wprowadzenia w błąd społeczności badawczej. Ciągła publikacja zawyżonych wskaźników wydajności modelu może podważyć wiarygodność badań nad sztuczną inteligencją w diagnostyce medycznej, szczególnie gdy choroba budzi duże zainteresowanie opinii publicznej. Aby temu zapobiec, należy poprawić jakość badań w tej dziedzinie. Należy zacząć od danych.

 

 

*Chociaż badacze biorący udział w badaniu twierdzą, że stworzyli dane, pliki i kod do nowego artykułu dostępny online, dostęp wymaga logowania, a w momencie pisania tego tekstu nie jest dostępny powszechny dostęp do plików.
** ChestX-ray8: Baza danych zdjęć rentgenowskich klatki piersiowej na skalę szpitalną i punkty odniesienia dotyczące słabo nadzorowanej klasyfikacji i lokalizacji powszechnych chorób klatki piersiowej –
https://arxiv.org/pdf/1705.02315.pdf