Sağlık

Popüler COVIDx Veri Seti UK Araştırmacıları Tarafından Eleştirildi

Published September 22, 2021

Updated April 28, 2026

Martin Anderson

UK’den bir araştırma konsorsiyumu, COVID-19 hastalarının göğüs röntgenlerinin bilgisayar görüşü tabanlı analizinde kullanılan açık kaynaklı veri setlerine duyulan bilimsel güvenin kapsamını eleştirdi, popüler açık kaynaklı veri seti COVIDx’e odaklandı.

Araştırmacılar, COVIDx’i çeşitli AI eğitim modellerinde test etti ve bunun ‘gerçek klinik problema temsil edilmeyen’ olduğunu, elde edilen sonuçların ‘aşırı şişirilmiş’ olduğunu ve modellerin ‘gerçek dünya verilerine iyi genellemeyen’ olduğunu iddia ediyorlar.

Yazarlar ayrıca, COVIDx’i oluşturan katkıda bulunan verilerin tutarlı olmamasını da not ediyor, bu verilerin orijinal görüntülerinin çeşitli çözünürlüklerde geldiğini ve derin öğrenme iş akışının bunları eğitim için gerekli olan tutarlı boyutlara otomatik olarak yeniden biçimlendirdiğini gözlemliyorlar. Bu işlem, klinik veri aspectine değil, görüntü yeniden boyutlandırma algoritmasına ilişkin aldatıcı sanat eserleri ortaya çıkarabilir.

Makale COVID-19 Dedektörlüğü için Açık Veri Kullanmanın Pusuları olarak adlandırılmış ve Leeds Üniversitesi’ndeki Center for Computational Imaging & Simulation in Biomedicine (CISTIB) ile aynı şehirdeki diğer beş kuruluştan araştırmacılar arasındaki bir işbirliği olarak düzenlenmiştir.

Araştırmada, COVIDx veri setindeki ‘etiketlerin yanlış kullanımı’ ve ‘yüksek yanlılık ve karıştırma riski’ de dahil olmak üzere çeşitli olumsuz uygulamalar ayrıntılı olarak açıklanmaktadır. Araştırmacıların kendi deneyleri, veri setini üç geçerli derin öğrenme modeli aracılığıyla çalıştırması, onları ‘rapor edilen istisnai performansı şişirilmiş, model performansı sonuçlarının yanlış temsil edildiği ve modellerin klinik olarak gerçekçi verilere iyi genellemeyen’ sonucuna varmaya yöneltmiştir.

Beş Çelişkili Veri Seti

Raporda, mevcut AI tabanlı metodolojilerin çoğunun, farklı açık kaynaklı depolardan gelen ‘heterojen’ bir veri koleksiyonuna bağlı olduğu观察 edilmektedir. Araştırmacılar, COVIDx veri setinin, beş farklı veri setinin bir araya getirilmesiyle oluştuğunu, ancak bu veri setlerinin veri kalitesi ve türü bakımından yeterli bir tutarlılığa sahip olmadığını belirtiyorlar.

COVIDx veri seti Mayıs 2020’de Kanada’daki Waterloo Üniversitesi’ndeki Sistemler Tasarım Mühendisliği Bölümü liderliğindeki bir konsorsiyum çalışması olarak yayımlanmıştır ve veri COVID-Net Açık Kaynak Girişimi kapsamında mevcuttur.

COVIDx’i oluşturan beş koleksiyon şunlardır: COVID-19 Görüntü Veri Koleksiyonu (Montreal araştırmacılarından açık kaynaklı bir set); COVID-19 Göğüs Röntgeni Veri Seti girişimi; Actualmed COVID-19 Göğüs Röntgeni veri seti; COVID-19 Radyografi Veritabanı; ve RSNA Pnömoni Tespit Çağıtı veri seti, COVID-19 öncesi birçok veri setinden biri olup pandemi krizi için hizmete sokulmuştur.

(RICORD – aşağıda görüldüğü gibi – daha sonra COVIDx’e eklendi, ancak çalışmadaki modellerle ilgisi olmadığı için test verisinden çıkarıldı ve her durumda COVIDx’i daha da çeşitlendirecekti, bu da yazarların temel şikayetidir.)

Araştırmacılar, COVIDx’in COVID araştırmaları ile ilgili bilimsel topluluk içinde kendi türünün ‘en büyük ve en yaygın kullanılan’ veri seti olduğunu ve COVIDx’e dış veri setlerinden ithal edilen verilerin COVIDx veri setinin üçlü şemasına (yani ‘normal’, ‘pnömoni’ ve ‘COVID-19’) uygun olmadığını iddia ediyorlar.

Yaklaşık…?

Çalışma sırasında COVIDx için katkıda bulunan veri setlerinin kökenini ve uygunluğunu inceleyen araştırmacılar, RSNA verisinin ‘yanlış kullanımını’ buldular, burada bir tür verinin farklı bir kategoriye sokulduğunu iddia ediyorlar:

‘RSNA deposu, NIH Chestx-ray8 [**]‘den halka açık göğüs röntgeni verilerini kullanan bir segmentasyon görevi için tasarlanmış ve ‘Akciğer Opasitesi’, ‘Akciğer Opasitesi Yok / Normal Değil’ ve ‘Normal’ gibi üç görüntü sınıfı içerir ve ‘Akciğer Opasitesi’ durumları için sınırlayıcı kutular mevcuttur.

‘COVIDx’e derlenmesiyle birlikte tüm göğüs röntgenleri ‘Akciğer Opasitesi’ sınıfından pnömoni sınıfına dahil edildi.’

Esasen, makale, COVIDx metodolojisinin ‘pnömoni’ tanımını ‘tüm pnömoni benzeri akciğer opasitelerine’ genişlettiğini iddia ediyor. Dolayısıyla, karşılaştırılabilir veri türlerinin benzerlik değeri tehdit altında kalıyor. Araştırmacılar şöyle diyor:

‘ […] COVIDx veri setindeki pnömoni sınıfı, plevral efüzyon, infiltrasyon, konsolidasyon, emfizem ve kitleler dahil birçok başka patolojili göğüs röntgenlerini içerir. Konsolidasyon, pnömoninin radyolojik bir özelliğidir, klinik bir tanı değildir. Konsolidasyonu pnömoni yerine kullanmak ve bunu belgelememek potansiyel olarak yanıltıcı olabilir.’

COVIDx ile ilişkili alternatif patolojiler (COVID-19 dışındaki). Kaynak: https://arxiv.org/ftp/arxiv/papers/2109/2109.08020.pdf

Raporda, RSNA’dan alınan 4.305 pnömoni vakasının yalnızca %6,13’ünün (265 gerçek pnömoni vakası) doğru bir şekilde etiketlendiği belirtilmektedir.

Ayrıca, COVIDx’de yer alan birçok non-pnömoni vakası, komorbiditeleri temsil etmektedir – diğer hastalıkların komplikasyonları veya ikincil tıbbi sorunlar, pnömoni ile ilgili olmayanlar.

Normal Değil

Raporda ayrıca, RSNA challenge veri setinin COVIDx’deki empirik stabilitesini bozduğu öne sürülmektedir. Araştırmacılar, COVIDx’in RSNA verisinin ‘normal’ sınıfını önceliklendirdiğini, daha geniş veri setindeki ‘no lung opacity/not normal’ sınıflarını etkili bir şekilde hariç tuttuğunu gözlemliyorlar. Makale şöyle diyor:

‘Bu, ‘normal’ etiketinin beklentisiyle uyumlu olsa da, pnömoni sınıfını genişletmek ve yalnızca ‘normal’ göğüs röntgenlerini kullanmak, pnömoni-negatif vakaları kullanmaktan daha basit bir sınıflandırma görevi oluşturur.

‘Sonuç, gerçek klinik problema uzak bir görevi yansıtan bir veri setidir.’

Uyumsuz Veri Standartlarından Kaynaklı Olası Yanlılıklar

Makale, COVIDx’de çeşitli diğer yanlılık türlerini tespit etmektedir. Bazı katkıda bulunan verilerin pediatrik göğüs röntgeni görüntülerini yetişkin hastaların röntgenleriyle birleştirdiğini ve bu verilerin COVIDx’deki tek ‘önemli’ pediatrik görüntü kaynağı olduğunu gözlemlemektedir.

Ayrıca, RSNA veri setindeki görüntüler 1024×1024 çözünürlüğe sahipken, başka bir katkıda bulunan veri seti yalnızca 299×299 çözünürlükte görüntüler sağlar. Makine öğrenimi modelleri, mevcut eğitim alanını (latent alanı) doldurmak için görüntüleri yeniden boyutlandıracağından, 299×299 görüntüler eğitim akışında (potansiyel olarak bir ölçeklendirme algoritmasına bağlı sanat eserleri oluşturarak) büyütülecek ve daha büyük görüntüler küçültülecektir. Bu, AI tabanlı bilgisayar görüşü analizine gerekli olan homojen veri standartlarını bozar.

Ayrıca, ActMed veri setindeki COVID-19 göğüs röntgenlerinde ‘disk şekilli işaretler’ bulunur, bu, daha geniş veri setiyle tutarlı olmayan tekrarlayan bir özelliktir ve ‘tekrarlayan aykırı değer’ olarak ele alınmalıdır.

Bu, genellikle verilerin temizlenmesi veya çıkarılmasıyla ele alınan bir sorundur, çünkü işaretlerin tekrarı, eğitimde faydalı bir şekilde genelleştirilemeyecek kadar sık değil, ancak bir ‘özellik’ olarak kaydedilebilecek kadar sık görülmektedir. Yapay işaretlerin etkisini azaltan bir mekanizma olmadan, bunlar makine öğrenimi sisteminin metodolojisi tarafından patolojik fenomenler olarak dikkate alınabilir.

Eğitim ve Test

Araştırmacılar, COVIDx’i üç model boyunca iki karşılaştırılabilir veri setiyle test etti. Ek iki veri seti, 1096 COVID-19 göğüs röntgeninden oluşan 361 hastayı dört ülkeden içeren RICORD ve CheXpert idi.

Kullanılan üç model, COVID-Net, CoroNet ve DarkCovidNet idi. Tüm modeller, Evrişimli Sinir Ağları (CNN) kullanmaktadır, ancak CoroNet, bir CNN sınıflandırıcıya çıktı veren otomatik kodlayıcılar içeren iki aşamalı bir görüntü sınıflandırma işlemini içerir.

Test, COVIDx veri setini kullandığında %86’lık bir doğruluk sonucuyla tüm model performansında bir ‘keskin düşüş’ gösterdi. Ancak, veri yanlış etiketlenmiş veya yanlış gruplandırılmışsa, bunlar esasen yanlış sonuçlardır. Araştırmacılar, karşılaştırılabilir dış veri setlerinde önemli ölçüde azaltılmış doğruluk sonuçları gözlemledi ve makale, bu sonuçları daha gerçekçi ve doğru şekilde etiketlenmiş veri olarak önerdi.

Ayrıca, makale şöyle diyor:

‘COVIDx test verisi üzerine yapılan 500 grad-CAM saliency haritasının klinik bir incelemesi, klinik olarak alakasız özelliklerde bir anlamlılık eğilimini gösterdi. Bu genellikle kemik yapılar ve yumuşak dokular yerine COVID-19 enfeksiyonuna tipik olan akciğer alanlarının diffuse bilateral opasitesine odaklanmayı içerir.’

DarkCovidNet ile eğitilen COVIDx’den 0,938 tahmin olasılığı ile atanmış bir onaylanmış COVID-19 vakasının röntgeni.

Sonuçlar

Araştırmacılar, COVIDx veri setindeki göğüs röntgeni görüntülerine ilişkin demografik veya klinik verilerin eksikliğini eleştirerek, bu verilerin olmadan ‘yanlılık ve karıştırma faktörlerini’ hesaba katmanın imkansız olduğunu öne sürmektedirler.

Ayrıca, COVIDx’de bulunan sorunların benzer şekilde kaynaklanan diğer veri setlerine de uygulanabileceğini gözlemlemektedirler (yani, uygun veri mimarisi, varyans telafisi ve bu yaklaşımın sınırlarının açık bir kapsamı olmadan pre-COVID radyolojik görüntü veritabanlarını recent COVID X-ray görüntü verisi ile birleştirmek).

COVIDx’in eksikliklerini özetlerken, araştırmacılar ‘istisnai performansı’ vurgulayarak, ‘rapor edilen [COVIDx]’in ‘genel olarak problem alanındaki inflated, model performansı sonuçlarının yanlış temsil edildiği ve modellerin klinik olarak gerçekçi verilere iyi genellemeyen‘ olduğunu iddia etmektedirler.

Rapor şöyle sona ermektedir:

‘Hastane verilerinin eksikliği ve problem alanındaki yetersiz model değerlendirmesi, açık kaynaklı verilerin araştırma topluluğunu yanıltmasına izin verdi. AI tıbbi teşhislerde, özellikle halkın büyük ilgi gösterdiği hastalıklarda, yayınlanan model performansı metriklerinin şişirilmesini sürdürmek, AI araştırmalarının güvenilirliğini tehlikeye atma riski taşıyor. Bu alanda araştırma kalitesinin iyileşmesi gerekiyor, bu da veriyle başlamalıdır.’

*Araştırmacılar, çalışmanın veri, dosyaları ve kodunu çevrimiçi olarak kullanılabilir hale getirdiklerini iddia ediyorlar, ancak erişim için oturum açma gerekiyor ve yazının yazıldığı sırada genel halka dosyalara erişim sağlanmıyor.
** ChestX-ray8: Hastane Ölçeğinde Göğüs Röntgeni Veritabanı ve Common Thorax Hastalıklarının Zayıf Denetimli Sınıflandırması ve Yerleştirilmesi Üzerine Benchmarks – https://arxiv.org/pdf/1705.02315.pdf