Connect with us

Cinsiyet Önyargılı Veri Üzerinde Eğitilen AI Modeller Hastalıkları Teşhis Etmede Daha Kötü Performans Gösterir

Sağlık

Cinsiyet Önyargılı Veri Üzerinde Eğitilen AI Modeller Hastalıkları Teşhis Etmede Daha Kötü Performans Gösterir

mm

Yakın zamanda, yayınlanan bir çalışmada, Arjantin’den araştırmacılar tarafından yapılan bir nghiênmede, cinsiyet önyargılı eğitim verilerinin hastalıkların teşhis edilmesinde ve diğer tıbbi konularda daha kötü model performansı ile sonuçlandığı öne sürüldü. Statsnews tarafından bildirildiği üzere, araştırmacılar, kadın hastaların önemli ölçüde underrepresented veya tamamen hariç tutulduğu eğitim modelleri ile deneysel çalışmalarda bulundular ve algoritmanın kadın hastaları teşhis etmede önemli ölçüde daha kötü performans gösterdiğini buldular. Aynı durum, erkek hastaların hariç tutulduğu veya underrepresented olduğu durumlarda da geçerli oldu.

Son beş yıl içinde, AI modelleri ve makine öğrenimi daha yaygın hale geldikçe, önyargılı veri setleri ve bunlardan kaynaklanan önyargılı makine öğrenimi modelleri ile ilgili sorunlara daha fazla dikkat çekildi. Makine öğreniminde veri önyargısı, garip, sosyal olarak zararlı ve dışlayıcı AI uygulamalarına neden olabilir, ancak tıbbi uygulamalarda canlar tehlikeye girebilir. Ancak, sorun hakkında bilgi sahibi olunmasına rağmen, few çalışmalar önyargılı veri setlerinin ne kadar zararlı olabileceğini量ify etmeye çalıştı. Araştırma ekibi tarafından yapılan çalışmada, veri önyargısının birçok uzmanın önceden tahmin ettiğinden daha aşırı etkileri olabileceği bulundu.

Son birkaç yıl içinde tıbbi bağlamlarda AI’ın en popüler kullanımlarından biri, tıbbi görüntüler temelinde hastaları teşhis etmek için AI modellerinin kullanılmasıdır. Araştırma ekibi, pnömoni, kardiyomegali veya fıtık gibi çeşitli tıbbi durumların varlığını tespit etmek için X-ray’ler kullanılarak eğitilen modelleri analiz etti. Araştırma ekibi, Inception-v3, ResNet ve DenseNet-121 gibi üç açık kaynaklı model mimarisini inceledi. Modeller, Stanford Üniversitesi ve Ulusal Sağlık Enstitüleri’nden gelen iki açık kaynaklı veri setinden alınan göğüs X-ray’leri ile eğitildi. Veri setleri kendileri cinsiyet temsilinde oldukça dengeli olmasına rağmen, araştırmacılar verileri cinsiyet dengesizliği olan alt kümelerine ayırdı.

Araştırma ekibi, her biri farklı erkek/kadın hasta taramaları oranlarına sahip beş farklı eğitim veri seti oluşturdu. Beş eğitim seti aşağıdaki gibi bölündü:

  • Tüm görüntüler erkek hastalardan oluşuyordu
  • Tüm görüntüler kadın hastalardan oluşuyordu
  • Erkek hastaların %25’i ve kadın hastaların %75’i
  • Kadın hastaların %75’i ve erkek hastaların %25’i
  • Erkek ve kadın hastaların yarısı

Model, bir alt küme üzerinde eğitildikten sonra, hem erkek hem de kadın hastalardan oluşan bir tarama koleksiyonu üzerinde test edildi. Çeşitli tıbbi durumlar boyunca mevcut olan bir trend vardı, eğitim verisi önemli ölçüde cinsiyet önyargılı olduğunda modellerin doğruluğu çok daha kötüydü. İlginç bir şey, eğer bir cinsiyet eğitim verisinde overrepresented ise, bu cinsiyetin daha iyi performans göstermediği görünüyor. Model, bir cinsiyet için önyargılı veya diğer cinsiyet için önyargılı eğitilmiş olsun, kapsayıcı bir veri seti üzerinde eğitildiğinde daha iyi performans göstermedi.

Çalışmanın kıdemli yazarı Enzo Ferrante, Statnews tarafından alıntılandı ve eğitim verilerinin diverse ve temsil edici olması gerektiğini vurguladı.

Neden bir cinsiyet için eğitilen modeller diğer cinsiyet için daha kötü performans gösteriyor, tamamen açık değil. Bazı farklılıklar fizyolojik farklılıklardan kaynaklanabilir, ancak çeşitli sosyal ve kültürel faktörler de bu farklılıkların bir kısmını açıklayabilir. Örneğin, kadınlar, erkeklerle karşılaştırıldığında, hastalıklarının ilerleme aşamasında farklı bir aşamada X-ray alabilirler. Eğer bu doğru ise, bu, eğitim görüntülerindeki özelliklere (ve dolayısıyla model tarafından öğrenilen desenlere) etki edebilir. Eğer bu durum ise, araştırmacılar için veri setlerini önyargıdan arındırmak çok daha zor hale gelir, çünkü önyargı veri toplama mekanizmaları aracılığıyla veri setine işlenir.

Bazen, veri diversitesine dikkat eden araştırmacılar bile, önyargılı veya dengesiz veri setleri ile çalışmak zorunda kalabilirler. Tıbbi durumların teşhis edilmesinde bir disparite olduğunda, genellikle dengesiz veri setleri oluşur. Örneğin, meme kanseri hastaları ile ilgili veri几乎 tamamen kadınlardan toplanır. Benzer şekilde, otizm, erkekler ve kadınlar arasında farklı şekilde ortaya çıkar ve bu nedenle, durum erkeklerde kızlardan daha yüksek bir oranda teşhis edilir.

Bununla birlikte, araştırmacılar için, dengesiz veri setleri ve veri önyargısını kontrol altına almak her şekilde çok önemlidir. Gelecek çalışmalar, önyargılı verilerin etkisini量ify etmeye yardımcı olacaktır.

Blog yazarı ve programcı, Machine Learning ve Deep Learning konularında uzmanlık sahibi. Daniel, başkalarının AI'nin gücünü sosyal fayda için kullanmasına yardımcı olmak umudu taşıyor.