potongan Membuat Kumpulan Data Luka Sintetis Dengan Jaringan Musuh Generatif - Unite.AI
Terhubung dengan kami

Kesehatan

Membuat Kumpulan Data Luka Sintetis Dengan Jaringan Musuh Generatif

mm

Diterbitkan

 on

Untuk pertama kalinya, a Jaringan Adversarial Generatif digunakan untuk membuat kumpulan data sintetis dari citra luka, untuk mengatasi kekurangan konten yang beragam dan dapat diakses dari jenis ini dalam aplikasi pembelajaran mesin layanan kesehatan.

Sistem, disebut WG2AN, adalah kolaborasi antara Batten College of Engineering & Technology dan perusahaan kesehatan AI eKare, yang berspesialisasi dalam penerapan metodologi pembelajaran mesin untuk pengukuran dan identifikasi luka.

GAN dilatih tentang 100-4000 gambar luka kronis stereoskopis berlabel yang disediakan oleh eKare, termasuk gambar jenis cedera yang dianonimkan dari penyebab seperti tekanan, pembedahan, insiden limfovaskular, diabetes, dan luka bakar. Bahan sumber bervariasi dalam ukuran antara 1224×1224 hingga 2160×2160, semuanya diambil di bawah cahaya yang tersedia oleh dokter.

Untuk mengakomodasi ruang laten yang tersedia dalam arsitektur pelatihan model, gambar diubah skalanya menjadi 512×512, dan diekstraksi dari latar belakangnya. Untuk mempelajari pengaruh ukuran dataset, uji coba dilakukan pada kumpulan 100, 250, 500, 1000, 2000, dan 4000 gambar.

Sumber: https://ietresearch.onlinelibrary.wiley.com/doi/pdfdirect/10.1049/tje2.12033

Sumber: https://ietresearch.onlinelibrary.wiley.com/doi/pdfdirect/10.1049/tje2.12033

Gambar di atas menunjukkan peningkatan detail dan perincian menurut ukuran set pelatihan yang berkontribusi, dan jumlahnya zaman berjalan pada setiap lintasan.

Arsitektur WG. Sumber: https://ietresearch.onlinelibrary.wiley.com/doi/pdfdirect/10.1049/tje2.12033

Arsitektur WG2GAN. Sumber: https://ietresearch.onlinelibrary.wiley.com/doi/pdfdirect/10.1049/tje2.12033

WG2GAN berjalan di PyTorch dengan pengaturan gaya konsumen yang relatif ramping, dengan VRAM 8GB pada GPU GTX 1080. Pelatihan memakan waktu antara 4-58 jam pada rentang ukuran dataset dari 100-4000 gambar, dan selama rentang zaman, pada ukuran batch 64 sebagai pertukaran antara akurasi dan kinerja. Adam Optimizer digunakan untuk paruh pertama pelatihan pada laju pembelajaran 0.0002, dan diakhiri dengan laju pembelajaran peluruhan linier hingga kehilangan nol tercapai.

Kiri atas, segmentasi diterapkan pada area luka. Di atas tengah, gambar luka yang sebenarnya; kanan atas, luka sintetis dari jenis yang dapat digeneralisasikan dalam kumpulan data, berdasarkan sumber aslinya. Di bawah, luka asli, dan, kanan, sintesis luka yang dihasilkan oleh WG2GAN.

Kiri atas, segmentasi diterapkan pada area luka. Di atas tengah, gambar luka yang sebenarnya; kanan atas, luka sintetis dari jenis yang dapat digeneralisasikan dalam kumpulan data, berdasarkan sumber aslinya. Di bawah, luka asli, dan, kanan, sintesis luka yang dihasilkan oleh WG2GAN.

Dalam kumpulan data medis, seperti banyak sektor pembelajaran mesin lainnya, pelabelan merupakan hambatan yang tak terhindarkan. Dalam hal ini, para peneliti menggunakan sistem pelabelan semi otomatis yang memanfaatkan penelitian terdahulu dari eKare, yang menggunakan model luka dunia nyata, dibuat di Play-Doh dan diwarnai secara kasar untuk konteks semantik.

model Luka eKare

model Luka eKare

Para peneliti mencatat masalah yang sering terjadi pada tahap awal pelatihan, ketika kumpulan data cukup beragam dan bobot diacak – model membutuhkan waktu lama (75 zaman) untuk 'menetap':

Di mana data beraneka ragam, model GAN ​​dan encoder/decoder berjuang untuk mendapatkan generalisasi pada tahap awal, seperti yang dapat kita lihat dibuktikan dalam grafik pelatihan WG di atas2GAN, yang melacak garis waktu pelatihan dari awal hingga nol kerugian.

Kehati-hatian harus dilakukan untuk memastikan bahwa proses pelatihan tidak terpaku pada fitur atau karakteristik dari setiap iterasi atau zaman, melainkan terus menggeneralisasi kerugian rata-rata yang dapat digunakan tanpa menghasilkan hasil yang terlalu mengabstraksi materi sumber. Dalam kasus WG2GAN, yang berisiko menciptakan luka yang tidak terbatas, sepenuhnya 'fiksi', digabungkan di antara rentang jenis luka yang tidak terkait terlalu luas, daripada menghasilkan rentang variasi yang akurat dalam jenis luka tertentu.

Mengontrol Ruang Lingkup Dalam Kumpulan Data Pembelajaran Mesin

Model dengan set pelatihan yang lebih ringan menggeneralisasi lebih cepat, dan peneliti makalah berpendapat bahwa gambar paling realistis dapat diperoleh kurang dari pengaturan maksimum: kumpulan data 1000 gambar dilatih selama 200 zaman.

Meskipun kumpulan data yang lebih kecil dapat menghasilkan gambar yang sangat realistis dalam waktu yang lebih singkat, kisaran gambar dan jenis luka yang dihasilkan juga akan lebih terbatas. Ada keseimbangan halus dalam rezim pelatihan GAN dan encoder/decoder antara volume dan variasi data input, ketepatan gambar yang dihasilkan, dan realisme gambar yang dihasilkan — masalah ruang lingkup dan pembobotan yang tentunya tidak terbatas pada gambar medis perpaduan.

Ketidakseimbangan Kelas Dalam Kumpulan Data Medis

Secara umum, pembelajaran mesin perawatan kesehatan tidak hanya diliputi oleh a kurangnya dataset, tetapi oleh ketidakseimbangan kelas, di mana data penting tentang penyakit tertentu merupakan persentase yang sangat kecil dari kumpulan data inangnya sehingga berisiko diabaikan sebagai data outlier, atau menjadi berasimilasi dalam proses generalisasi selama pelatihan.

Sejumlah metode telah diusulkan untuk mengatasi masalah terakhir, seperti pengambilan contoh yang kurang atau pengambilan contoh yang berlebihan. Namun, masalahnya sering dipinggirkan dengan mengembangkan kumpulan data khusus penyakit yang sepenuhnya terikat pada satu masalah medis. Meskipun pendekatan ini efektif untuk setiap kasus, pendekatan ini berkontribusi pada budaya Balkanisasi dalam bidang penelitian pembelajaran mesin medis, dan bisa dibilang memperlambat kemajuan umum di sektor ini.