Kesehatan
Membuat Dataset Luka Sintetis Dengan Jaringan Adversarial Generatif

Untuk pertama kalinya, sebuah Jaringan Adversarial Generatif digunakan untuk membuat dataset sintetis gambar luka, untuk mengatasi kekurangan konten yang beragam dan mudah diakses dari jenis ini dalam aplikasi pembelajaran mesin kesehatan.
Sistem, yang disebut WG2AN, adalah kolaborasi antara Batten College of Engineering & Technology dan perusahaan kesehatan AI eKare, yang mengkhususkan diri dalam menerapkan metodologi pembelajaran mesin untuk pengukuran dan identifikasi luka.
Jaringan Adversarial Generatif dilatih pada 100-4000 gambar luka kronis stereoskopik yang dilabeli yang disediakan oleh eKare, termasuk gambar anonim dari jenis cedera seperti tekanan, bedah, insiden limfovaskular, diabetes, dan luka bakar. Bahan sumber bervariasi dalam ukuran antara 1224×1224 hingga 2160×2160, semua diambil dengan cahaya yang tersedia oleh dokter.
Untuk menampung ruang laten yang tersedia dalam arsitektur pelatihan model, gambar diubah ukurannya menjadi 512×512, dan diambil dari latar belakangnya. Untuk mempelajari efek ukuran dataset, tes dijalankan pada batch 100, 250, 500, 1000, 2000, dan 4000 gambar.
Gambar di atas menunjukkan detail dan granularitas yang meningkat sesuai dengan ukuran dataset pelatihan, dan jumlah epoch yang dijalankan pada setiap proses.

The architecture of WG2GAN. Source: https://ietresearch.onlinelibrary.wiley.com/doi/pdfdirect/10.1049/tje2.12033
WG2AN berjalan pada PyTorch pada konfigurasi konsumen yang relatif ramping, dengan 8GB VRAM pada GTX 1080 GPU. Pelatihan memakan waktu antara 4-58 jam selama rentang ukuran dataset dari 100-4000 gambar, dan selama rentang epoch, pada ukuran batch 64 sebagai kompromi antara akurasi dan kinerja. Adam Optimizer digunakan untuk setengah pertama pelatihan dengan tingkat pembelajaran 0,0002, dan diakhiri dengan tingkat pembelajaran yang menurun secara linear hingga kerugian nol dicapai.

Above left, segmentation applied to the wound area. Above center, image of the actual wound; above right, a synthetic wound of a type that can be generalized in a dataset, based on the original source. Below, the original wound, and, right, a synthesis of the wound generated by WG2GAN.
Dalam dataset medis, seperti dalam banyak sektor lainnya dari pembelajaran mesin, pelabelan adalah bottleneck yang tidak dapat dihindari. Dalam kasus ini, peneliti menggunakan sistem pelabelan semi-otomatis yang memanfaatkan penelitian sebelumnya dari eKare, yang menggunakan model dunia nyata dari luka, dibuat dengan Play-Doh dan diwarnai untuk konteks semantik.

eKare Wound models
Peneliti mencatat masalah yang sering terjadi pada tahap awal pelatihan, ketika dataset sangat beragam dan bobot diacak – model membutuhkan waktu lama (75 epoch) untuk ‘menetap’:

Di mana data bervariasi, baik model Jaringan Adversarial Generatif dan encoder/decoder mengalami kesulitan untuk mendapatkan generalisasi pada tahap awal, seperti yang dapat dilihat dalam grafik pelatihan WG2GAN, yang melacak timeline pelatihan dari awal hingga kerugian nol.
Perlu diambil langkah-langkah untuk memastikan bahwa proses pelatihan tidak terfokus pada fitur atau karakteristik dari satu iterasi atau epoch, tetapi terus menggeneralisasi ke kerugian rata-rata yang dapat digunakan tanpa menghasilkan hasil yang terlalu abstrak dari bahan sumber. Dalam kasus WG2GAN, itu akan berisiko menciptakan luka yang tidak terbatas, sepenuhnya ‘fiktif’, yang dikombinasikan dengan terlalu banyak jenis luka yang tidak terkait, daripada menghasilkan rentang variasi yang akurat dalam jenis luka tertentu.
Mengontrol Ruang Lingkup Dalam Dataset Pembelajaran Mesin
Model dengan dataset pelatihan yang lebih ringan menggeneralisasi lebih cepat, dan peneliti dalam makalah ini berpendapat bahwa gambar yang paling realistis dapat diperoleh dengan pengaturan di bawah maksimum: dataset 1000 gambar yang dilatih selama 200 epoch.
Meskipun dataset yang lebih kecil mungkin mencapai gambar yang sangat realistis dalam waktu yang lebih singkat, rentang gambar dan jenis luka yang dihasilkan akan secara alami lebih terbatas. Ada keseimbangan yang halus dalam rejim pelatihan Jaringan Adversarial Generatif dan encoder/decoder antara volume dan keragaman data input, kesetiaan gambar yang dihasilkan, dan realisme gambar yang dihasilkan — masalah ruang lingkup dan bobot yang tidak terbatas pada sintesis gambar medis.
Keseimbangan Kelas Dalam Dataset Medis
Secara umum, pembelajaran mesin kesehatan tidak hanya kekurangan dataset, tetapi juga keseimbangan kelas, di mana data penting tentang penyakit tertentu merupakan persentase kecil dari dataset induknya sehingga berisiko diabaikan sebagai data outlier, atau menjadi terasimilasi dalam proses generalisasi selama pelatihan.
Beberapa metode telah diajukan untuk mengatasi masalah ini, seperti under-sampling atau over-sampling. Namun, masalah ini sering dihindari dengan mengembangkan dataset spesifik penyakit yang sepenuhnya terikat pada satu masalah medis. Meskipun pendekatan ini efektif pada kasus per kasus, itu berkontribusi pada budaya Balkanisasi dalam bidang penelitian pembelajaran mesin medis, dan secara argumentatif memperlambat kemajuan umum dalam sektor ini.













