potongan Performa Pembelajaran Mesin yang Lebih Baik Melalui Pengubahan Ukuran Gambar Berbasis CNN - Unite.AI
Terhubung dengan kami

Kecerdasan Buatan

Performa Pembelajaran Mesin yang Lebih Baik Melalui Pengubahan Ukuran Gambar Berbasis CNN

mm
Updated on

Google Research telah mengusulkan metode baru untuk meningkatkan efisiensi dan akurasi alur kerja pelatihan visi komputer berbasis gambar dengan meningkatkan cara penyusutan gambar dalam kumpulan data pada tahap pra-pemrosesan.

Dalam majalah kertas Belajar Mengubah Ukuran Gambar untuk Tugas Computer Vision, peneliti Hossein Talebi dan Peyman Milanfar memanfaatkan CNN untuk membuat arsitektur pengubah ukuran gambar hibrid baru yang menghasilkan peningkatan penting dalam hasil pengenalan yang diperoleh dari empat set data visi komputer populer.

Kerangka bersama yang diusulkan untuk pengakuan dan pengubahan ukuran. Sumber: https://arxiv.org/pdf/2103.09950.pdf

Kerangka bersama yang diusulkan untuk pengakuan dan pengubahan ukuran. Sumber: https://arxiv.org/pdf/2103.09950.pdf

Makalah ini mengamati bahwa metode penskalaan/pengubahan ukuran yang saat ini digunakan dalam pipeline pembelajaran mesin otomatis sudah ketinggalan zaman, dan sering kali hanya menggunakan bilinear dasar, bikubik, dan tetangga terdekat. mengubah ukuran – metode yang memperlakukan semua piksel tanpa pandang bulu.

Sebaliknya, metode yang diusulkan menambah data gambar melalui CNN dan memasukkan input tersebut ke dalam gambar yang diubah ukurannya yang pada akhirnya akan melewati arsitektur model.

Batasan Gambar dalam Pelatihan AI

Untuk melatih model yang berhubungan dengan gambar, kerangka pembelajaran mesin akan mencakup tahap pra-pemrosesan, di mana beragam gambar dengan berbagai ukuran, ruang warna, dan resolusi (yang akan berkontribusi pada kumpulan data pelatihan) dipangkas secara sistematis dan diubah ukurannya menjadi dimensi yang konsisten dan format tunggal yang stabil.

Secara umum ini akan melibatkan beberapa kompromi berdasarkan format PNG, di mana pertukaran antara waktu pemrosesan/sumber daya, ukuran file, dan kualitas gambar akan ditetapkan.

Dalam kebanyakan kasus, dimensi akhir dari gambar yang diproses sangatlah kecil. Di bawah ini kita melihat contoh gambar beresolusi 80×80 yang berisi beberapa kumpulan data deepfake paling awal dihasilkan:

Ini adalah resolusi 80x80 di mana beberapa kumpulan data deepfake paling awal dibuat.

Karena wajah (dan subjek lain yang mungkin) jarang masuk ke dalam rasio kuadrat yang diperlukan, bilah hitam mungkin perlu ditambahkan (atau ruang yang terbuang percuma) untuk menyeragamkan gambar, yang semakin mengurangi data gambar sebenarnya yang dapat digunakan:

Di sini wajah telah diekstraksi dari area gambar yang lebih besar hingga dipangkas sehemat mungkin agar mencakup seluruh area wajah. Namun, seperti yang terlihat di sebelah kiri, sebagian besar area yang tersisa tidak akan digunakan selama pelatihan, menambah bobot yang lebih besar pada pentingnya kualitas gambar dari data yang diubah ukurannya.

Di sini wajah telah diekstraksi dari area gambar yang lebih besar hingga dipangkas sehemat mungkin agar mencakup seluruh area wajah. Namun, seperti yang terlihat di sebelah kanan, sebagian besar area yang tersisa tidak akan digunakan selama pelatihan, menambah bobot yang lebih besar pada pentingnya kualitas gambar dari data yang diubah ukurannya.

Karena kemampuan GPU telah meningkat dalam beberapa tahun terakhir, dengan dilengkapi dengan kartu NVIDIA generasi baru jumlah yang meningkat video-RAM (VRAM), rata-rata kontribusi ukuran gambar mulai meningkat, meskipun 224×224 piksel masih cukup standar (misalnya, ini adalah ukuran ResNet-50 Himpunan data).

Gambar 224x244 piksel yang tidak diubah ukurannya.

Gambar 224×244 piksel yang tidak diubah ukurannya.

Memasang Batch ke VRAM

Alasan semua gambar harus berukuran sama adalah karena keturunan gradien, metode peningkatan model dari waktu ke waktu, membutuhkan data pelatihan yang seragam.

Alasan gambar harus sangat kecil adalah karena harus dimuat (didekompresi sepenuhnya) ke dalam VRAM selama pelatihan dalam batch kecil, biasanya antara 6-24 gambar per batch. Terlalu sedikit gambar per kumpulan, dan tidak cukup materi kelompok untuk menggeneralisasi dengan baik, selain memperpanjang waktu pelatihan; terlalu banyak, dan model mungkin gagal memperoleh karakteristik dan detail yang diperlukan (lihat di bawah).

Bagian 'pemuatan langsung' dari arsitektur pelatihan ini disebut ruang laten. Di sinilah fitur berulang kali diekstraksi dari data yang sama (yaitu gambar yang sama) sampai model telah konvergen ke keadaan di mana ia memiliki semua pengetahuan umum yang diperlukan untuk melakukan transformasi pada data berikutnya yang tidak terlihat dari jenis yang serupa.

Proses ini umumnya memakan waktu berhari-hari, meskipun bisa memakan waktu bahkan satu bulan atau lebih dari kogitasi 24/7 volume tinggi yang konstan dan pantang menyerah untuk mencapai generalisasi yang bermanfaat. Peningkatan ukuran VRAM hanya membantu sampai titik tertentu, karena bahkan peningkatan kecil dalam resolusi gambar dapat memiliki efek urutan besarnya pada kapasitas pemrosesan, dan efek terkait pada akurasi yang mungkin tidak selalu menguntungkan.

Menggunakan kapasitas VRAM yang lebih besar untuk mengakomodasi ukuran batch yang lebih tinggi juga merupakan berkah campuran, karena kecepatan pelatihan yang lebih tinggi diperoleh kemungkinan akan diimbangi dengan hasil yang kurang tepat.

Oleh karena itu, karena arsitektur pelatihan sangat dibatasi, apa pun yang dapat memengaruhi peningkatan dalam batasan pipeline yang ada merupakan pencapaian yang patut dicatat.

Bagaimana Perampingan Unggul Membantu

Kualitas akhir dari sebuah citra yang akan dimasukkan ke dalam dataset pelatihan telah terbukti memberikan efek yang lebih baik pada hasil pelatihan, khususnya dalam tugas-tugas pengenalan objek. Pada tahun 2018 peneliti dari Max Planck Institute for Intelligent Systems berpendapat bahwa pilihan metode resampling terutama berdampak pada kinerja dan hasil pelatihan.

Selain itu, pekerjaan sebelumnya dari Google (ditulis bersama oleh penulis makalah baru) telah menemukan bahwa akurasi klasifikasi dapat ditingkatkan dengan mempertahankan kendali lebih dari artefak kompresi dalam gambar set data.

Arsitektur CNN untuk Google Research mengusulkan algoritma downsampling.

Arsitektur CNN untuk Google Research mengusulkan algoritma downsampling.

Model CNN yang dibangun ke resampler baru menggabungkan pengubahan ukuran bilinear dengan fitur 'lewati koneksi' yang dapat memasukkan keluaran dari jaringan yang dilatih ke dalam gambar yang diubah ukurannya.

Tidak seperti arsitektur encoder/decoder pada umumnya, proposal baru ini dapat bertindak tidak hanya sebagai hambatan feed-forward, tetapi juga sebagai hambatan terbalik untuk peningkatan skala ke ukuran target dan/atau rasio aspek apa pun. Selain itu, metode resampling 'standar' dapat ditukar dengan metode tradisional lain yang sesuai, seperti meluncurkan.

Detail Frekuensi Tinggi

Metode baru menghasilkan gambar yang seolah-olah 'memanggang' fitur-fitur utama (yang pada akhirnya akan dikenali oleh proses pelatihan) langsung ke dalam gambar sumber. Dalam istilah estetika, hasilnya tidak konvensional:

Metode baru diterapkan di empat jaringan – Inception V2; DenseNet-121; ResNet-50; dan MobileNet-V2. Hasil metode downsampling/resize gambar Google Research menghasilkan gambar dengan agregasi piksel yang jelas, mengantisipasi fitur utama yang akan terlihat selama proses pelatihan.

Metode baru diterapkan di empat jaringan – Inception V2; DenseNet-121; ResNet-50; dan MobileNet-V2. Hasil metode downsampling/resize gambar Google Research menghasilkan gambar dengan agregasi piksel yang jelas, mengantisipasi fitur utama yang akan terlihat selama proses pelatihan.

Para peneliti mencatat bahwa eksperimen awal ini secara eksklusif dioptimalkan untuk tugas pengenalan gambar, dan bahwa dalam pengujian 'pengubah ukuran yang dipelajari' yang didukung CNN mereka mampu mencapai tingkat kesalahan yang lebih baik dalam tugas tersebut. Para peneliti bermaksud di masa depan untuk menerapkan metode ini ke jenis aplikasi visi komputer berbasis gambar lainnya.