Kecerdasan buatan

Membuat Jaringan Adversarial Generatif Kustom Dengan Sketsa

Published August 6, 2021

Updated April 28, 2026

Martin Anderson

Peneliti dari Carnegie Mellon dan MIT telah mengembangkan metodologi baru yang memungkinkan pengguna untuk membuat sistem pembuatan gambar Jaringan Adversarial Generatif (GAN) kustom hanya dengan menggambar sketsa yang menggambarkan ciri-ciri tertentu. Sistem seperti ini dapat memungkinkan pengguna akhir untuk membuat sistem pembuatan gambar yang dapat menghasilkan gambar yang sangat spesifik, seperti hewan tertentu, jenis bangunan – dan bahkan orang tertentu. Saat ini, sebagian besar sistem GAN menghasilkan output yang luas dan cukup acak, dengan kemampuan terbatas untuk menentukan ciri-ciri tertentu, seperti ras hewan, jenis rambut pada orang, gaya arsitektur atau identitas wajah yang sebenarnya. Pendekatan ini, yang diuraikan dalam makalah Sketch Your Own GAN, menggunakan antarmuka sketsa yang baru sebagai fungsi ‘pencarian’ yang efektif untuk menemukan fitur dan kelas dalam basis data gambar yang padat yang mungkin berisi ribuan jenis objek, termasuk banyak sub-jenis yang tidak relevan dengan niat pengguna. GAN kemudian dilatih pada subset gambar yang disaring ini. Dengan menggambar jenis objek spesifik yang ingin pengguna kalibrasi GAN, kemampuan generatif kerangka menjadi spesialis untuk kelas tersebut. Misalnya, jika pengguna ingin membuat kerangka yang menghasilkan jenis kucing tertentu (bukan hanya kucing tua, seperti yang dapat diperoleh dengan This Cat Does Not Exist), sketsa input mereka berfungsi sebagai filter untuk menolak kelas kucing yang tidak relevan. Source: https://peterwang512.github.io/GANSketching/ Sumber: https://peterwang512.github.io/GANSketching/ Penelitian ini dipimpin oleh Sheng Yu-Wang dari Carnegie Mellon University, bersama dengan rekan Jun-Yan Zhu, dan David Bau dari Laboratorium Ilmu Komputer dan Kecerdasan Buatan MIT. Metode ini sendiri disebut ‘GAN sketsa’, dan menggunakan sketsa input untuk langsung mengubah bobot model GAN ‘template’ untuk secara khusus menargetkan domain atau sub-domain yang diidentifikasi melalui kerugian adversarial antar domain. Metode regularisasi yang berbeda dieksplorasi untuk memastikan bahwa output modelnya beragam, sambil mempertahankan kualitas gambar yang tinggi. Peneliti membuat aplikasi contoh yang dapat melakukan interpolasi ruang laten dan prosedur pengeditan gambar.

This [$class] Does Not Exist

Sistem pembuatan gambar berbasis GAN telah menjadi tren, jika tidak sebuah meme, selama beberapa tahun terakhir, dengan penyebaran proyek yang dapat menghasilkan gambar dari hal-hal yang tidak ada, termasuk orang, apartemen sewa, camilan, kaki, kuda, politisi dan serangga, di antara banyak lainnya. Sistem sintesis gambar berbasis GAN dibuat dengan mengompilasi atau mengkurasi dataset ekstensif yang berisi gambar dari domain target, seperti wajah atau kuda; melatih model yang menggeneralisasi berbagai fitur di seluruh gambar dalam database; dan mengimplementasikan modul generator yang dapat menghasilkan contoh acak berdasarkan fitur yang dipelajari. Output dari sketsa di DeepFacePencil, yang memungkinkan pengguna membuat wajah fotorealistik dari sketsa. Banyak proyek serupa sketsa-ke-gambar ada. Output dari sketsa di DeepFacePencil, yang memungkinkan pengguna membuat wajah fotorealistik dari sketsa. Banyak proyek serupa sketsa-ke-gambar ada. Sumber: https://arxiv.org/pdf/2008.13343.pdf

Saya Tahu Apa yang Anda Maksud…

Dengan memetakan hubungan antara bentuk-bentuk awal yang seminal dan interpretasi rinci yang diperoleh kemudian dalam proses pelatihan, memungkinkan untuk menyimpulkan hubungan antara gambar ‘kabur’ dan ‘spesifik’, sehingga pengguna dapat membuat gambar yang kompleks dan fotorealistik dari sketsa yang kasar. Baru-baru ini NVIDIA merilis versi desktop dari penelitian jangka panjang GauGAN tentang pembuatan lanskap berbasis GAN, yang dengan mudah menunjukkan prinsip ini: Goresan kasar diterjemahkan menjadi gambar lanskap yang kaya melalui NVIDIA's GauGAN, dan sekarang aplikasi NVIDIA Canvas. Sumber: https://rossdawson.com/futurist/implications-of-ai/future-of-ai-image-synthesis/

Menyederhanakan Sketsa-ke-Gambar

Pendekatan GAN Sketsa dalam makalah baru ini bertujuan untuk menghilangkan beban yang besar dari pengumpulan dan kurasi data yang biasanya terlibat dalam pengembangan kerangka GAN, dengan menggunakan input pengguna untuk menentukan subset gambar mana yang harus menjadi data pelatihan. Sistem ini dirancang untuk hanya memerlukan beberapa sketsa input untuk mengkalibrasi kerangka. Sistem ini secara efektif membalik fungsionalitas PhotoSketch, sebuah inisiatif penelitian bersama dari 2019 oleh peneliti dari Carnegie Mellon, Adobe, Uber ATG dan Argo AI, yang dimasukkan dalam pekerjaan baru ini. PhotoSketch dirancang untuk membuat sketsa artistik dari gambar, dan sudah berisi pemetaan efektif hubungan penciptaan gambar kabur>spesifik. Untuk bagian generasi proses, metode baru hanya memodifikasi bobot StyleGAN2. Karena data gambar yang digunakan hanya subset dari data total yang tersedia, hanya memodifikasi jaringan pemetaan sudah mendapatkan hasil yang diinginkan. Metode ini dievaluasi pada beberapa sub-domain populer, termasuk kuda, gereja, dan kucing. Dataset LSUN dari Universitas Princeton 2016 LSUN digunakan sebagai bahan utama untuk menghasilkan sub-domain target. Untuk membuat sistem pemetaan sketsa yang robust terhadap kekhasan input sketsa pengguna dunia nyata, sistem dilatih pada gambar dari dataset QuickDraw yang dikembangkan oleh Microsoft antara 2021-2016. Meskipun pemetaan sketsa antara PhotoSketch dan QuickDraw cukup berbeda, peneliti menemukan bahwa kerangka mereka berhasil dengan baik dalam menjembatani mereka dengan mudah pada pose sederhana, meskipun pose yang lebih rumit (seperti kucing yang berbaring) membuktikan lebih menantang, sementara input pengguna yang sangat abstrak (yaitu gambar yang sangat kasar) juga menghambat kualitas hasil.

Ruang Laten dan Pengeditan Gambar Alami

Peneliti mengembangkan dua aplikasi berdasarkan pekerjaan inti: pengeditan ruang laten, dan pengeditan gambar. Pengeditan ruang laten menawarkan kontrol pengguna yang dapat diinterpretasikan yang difasilitasi pada waktu pelatihan, dan memungkinkan variasi yang luas sambil tetap setia pada domain target, dan konsisten menyenangkan di seluruh variasi. Interpolasi ruang laten yang halus dengan model kustom GAN Sketsa. Interpolasi ruang laten yang halus dengan model kustom GAN Sketsa. Komponen pengeditan ruang laten didukung oleh proyek GANSpace 2020, sebuah inisiatif bersama dari Aalto University, Adobe dan NVIDIA. Gambar tunggal juga dapat diberikan ke model kustom, memfasilitasi pengeditan gambar alami. Dalam aplikasi ini, sebuah gambar tunggal diprojeksikan ke GAN kustom, tidak hanya memungkinkan pengeditan langsung, tetapi juga mempertahankan pengeditan ruang laten yang lebih tinggi, jika ini juga telah digunakan. Di sini, gambar nyata telah digunakan sebagai input ke GAN (model kucing), yang mengedit input untuk mencocokkan sketsa yang dikirim. Ini memungkinkan pengeditan gambar melalui sketsa. Di sini, gambar nyata telah digunakan sebagai input ke GAN (model kucing), yang mengedit input untuk mencocokkan sketsa yang dikirim. Ini memungkinkan pengeditan gambar melalui sketsa. Meskipun dapat dikonfigurasi, sistem ini tidak dirancang untuk bekerja dalam waktu nyata, setidaknya dalam hal pelatihan dan kalibrasi. Saat ini GAN Sketsa memerlukan 30.000 iterasi pelatihan. Sistem ini juga memerlukan akses ke data pelatihan asli untuk model asli. Dalam kasus di mana dataset bersifat open source, dan memiliki lisensi yang memungkinkan penyalinan lokal, ini bisa dilakukan dengan memasukkan data sumber ke dalam paket yang dipasang secara lokal, meskipun ini akan memakan ruang disk yang cukup; atau dengan mengakses atau memproses data secara remote, melalui pendekatan berbasis cloud, yang memperkenalkan overhead jaringan dan (dalam kasus pemrosesan yang sebenarnya terjadi di cloud) mungkin pertimbangan biaya komputasi. Transformasi dari model FFHQ kustom yang dilatih pada hanya 4 sketsa yang dibuat manusia. Transformasi dari model FFHQ kustom yang dilatih pada hanya 4 sketsa yang dibuat manusia.