Kecerdasan buatan

Manfaat Tidak Disengaja dari Pemetaan Ruang Laten GAN

Published December 3, 2021

Updated April 28, 2026

Martin Anderson

Saat mencoba meningkatkan kualitas dan keaslian gambar yang dihasilkan AI, sekelompok peneliti dari Cina dan Australia secara tidak sengaja menemukan metode untuk mengontrol interaktif ruang laten dari Generative Adversarial Network (GAN) – matriks kalkulatif misterius di balik gelombang baru teknik sintesis gambar yang akan merevolusi film, game, media sosial, dan banyak sektor lainnya di hiburan dan penelitian.

Penemuan mereka, sebagai produk sampingan dari tujuan utama proyek, memungkinkan pengguna untuk secara sewenang-wenang dan interaktif menjelajahi ruang laten GAN dengan mouse, seperti menggeser video, atau membalik halaman buku.

Cuplikan dari video yang menyertain peneliti (lihat embed di akhir artikel). Perhatikan bahwa pengguna mengontrol transformasi dengan kursor 'grab' (kiri atas).

Cuplikan dari video yang menyertain peneliti (lihat embed di akhir artikel untuk banyak contoh lainnya). Sumber: https://www.youtube.com/watch?v=k7sG4XY5rIc

Metode ini menggunakan ‘peta panas’ untuk menunjukkan area mana dari gambar yang perlu diperbaiki saat GAN menjalankan dataset yang sama ribuan (atau ratusan ribu) kali. Peta panas dimaksudkan untuk meningkatkan kualitas gambar dengan memberitahu GAN di mana letak kesalahan, sehingga upaya berikutnya akan lebih baik; namun, kebetulan, ini juga menyediakan ‘peta’ dari seluruh ruang laten yang dapat dibrowse dengan menggerakkan mouse.

Perhatian visual spasial ditekankan melalui GradCAM, yang menunjukkan area yang memerlukan perhatian dengan mengenakan warna cerah. Sumber: https://arxiv.org/pdf/2112.00718.pdf

Makalah tersebut berjudul Improving GAN Equilibrium by Raising Spatial Awareness, dan berasal dari peneliti di Chinese University of Hong Kong dan Australian National University. Selain makalah, video, dan materi lainnya dapat ditemukan di halaman proyek.

Pekerjaan ini masih dalam tahap awal, dan saat ini terbatas pada gambar resolusi rendah (256×256), tetapi merupakan bukti konsep yang berjanji untuk membuka ‘kotak hitam’ dari ruang laten, dan datang pada saat ketika banyak proyek penelitian sedang mengembangkan kontrol yang lebih besar atas sintesis gambar.

Meskipun gambar tersebut menarik (dan Anda dapat melihat lebih banyak di antaranya, dengan resolusi yang lebih baik, dalam video yang disematkan di akhir artikel ini), yang mungkin lebih signifikan adalah bahwa proyek ini telah menemukan cara untuk menciptakan kualitas gambar yang ditingkatkan, dan potensial untuk melakukannya dengan lebih cepat, dengan memberitahu GAN secara spesifik di mana letak kesalahan selama pelatihan.

Tetapi, seperti yang ditunjukkan oleh Adversarial, GAN bukanlah entitas tunggal, melainkan konflik yang tidak setara antara otoritas dan kerja. Untuk memahami peningkatan apa yang telah dibuat oleh peneliti dalam hal ini, mari kita lihat bagaimana perang ini telah digambarkan hingga saat ini.

Nasib Malang dari Generator

Jika Anda pernah diganggu oleh pikiran bahwa beberapa barang baru yang Anda beli diproduksi di pabrik yang dieksploitasi di negara yang dieksploitasi, atau memiliki bos atau klien yang terus mengatakan ‘Lakukan lagi!’ tanpa pernah memberitahu Anda apa yang salah dengan upaya terakhir Anda, simpati sedikit untuk Generator bagian dari Generative Adversarial Network.

Generator adalah pekerja keras yang telah mempesona Anda selama lima tahun terakhir dengan membantu GAN menciptakan orang yang tidak ada, meningkatkan game video lama ke resolusi 4k, dan mengubah footage abad ke-19 menjadi output HD penuh warna pada 60fps, di antara keajaiban AI lainnya.

Dari menciptakan wajah yang sangat realistis dari orang yang tidak ada hingga memulihkan footage kuno dan menghidupkan kembali game video arsip, GAN telah sibuk dalam beberapa tahun terakhir.

Generator menjalankan semua data pelatihan lagi dan lagi (seperti gambar wajah, untuk membuat GAN yang dapat menciptakan foto orang yang tidak ada), satu foto pada satu waktu, selama hari, atau bahkan minggu, sampai dapat menciptakan gambar yang sama meyakinkan seperti foto asli yang dipelajari.

Jadi, bagaimana Generator tahu bahwa itu membuat kemajuan, setiap kali mencoba menciptakan gambar yang lebih baik dari upaya sebelumnya?

Generator memiliki bos dari neraka.

Ketidaktransparanan yang Kejam dari Discriminator

Tugas Discriminator adalah memberitahu Generator bahwa tidak cukup baik dalam menciptakan gambar yang asli, dan untuk Lakukan lagi. Discriminator tidak memberitahu Generator apa yang salah dengan upaya terakhir Generator; itu hanya melihatnya secara pribadi, membandingkan gambar yang dihasilkan dengan gambar sumber (lagi, secara pribadi), dan memberikan skor.

Skor tidak pernah cukup baik. Discriminator tidak akan berhenti mengatakan ‘Lakukan lagi’ sampai ilmuwan peneliti mematikannya (ketika mereka memutuskan bahwa pelatihan tambahan tidak akan meningkatkan output lebih lanjut).

Dengan cara ini, tanpa kritik konstruktif, dan bersenjata hanya dengan skor yang metriknya adalah misteri, Generator harus menebak secara acak bagian mana atau aspek gambar yang menyebabkan skor yang lebih tinggi dari sebelumnya. Ini akan membawanya ke banyak rute yang tidak memuaskan sebelum mengubah sesuatu dengan cukup positif untuk mendapatkan skor yang lebih tinggi.

Discriminator sebagai Tutor dan Mentor

Inovasi yang diberikan oleh penelitian baru ini pada dasarnya adalah bahwa Discriminator sekarang menunjukkan kepada Generator bagian mana dari gambar yang tidak memuaskan, sehingga Generator dapat fokus pada area tersebut dalam iterasi berikutnya, dan tidak membuang bagian yang dinilai lebih tinggi. Sifat hubungan telah berubah dari konflik menjadi kolaboratif.

Untuk memperbaiki ketidakseimbangan wawasan antara Discriminator dan Generator, peneliti menggunakan GradCAM sebagai mekanisme yang mampu merumuskan wawasan Discriminator menjadi umpan balik visual untuk upaya Generator berikutnya.

Metode pelatihan keseimbangan baru disebut EqGAN. Untuk reproduktifitas maksimum, peneliti menggabungkan teknik dan metode yang ada dengan pengaturan default, termasuk penggunaan arsitektur StyleGan2.

Arsitektur EqGAN. Pengkodean spasial Generator diselaraskan dengan kesadaran spasial Discriminator, dengan sampel acak peta panas spasial (lihat gambar sebelumnya) dikodekan kembali ke generator melalui lapisan pengkodean spasial (SEL). GradCAM adalah mekanisme yang membuat peta perhatian Discriminator tersedia untuk generator.

GradCAM menghasilkan peta panas (lihat gambar di atas) yang mencerminkan kritik Discriminator terhadap iterasi terbaru, dan membuatnya tersedia untuk Generator.

Setelah model dilatih, pemetaan tetap sebagai artefak dari proses kolaboratif ini, tetapi juga dapat digunakan untuk menjelajahi kode laten akhir dengan cara interaktif yang ditunjukkan dalam video proyek peneliti (lihat di bawah).

EqGAN

Proyek ini menggunakan beberapa dataset populer, termasuk dataset LSUN Cat dan Churches, serta dataset FFHQ. Video di bawah ini juga menampilkan contoh manipulasi wajah dan kucing menggunakan EqGAN.

Semua gambar diresize ke 256×256 sebelum melatih EqGAN pada implementasi resmi StyleGAN2. Model dilatih dengan ukuran batch 64 lebih dari 8 GPU sampai Discriminator telah terpapar lebih dari 25 juta gambar.

Menguji hasil sistem di seluruh sampel yang dipilih dengan Frechet Inception Distance (FID), penulis menetapkan metrik yang disebut Indikator Ketidakseimbangan (DI) – derajat di mana Discriminator mempertahankan keunggulan pengetahuan atas Generator, dengan tujuan untuk mempersempit kesenjangan tersebut.

Di atas tiga dataset yang dilatih, metrik baru menunjukkan penurunan yang berguna setelah mengkodekan kesadaran spasial ke dalam Generator, dengan keseimbangan yang ditingkatkan yang ditunjukkan oleh FID dan DI.

Peneliti menyimpulkan:

‘Kami berharap pekerjaan ini dapat menginspirasi lebih banyak karya untuk mengkaji keseimbangan GAN dan mengembangkan metode baru untuk meningkatkan kualitas sintesis gambar melalui manuver keseimbangan GAN. Kami juga akan melakukan penyelidikan teoretis lebih lanjut tentang masalah ini di pekerjaan masa depan.’

Dan melanjutkan:

‘Hasil kualitatif menunjukkan bahwa metode kami berhasil [membuat Generator] fokus pada area tertentu. Eksperimen pada berbagai dataset memvalidasi bahwa metode kami mengurangi ketidakseimbangan dalam pelatihan GAN dan secara signifikan meningkatkan kualitas sintesis gambar secara keseluruhan. Model yang dihasilkan dengan kesadaran spasial juga memungkinkan manipulasi interaktif dari gambar output.’

Lihat video di bawah untuk lebih banyak detail tentang proyek, dan contoh lain dari eksplorasi dinamis dan interaktif dari ruang laten di GAN.