Terhubung dengan kami

Kecerdasan Buatan

Cara Mengetahui Kapan Sistem Sintesis Citra Memproduksi Materi yang Benar-Benar 'Asli'

mm
'Teddy bear mengerjakan penelitian AI baru di bawah air dengan teknologi tahun 1990-an' – Sumber: https://www.creativeboom.com/features/meet-dall-e/
'Teddy bear mengerjakan penelitian AI baru di bawah air dengan teknologi tahun 1990-an' – Sumber: https://www.creativeboom.com/features/meet-dall-e/

Sebuah studi baru dari Korea Selatan telah mengusulkan sebuah metode untuk menentukan apakah sistem sintesis gambar menghasilkan gambar yang benar-benar baru, atau varian 'minor' pada data pelatihan, yang berpotensi mengalahkan tujuan arsitektur tersebut (seperti produksi gambar baru dan asli) .

Sangat sering, makalah tersebut menyarankan, yang terakhir benar, karena metrik yang ada yang digunakan sistem seperti itu untuk meningkatkan kapasitas generatif mereka selama pelatihan dipaksa untuk mendukung gambar yang relatif dekat dengan gambar sumber (bukan palsu) dalam kumpulan data. .

Lagi pula, jika gambar yang dihasilkan 'dekat secara visual' dengan data sumber, kemungkinan besar akan mendapat skor lebih baik untuk 'keaslian' daripada 'orisinalitas', karena 'setia' - jika tidak terinspirasi.

Di sektor yang terlalu baru lahir dan belum dicoba untuk diketahui konsekuensi hukumnya, ini bisa terjadi menjadi masalah hukum yang penting, jika terungkap bahwa konten gambar sintetik yang dikomersialkan tidak cukup berbeda dari (seringkali) materi sumber berhak cipta yang saat ini ada dibiarkan perfusi sektor penelitian dalam bentuk kumpulan data web-scraped populer (potensi klaim pelanggaran jenis ini di masa mendatang telah menjadi terkenal baru-baru ini sehubungan dengan GitHub Co-Pilot AI dari Microsoft).

Dalam hal keluaran yang semakin koheren dan kuat secara semantik dari sistem seperti OpenAI DALL-E2, milik Google Gambar, dan Cina Tampilan Roda Gigi rilis (serta spesifikasi yang lebih rendah dall-e mini), jumlahnya sangat sedikit pos facto cara yang andal untuk menguji orisinalitas gambar yang dihasilkan.

Memang, mencari beberapa gambar DALL-E 2 baru yang paling populer seringkali hanya akan mengarah ke contoh lebih lanjut dari gambar yang sama, bergantung pada mesin pencari.

Mengunggah grup keluaran DALL-E 9 2 gambar lengkap hanya akan menghasilkan lebih banyak grup keluaran DALL-E 2. Memisahkan dan mengunggah gambar pertama (dari postingan Twitter tanggal 8 Juni 2022 ini, dari akun 'Weird Dall-E Generations') menyebabkan Google terpaku pada bola basket di gambar tersebut, membawa pencarian berbasis gambar ke jalan buntu semantik. Untuk pencarian berbasis gambar yang sama, Yandex tampaknya setidaknya melakukan dekonstruksi dan pencocokan fitur berbasis piksel yang sebenarnya.

Mengunggah grup keluaran DALL-E 9 2-gambar lengkap hanya akan menghasilkan lebih banyak grup keluaran DALL-E 2, karena struktur grid adalah fitur terkuat. Memisahkan dan mengunggah gambar pertama (dari postingan twitter ini tanggal 8 Juni 2022, dari akun 'Weird Dall-E Generations') menyebabkan Google terpaku pada bola basket dalam gambar, membawa pencarian berbasis gambar ke jalan buntu semantik. Untuk pencarian berbasis gambar yang sama, Yandex tampaknya setidaknya melakukan beberapa dekonstruksi berbasis piksel dan pencocokan fitur.

Padahal Yandex lebih mungkin daripada Google Search untuk menggunakan yang sebenarnya fitur (yaitu gambar diturunkan/dihitung fitur, belum tentu fitur wajah orang) dan visual (bukan semantik) karakteristik gambar yang dikirimkan untuk menemukan gambar yang mirip, semua mesin pencari berbasis gambar memilikinya semacam agenda atau praktik yang mungkin membuat sulit untuk mengidentifikasi contoh sumber> dihasilkan plagiarisme melalui pencarian web.

Selain itu, data pelatihan untuk model generatif mungkin tidak tersedia untuk umum secara keseluruhan, pemeriksaan forensik lebih lanjut dari orisinalitas gambar yang dihasilkan.

Menariknya, melakukan pencarian web berbasis gambar di salah satu gambar sintetis yang ditampilkan oleh Google di dalamnya situs Imagen khusus sama sekali tidak menemukan apa pun yang sebanding dengan subjek gambar, dalam hal benar-benar melihat gambar dan secara tidak memihak mencari gambar serupa. Alih-alih, terpaku secara semantik seperti sebelumnya, hasil pencarian Gambar Google untuk gambar Imagen ini tidak akan mengizinkan pencarian web berbasis gambar murni dari gambar tersebut tanpa menambahkan istilah pencarian 'imagen google' sebagai parameter tambahan (dan membatasi):

Yandex, sebaliknya, menemukan banyak gambar dunia nyata yang serupa (atau setidaknya berhubungan secara visual) dari komunitas seni amatir:

Secara umum, akan lebih baik jika kebaruan atau orisinalitas keluaran sistem sintesis citra dapat diukur dengan cara tertentu, tanpa perlu mengekstraksi fitur dari setiap kemungkinan citra web di internet pada saat model dilatih, atau dalam kumpulan data non-publik yang mungkin menggunakan materi berhak cipta.

Terkait masalah ini, peneliti dari Kim Jaechul Graduate School of AI di Korea Advanced Institute of Science and Technology (KAIST AI) telah berkolaborasi dengan perusahaan TIK dan pencarian global NAVER Corp untuk mengembangkan Skor Kelangkaan yang dapat membantu mengidentifikasi kreasi yang lebih orisinal dari sistem sintesis gambar.

Gambar di sini dihasilkan melalui StyleGAN-FFHQ. Dari kiri ke kanan, kolom menunjukkan hasil terburuk hingga terbaik. Kita dapat melihat bahwa metrik 'Truncation trick' (lihat di bawah) dan metrik Realisme memiliki agendanya sendiri, sementara skor 'Rarity' yang baru (baris atas) mencari citra yang kohesif tetapi orisinal (bukan hanya citra yang kohesif). Sumber: https://arxiv.org/pdf/2206.08549.pdf

Gambar di sini dihasilkan melalui StyleGAN-FFHQ. Dari kiri ke kanan, kolom menunjukkan hasil terburuk hingga terbaik. Kita dapat melihat bahwa metrik 'Truncation trick' (lihat di bawah) dan metrik Realisme memiliki agendanya sendiri, sementara skor 'Rarity' yang baru (baris atas) mencari citra yang kohesif tetapi orisinal (bukan hanya citra yang kohesif). Karena ada batasan ukuran gambar dalam artikel ini, harap lihat makalah sumber untuk detail dan resolusi yang lebih baik. Sumber: https://arxiv.org/pdf/2206.08549.pdf

Baru kertas berjudul Skor Kelangkaan : Metrik Baru untuk Mengevaluasi Keanehan Gambar yang Disintesis, dan berasal dari tiga peneliti di KAIST, dan tiga dari NAVER Corp.

Di luar 'Trik Murah'

Di antara metrik sebelumnya yang ingin diperbaiki oleh makalah baru ini adalah 'Truncation trick' disarankan di 2019 dalam kolaborasi antara Universitas Heriot-Watt Inggris dan DeepMind Google.

Trik Pemotongan pada dasarnya menggunakan distribusi laten yang berbeda untuk pengambilan sampel daripada yang digunakan untuk melatih model generatif.

Para peneliti yang mengembangkan metode ini terkejut bahwa metode ini berhasil, tetapi mengakui dalam makalah aslinya bahwa metode ini mengurangi variasi keluaran yang dihasilkan. Meskipun demikian, Truncation Trick telah menjadi efektif dan populer, dalam konteks apa yang dapat disebut ulang sebagai 'trik murahan' untuk mendapatkan hasil yang tampak asli yang tidak benar-benar mengasimilasi semua kemungkinan yang ada dalam data, dan mungkin menyerupai data sumber lebih dari yang diinginkan.

Mengenai Trik Pemotongan, penulis makalah baru mengamati:

'[Ini] tidak dimaksudkan untuk menghasilkan sampel langka dalam kumpulan data pelatihan, melainkan untuk mensintesis gambar tipikal dengan lebih stabil. Kami berhipotesis bahwa model generatif yang ada akan dapat menghasilkan sampel yang lebih kaya dalam distribusi data nyata jika generator dapat diinduksi untuk menghasilkan sampel langka secara efektif.'

Dari kecenderungan umum untuk mengandalkan metrik tradisional seperti Frechet Inception Distance (FID, yang mendapat kecaman keras pada Desember 2021), skor awal (IS) dan Jarak Awal Kernel (KID) sebagai 'indikator kemajuan' selama pelatihan model generatif, komentar lebih lanjut penulis*:

'Skema pembelajaran ini membuat generator tidak mensintesis banyak sampel langka yang unik dan memiliki karakteristik kuat yang tidak memperhitungkan sebagian besar distribusi gambar nyata. Contoh sampel langka dari kumpulan data publik mencakup orang-orang dengan berbagai aksesori di dalamnya FFHQ, hewan putih di AFHQ, dan patung yang tidak biasa di Metfaces.

'Kemampuan untuk menghasilkan sampel langka penting tidak hanya karena terkait dengan kemampuan tepi dari model generatif, tetapi juga karena keunikan memainkan peran penting dalam aplikasi kreatif seperti manusia virtual.

'Namun, hasil kualitatif dari beberapa penelitian terbaru jarang mengandung contoh langka ini. Kami menduga bahwa sifat dari kekuatan skema pembelajaran permusuhan menghasilkan distribusi gambar yang mirip dengan dataset pelatihan. Jadi, citra dengan individualitas atau kelangkaan yang jelas hanya mengambil bagian kecil dalam citra yang disintesa oleh para model.'

Teknik

Skor Kelangkaan baru para peneliti mengadaptasi ide yang disajikan di terdahulu bekerja - penggunaan K-Tetangga Terdekat (KNNs) untuk mewakili larik data asli (pelatihan) dan sintetik (output) dalam sistem sintesis gambar.

Mengenai metode analisis baru ini, penulis menegaskan:

'Kami berhipotesis bahwa sampel biasa akan lebih dekat satu sama lain sedangkan sampel unik dan langka akan jarang ditempatkan di ruang fitur.'

Gambar hasil di atas menunjukkan jarak tetangga terdekat (NND) terkecil ke yang terbesar, dalam arsitektur StyleGAN yang dilatih FFHQ.

'Untuk semua kumpulan data, sampel dengan NND terkecil menunjukkan gambar yang representatif dan tipikal. Sebaliknya, sampel dengan NND terbesar memiliki individualitas yang kuat dan secara signifikan berbeda dari gambar tipikal dengan NND terkecil.'

Secara teori, dengan menggunakan metrik baru ini sebagai diskriminator, atau setidaknya memasukkannya ke dalam arsitektur diskriminator yang lebih kompleks, sistem generatif dapat dialihkan dari imitasi murni menuju algoritme yang lebih inventif, sambil tetap mempertahankan kohesi esensial dari konsep-konsep yang mungkin penting. untuk produksi gambar asli (mis 'pria', 'wanita', 'mobil', 'gereja', Dll).

Perbandingan dan Eksperimen

Dalam pengujian, para peneliti melakukan perbandingan performa Rarity Score dengan Truncation Trick dan NVIDIA 2019 Skor Realisme, dan menemukan bahwa di berbagai kerangka kerja dan kumpulan data, pendekatan ini mampu membedakan hasil yang 'unik'.

Meskipun hasil yang ditampilkan dalam makalah terlalu luas untuk dimasukkan di sini, para peneliti tampaknya telah menunjukkan kemampuan metode baru untuk mengidentifikasi kelangkaan pada gambar sumber (nyata) dan yang dihasilkan (palsu) dalam prosedur generatif:

Pilih contoh dari hasil visual ekstensif yang direproduksi di koran (lihat URL sumber di atas untuk detail lebih lanjut). Di sebelah kiri, contoh asli dari FFHQ yang memiliki sangat sedikit tetangga dekat (yaitu baru dan tidak biasa) dalam kumpulan data asli; di sebelah kanan, gambar palsu yang dihasilkan oleh StyleGAN, yang diidentifikasi oleh metrik baru sebagai benar-benar baru.

Pilih contoh dari hasil visual ekstensif yang direproduksi di koran (lihat URL sumber di atas untuk detail lebih lanjut). Di sebelah kiri, contoh asli dari FFHQ yang memiliki sangat sedikit tetangga dekat (yaitu baru dan tidak biasa) dalam kumpulan data asli; di sebelah kanan, gambar palsu yang dihasilkan oleh StyleGAN, yang diidentifikasi oleh metrik baru sebagai benar-benar baru. Karena ada batasan ukuran gambar dalam artikel ini, harap lihat makalah sumber untuk detail dan resolusi yang lebih baik.

Metrik Skor Kelangkaan yang baru tidak hanya memungkinkan untuk kemungkinan mengidentifikasi keluaran generatif 'baru' dalam satu arsitektur, tetapi juga, klaim para peneliti, memungkinkan perbandingan antara model generatif dari berbagai dan beragam arsitektur (yaitu autoencoder, VAE, GAN, dll. ).

Makalah mencatat bahwa Skor Kelangkaan berbeda dari metrik sebelumnya dengan berkonsentrasi pada kemampuan kerangka kerja generatif untuk membuat gambar yang unik dan langka, bertentangan dengan metrik 'tradisional', yang memeriksa (agak lebih rabun) keragaman antar generasi selama pelatihan model.

Di luar Tugas Terbatas

Meskipun para peneliti makalah baru telah melakukan tes pada kerangka kerja domain terbatas (seperti kombinasi generator / kumpulan data yang dirancang untuk secara khusus menghasilkan gambar orang, atau kucing, misalnya), Skor Kelangkaan berpotensi diterapkan pada prosedur sintesis gambar sewenang-wenang di mana itu diinginkan untuk mengidentifikasi contoh yang dihasilkan yang menggunakan distribusi yang berasal dari data yang dilatih, alih-alih meningkatkan keaslian (dan mengurangi keragaman) dengan menempatkan distribusi laten asing, atau mengandalkan 'jalan pintas' lain yang mengkompromikan kebaruan demi keaslian.

Akibatnya, metrik seperti itu berpotensi membedakan contoh output yang benar-benar baru dalam sistem seperti seri DALL-E, dengan menggunakan jarak yang teridentifikasi antara hasil 'outlier' yang jelas, data pelatihan, dan hasil dari prompt atau input serupa (yaitu, image petunjuk berbasis).

Dalam praktiknya, dan dengan tidak adanya pemahaman yang jelas tentang sejauh mana sistem telah benar-benar mengasimilasi konsep visual dan semantik (sering kali terhalang oleh pengetahuan terbatas tentang data pelatihan), ini bisa menjadi metode yang layak untuk mengidentifikasi 'momen nyata' yang asli. inspirasi' dalam sistem generatif – titik di mana sejumlah konsep dan data input yang memadai telah menghasilkan sesuatu yang benar-benar inventif, alih-alih sesuatu yang terlalu turunan atau dekat dengan sumber data.

 

* Konversi saya dari kutipan sebaris penulis ke hyperlink.

Pertama kali diterbitkan 20 Juni 2022.

Penulis tentang pembelajaran mesin, spesialis domain dalam sintesis citra manusia. Mantan kepala konten penelitian di Metaphysic.ai.
Situs pribadi: martinanderson.ai
Kontak: [email dilindungi]
Twitter: @manders_ai