Kecerdasan buatan

Disney Research Menawarkan Kompresi Gambar Berbasis AI yang Ditingkatkan – Tetapi Mungkin Mengalami Halusinasi Detail

Published October 30, 2024

Updated April 27, 2026

Martin Anderson

Detail for the supplementary Disney paper – source: https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Supplementary-1.pdf

Lengan penelitian Disney menawarkan metode baru untuk mengompresi gambar, memanfaatkan model Stable Diffusion V1.2 sumber terbuka untuk menghasilkan gambar yang lebih realistis pada bitrate yang lebih rendah dibandingkan dengan metode lain.

Metode kompresi Disney dibandingkan dengan pendekatan sebelumnya. Penulis mengklaim pemulihan detail yang ditingkatkan, sementara menawarkan model yang tidak memerlukan ratusan ribu dolar untuk pelatihan, dan yang beroperasi lebih cepat daripada metode kompetitor setara. Sumber: https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Paper.pdf

Pendekatan baru (didefinisikan sebagai ‘kodek’ meskipun kompleksitasnya yang meningkat dibandingkan dengan kodek tradisional seperti JPEG dan AV1) dapat beroperasi di atas Latent Diffusion Model (LDM) mana pun. Dalam tes kuantitatif, itu mengungguli metode sebelumnya dalam hal akurasi dan detail, dan memerlukan pelatihan dan biaya komputasi yang jauh lebih sedikit.

Inti dari pekerjaan baru ini adalah bahwa kesalahan kuantisasi (proses sentral dalam semua kompresi gambar) mirip dengan noise (proses sentral dalam model difusi).

Oleh karena itu, gambar yang dikuantisasi secara “tradisional” dapat dianggap sebagai versi yang berisik dari gambar asli, dan digunakan dalam proses denoising LDM sebagai gantinya dari noise acak, untuk merekonstruksi gambar pada bitrate target tertentu.

Perbandingan lebih lanjut dari metode Disney baru (ditandai dengan warna hijau), dibandingkan dengan pendekatan rival.

Penulis mengklaim:

‘[Kami] merumuskan penghapusan kesalahan kuantisasi sebagai tugas denoising, menggunakan difusi untuk memulihkan informasi yang hilang dalam gambar laten yang dikirim. Pendekatan kami memungkinkan kami untuk melakukan kurang dari 10% dari proses generatif difusi penuh dan tidak memerlukan perubahan arsitektur pada model difusi, sehingga memungkinkan penggunaan model dasar sebagai prior yang kuat tanpa penyetelan tambahan pada backbone.

‘Kodek yang kami usulkan mengungguli metode sebelumnya dalam metrik realisme kuantitatif, dan kami memverifikasi bahwa rekonstruksi kami lebih disukai oleh pengguna akhir, bahkan ketika metode lain menggunakan dua kali bitrate.’

Namun, seperti proyek lain yang mencoba memanfaatkan kemampuan kompresi model difusi, outputnya mungkin mengalami halusinasi detail. Sebaliknya, metode lossy seperti JPEG akan menghasilkan area detail yang jelas terdistorsi atau terlalu halus, yang dapat dikenali sebagai keterbatasan kompresi oleh pengguna kasual.

Sebagai gantinya, kodek Disney mungkin mengubah detail dari konteks yang tidak ada dalam gambar sumber, karena sifat kasar dari Variational Autoencoder (VAE) yang digunakan dalam model yang dilatih pada data hyperscale.

‘Mirip dengan pendekatan generatif lainnya, metode kami dapat mengabaikan beberapa fitur gambar sementara mensintesis informasi serupa di sisi penerima. Dalam kasus tertentu, bagaimanapun, ini mungkin menghasilkan rekonstruksi yang tidak akurat, seperti melengkungkan garis lurus atau mengubah batas objek kecil. ‘

‘Masalah-masalah ini sudah diketahui dari model dasar yang kami bangun, yang dapat dikaitkan dengan dimensi fitur VAE yang relatif rendah.’

Sementara ini memiliki beberapa implikasi untuk penggambaran artistik dan keserupaan foto kasual, itu bisa memiliki dampak yang lebih kritis dalam kasus di mana detail kecil merupakan informasi penting, seperti bukti untuk kasus pengadilan, data untuk pengenalan wajah, pemindaian untuk Pengenalan Karakter Optik (OCR), dan berbagai kasus penggunaan lainnya, jika kodek dengan kemampuan ini menjadi populer.

Pada tahap awal perkembangan kompresi gambar berbasis AI, semua skenario ini masih jauh di masa depan. Namun, penyimpanan gambar adalah tantangan global hyperscale, yang menyentuh masalah seputar penyimpanan data, streaming, dan konsumsi listrik, selain kekhawatiran lainnya. Oleh karena itu, kompresi berbasis AI bisa menawarkan trade-off yang menggoda antara akurasi dan logistik. Sejarah menunjukkan bahwa kodek terbaik tidak selalu memenangkan basis pengguna terbesar, ketika masalah seperti lisensi dan penangkapan pasar oleh format proprietary menjadi faktor dalam adopsi.

Disney telah bereksperimen dengan pembelajaran mesin sebagai metode kompresi selama waktu yang lama. Pada 2020, salah satu peneliti dalam makalah baru ini terlibat dalam proyek VAE untuk kompresi video yang ditingkatkan.

Makalah Disney baru ini diperbarui pada awal Oktober. Hari ini perusahaan merilis video YouTube yang menyertainya. Proyek ini berjudul Kompresi Gambar Lossy dengan Model Difusi Dasar, dan berasal dari empat peneliti di ETH Zürich (berafiliasi dengan proyek AI Disney) dan Disney Research. Peneliti juga menawarkan makalah suplemen.

Metode

Metode baru ini menggunakan VAE untuk mengkodekan gambar ke dalam representasi laten yang dikompresi. Pada tahap ini, gambar input terdiri dari fitur yang dihasilkan – representasi vektor berbasis rendah. Embedding laten kemudian dikuantisasi kembali menjadi bitstream, dan kembali ke ruang piksel.

Gambar yang dikuantisasi ini kemudian digunakan sebagai template untuk noise yang biasanya memicu gambar berbasis difusi, dengan jumlah langkah denoising yang bervariasi (di mana ada trade-off antara langkah denoising yang lebih banyak dan akurasi yang lebih tinggi, versus latensi yang lebih rendah dan efisiensi yang lebih tinggi).

Skema untuk metode kompresi Disney baru.

Baik parameter kuantisasi dan jumlah total langkah denoising dapat dikontrol di bawah sistem baru, melalui pelatihan jaringan saraf yang memprediksi variabel yang relevan terkait dengan aspek-aspek pengkodean ini. Proses ini disebut kuantisasi adaptif, dan sistem Disney menggunakan kerangka Entroformer sebagai model entropi yang memungkinkan prosedur ini.

Penulis menyatakan:

‘Intuitif, metode kami belajar untuk mengabaikan informasi (melalui transformasi kuantisasi) yang dapat disintesis selama proses difusi. Karena kesalahan yang diperkenalkan selama kuantisasi mirip dengan menambahkan [noise] dan model difusi adalah model denoising fungsional, mereka dapat digunakan untuk menghapus noise kuantisasi yang diperkenalkan selama pengkodean.’

Stable Diffusion V2.1 adalah backbone difusi untuk sistem, dipilih karena keseluruhan kode dan bobot dasar tersedia secara terbuka. Namun, penulis menekankan bahwa skema mereka dapat diterapkan pada berbagai model.

Pivotal untuk ekonomi proses ini adalah prediksi timestep, yang mengevaluasi jumlah langkah denoising optimal – sebuah keseimbangan antara efisiensi dan kinerja.

Prediksi timestep, dengan jumlah langkah denoising optimal yang ditandai dengan border merah. Silakan merujuk ke PDF sumber untuk resolusi yang akurat.

Jumlah noise dalam embedding laten perlu dipertimbangkan saat membuat prediksi untuk jumlah langkah denoising yang optimal.

Data dan Tes

Model ini dilatih pada dataset Vimeo-90k. Gambar-gambar dipotong secara acak menjadi 256x256px untuk setiap epoch (yaitu, setiap penggunaan dataset yang diperbarui oleh arsitektur pelatihan model).

Model ini dioptimalkan untuk 300.000 langkah pada tingkat pembelajaran 1e-4. Ini adalah yang paling umum di antara proyek penglihatan komputer, dan juga nilai terendah dan paling halus yang umumnya dapat dilakukan, sebagai kompromi antara generalisasi konsep dan ciri dataset yang luas, dan kapasitas untuk mereproduksi detail halus.

Penulis mengomentari beberapa pertimbangan logistik untuk sistem yang ekonomis tetapi efektif*:

‘Selama pelatihan, sangat mahal untuk mempropagasikan gradien melalui beberapa pass model difusi karena berjalan selama DDIM sampling. Oleh karena itu, kami hanya melakukan satu iterasi sampling DDIM dan langsung menggunakan [ini] sebagai data yang sepenuhnya denoised.’

Dataset yang digunakan untuk menguji sistem adalah Kodak; CLIC2022; dan COCO 30k. Dataset ini diproses sesuai dengan metodologi yang diuraikan dalam penawaran Google 2023 Multi-Realism Image Compression with a Conditional Generator.

Metrik yang digunakan adalah Peak Signal-to-Noise Ratio (PSNR); Learned Perceptual Similarity Metrics (LPIPS); Multiscale Structural Similarity Index (MS-SSIM); dan Fréchet Inception Distance (FID).

Kerangka prior yang diuji dibagi antara sistem lama yang menggunakan Jaringan Adversarial Generatif (GAN), dan penawaran terbaru yang berbasis di sekitar model difusi. Sistem GAN yang diuji adalah High-Fidelity Generative Image Compression (HiFiC); dan ILLM (yang menawarkan beberapa perbaikan pada HiFiC).

Sistem berbasis difusi adalah Lossy Image Compression with Conditional Diffusion Models (CDC) dan High-Fidelity Image Compression with Score-based Generative Models (HFD).

Hasil kuantitatif melawan kerangka prior di berbagai dataset.

Untuk hasil kuantitatif (divisualisasikan di atas), peneliti menyatakan:

‘Metode kami menetapkan standar baru dalam realisme gambar yang direkonstruksi, mengungguli semua baseline dalam kurva FID-bitrate. Dalam beberapa metrik distorsi (khususnya, LPIPS dan MS-SSIM), kami mengungguli semua kodek berbasis difusi sementara tetap kompetitif dengan kodek generatif yang berkinerja tertinggi. ‘

‘Seperti yang diharapkan, metode kami dan metode generatif lainnya menderita ketika diukur dalam PSNR karena kami memfavoritkan rekonstruksi yang menyenangkan secara perseptual daripada replikasi detail yang tepat.’

Untuk studi pengguna, metode two-alternative-forced-choice (2AFC) digunakan, dalam konteks turnamen di mana gambar yang dipilih akan melanjutkan ke babak selanjutnya. Studi ini menggunakan sistem peringkat Elo yang awalnya dikembangkan untuk turnamen catur.

Oleh karena itu, peserta akan melihat dan memilih gambar terbaik dari dua gambar yang disajikan 512x512px di berbagai metode generatif. Eksperimen tambahan dilakukan di mana semua perbandingan gambar dari pengguna yang sama dievaluasi, melalui simulasi Monte Carlo selama 10.000 iterasi, dengan skor median yang disajikan dalam hasil.

Peringkat Elo yang diestimasi untuk studi pengguna, menampilkan turnamen Elo untuk setiap perbandingan (kiri) dan juga untuk setiap peserta, dengan nilai yang lebih tinggi lebih baik.

Di sini penulis mengomentari:

‘Seperti yang dapat dilihat pada skor Elo, metode kami secara signifikan mengungguli semua metode lain, bahkan dibandingkan dengan CDC, yang menggunakan rata-rata dua kali bitrate metode kami. Ini tetap benar terlepas dari strategi turnamen Elo yang digunakan.’

Dalam makalah asli, serta PDF suplemen, penulis menyediakan perbandingan visual lebih lanjut, salah satunya ditunjukkan sebelumnya dalam artikel ini. Namun, karena granularitas perbedaan antara sampel, kami merujuk pembaca ke PDF sumber, sehingga hasil ini dapat dinilai secara adil.

Makalah ini menyimpulkan dengan mencatat bahwa metode yang diusulkan beroperasi dua kali lebih cepat daripada CDC rival (3,49 vs 6,87 detik, masing-masing). Ini juga mengamati bahwa ILLM dapat memproses gambar dalam 0,27 detik, tetapi sistem ini memerlukan pelatihan yang berat.

Kesimpulan

Peneliti ETH/Disney jelas, pada kesimpulan makalah, tentang potensi sistem mereka untuk menghasilkan detail palsu. Namun, tidak satu contoh pun yang disajikan dalam materi tersebut menekankan masalah ini.

Dalam kesetaraan, masalah ini tidak terbatas pada pendekatan Disney baru, tetapi merupakan efek sampingan yang tak terhindarkan dari menggunakan model difusi – arsitektur yang inventif dan interpretatif – untuk mengompresi gambar.

Menariknya, hanya lima hari yang lalu dua peneliti lain dari ETH Zurich menghasilkan makalah berjudul Halusinasi Kondisional untuk Kompresi Gambar, yang mengeksplorasi kemungkinan ‘tingkat halusinasi optimal’ dalam sistem kompresi berbasis AI.

Penulis di sana membuat kasus untuk keinginan halusinasi di mana domainnya generik (dan, bisa dibilang, ‘tidak berbahaya’) cukup:

‘Untuk konten seperti tekstur, seperti rumput, bintik-bintik, dan dinding batu, menghasilkan piksel yang realistis sesuai dengan tekstur tertentu lebih penting daripada merekonstruksi nilai piksel yang tepat; menghasilkan sampel apa pun dari distribusi tekstur umumnya sudah cukup.’

Jadi makalah kedua ini membuat kasus untuk kompresi yang optimal ‘kreatif’ dan representatif, bukan merekonstruksi secara akurat sifat dan ciri utama gambar asli yang tidak terkompresi.

Seseorang bertanya-tanya apa yang akan dikatakan oleh komunitas fotografi dan kreatif tentang pengedefinisian ulang ‘kompresi’ yang cukup radikal ini.

*Konversi saya dari kutipan inline penulis ke tautan.

Dipublikasikan pertama kali pada Rabu, 30 Oktober 2024