Sudut Anderson

JPEG AI Mengaburkan Garis Antara Real dan Sintetis

Published April 8, 2025

Updated April 26, 2026

Martin Anderson

Created with ChatGPT-4o and Adobe Firefly

Pada bulan Februari tahun ini, standar internasional JPEG AI dipublikasikan, setelah beberapa tahun penelitian yang bertujuan untuk menggunakan teknik pembelajaran mesin untuk menghasilkan codec gambar yang lebih kecil dan lebih mudah ditransmisikan dan disimpan, tanpa kehilangan kualitas perseptual.

Dari publikasi resmi aliran JPEG AI, perbandingan antara Peak Signal-to-Noise Ratio (PSNR) dan pendekatan ML-augmented JPEG AI. Sumber: https://jpeg.org/jpegai/documentation.html

Salah satu alasan mengapa kemajuan ini membuat sedikit headline adalah bahwa core PDF untuk pengumuman ini tidak tersedia melalui portal akses gratis seperti Arxiv. Namun, Arxiv telah memajukan sejumlah studi yang mengeksaminasi signifikansi JPEG AI di berbagai aspek, termasuk metode kompression artifacts yang tidak biasa dan signifikansinya untuk forensik.

Satu studi membandingkan kompression artefak, termasuk yang dari draf sebelumnya dari JPEG AI, menemukan bahwa metode baru memiliki kecenderungan untuk mengaburkan teks – tidak sebuah masalah kecil dalam kasus di mana codec mungkin berkontribusi pada rantai bukti. Sumber: https://arxiv.org/pdf/2411.06810

Karena JPEG AI mengubah gambar dengan cara yang menyerupai artifacts dari generator gambar sintetis, alat forensik yang ada memiliki kesulitan untuk membedakan antara gambar asli dan gambar palsu:

Setelah kompresi JPEG AI, algoritma canggih tidak dapat lagi memisahkan konten asli dari area yang dimanipulasi dalam peta lokal, menurut makalah terbaru (Maret 2025). Contoh sumber yang terlihat di kiri adalah gambar palsu, di mana area yang dimanipulasi jelas dibatasi dengan teknik forensik standar (gambar tengah). Namun, kompresi JPEG AI memberikan gambar palsu lapisan kredibilitas (gambar paling kanan). Sumber: https://arxiv.org/pdf/2412.03261

Salah satu alasan adalah bahwa JPEG AI dilatih menggunakan arsitektur model yang serupa dengan yang digunakan oleh sistem generatif yang alat forensik bertujuan untuk mendeteksi:

Makalah baru menggambarkan kesamaan antara metodologi kompresi gambar yang digerakkan oleh AI dan gambar yang dihasilkan oleh AI. Sumber: https://arxiv.org/pdf/2504.03191

Oleh karena itu, kedua model dapat menghasilkan beberapa karakteristik visual yang serupa, dari sudut pandang forensik.

Quantization

Pertemuan ini terjadi karena quantization, yang umum untuk kedua arsitektur, dan yang digunakan dalam pembelajaran mesin baik sebagai metode untuk mengubah data kontinu menjadi titik data diskrit, dan sebagai teknik optimasi yang dapat secara signifikan mengurangi ukuran file dari model yang dilatih (penggemar sintesis gambar kasual akan familiar dengan menunggu antara rilis resmi yang tidak terkompresi, dan versi komunitas yang dikuantisasi yang dapat dijalankan pada perangkat lokal).

Dalam konteks ini, quantization mengacu pada proses mengubah nilai kontinu dalam representasi laten gambar menjadi langkah diskrit yang tetap. JPEG AI menggunakan proses ini untuk mengurangi jumlah data yang dibutuhkan untuk menyimpan atau mentransmisikan gambar dengan menyederhanakan representasi numerik internal.

Meskipun quantization membuat pengkodean lebih efisien, juga mengimposkan regularitas struktural yang dapat menyerupai artifacts yang ditinggalkan oleh model generatif – halus enough untuk menghindari persepsi, tetapi mengganggu alat forensik.

Sebagai respons, penulis dari karya baru yang berjudul Tiga Petunjuk Forensik untuk Gambar JPEG AI mengusulkan teknik yang dapat diinterpretasikan, non-neural yang mendeteksi kompresi JPEG AI; menentukan apakah gambar telah dikompresi ulang; dan membedakan gambar asli yang dikompresi dari yang dihasilkan sepenuhnya oleh AI.

Metode

Korelasi Warna

Makalah tersebut mengusulkan tiga ‘petunjuk forensik’ yang disesuaikan untuk gambar JPEG AI: korelasi saluran warna, yang diperkenalkan selama langkah pra-pengolahan JPEG AI; distorsi yang dapat diukur dalam kualitas gambar di seluruh kompresi berulang yang mengungkapkan peristiwa rekompresi; dan pola kuantisasi ruang laten yang membantu membedakan antara gambar yang dikompresi oleh JPEG AI dan yang dihasilkan oleh model AI.

Mengenai pendekatan berbasis korelasi warna, pipa pra-pengolahan JPEG AI memperkenalkan ketergantungan statistik antara saluran warna gambar, menciptakan tanda tangan yang dapat berfungsi sebagai petunjuk forensik.

JPEG AI mengubah gambar RGB ke ruang warna YUV dan melakukan subsampling kroma 4:2:0, yang melibatkan downsampling saluran krominasi sebelum kompresi. Proses ini menyebabkan korelasi halus antara residu frekuensi tinggi dari saluran merah, hijau, dan biru – korelasi yang tidak ada dalam gambar yang tidak terkompresi, dan yang berbeda dalam kekuatan dari yang dihasilkan oleh kompresi JPEG tradisional atau generator gambar sintetis.

Perbandingan bagaimana kompresi JPEG AI mengubah korelasi warna dalam gambar..

Di atas kita dapat melihat perbandingan dari makalah yang menggambarkan bagaimana kompresi JPEG AI mengubah korelasi warna dalam gambar, menggunakan saluran merah sebagai contoh.

Panel A membandingkan gambar yang tidak terkompresi dengan gambar yang dikompresi JPEG AI, menunjukkan bahwa kompresi secara signifikan meningkatkan korelasi antar saluran; panel B mengisolasi efek dari pra-pengolahan JPEG AI – hanya konversi warna dan subsampling – menunjukkan bahwa bahkan langkah ini saja meningkatkan korelasi secara signifikan; panel C menunjukkan bahwa kompresi JPEG tradisional juga meningkatkan korelasi sedikit, tetapi tidak sebesar itu; dan Panel D memeriksa gambar sintetis, dengan Midjourney-V5 dan Adobe Firefly menampilkan peningkatan korelasi moderat, sementara yang lain tetap lebih dekat dengan tingkat yang tidak terkompresi.

Rate-Distortion

Petunjuk rate-distortion mengidentifikasi rekompresi JPEG AI dengan melacak bagaimana kualitas gambar, diukur oleh Peak Signal-to-Noise Ratio (PSNR), menurun dalam pola yang dapat diprediksi di seluruh kompresi berulang.

Penelitian tersebut menyatakan bahwa mengompresi ulang gambar dengan JPEG AI menyebabkan kehilangan kualitas gambar yang progresif, tetapi masih dapat diukur, sebagaimana diukur oleh PSNR, dan bahwa degradasi bertahap ini membentuk dasar dari petunjuk forensik untuk mendeteksi apakah gambar telah dikompresi ulang.

Tidak seperti JPEG tradisional, di mana metode sebelumnya melacak perubahan dalam blok gambar tertentu, JPEG AI memerlukan pendekatan yang berbeda, karena arsitektur kompresi neural; oleh karena itu, penulis mengusulkan untuk memantau bagaimana bitrate dan PSNR berkembang di seluruh kompresi berulang. Setiap putaran kompresi mengubah gambar kurang dari sebelumnya, dan perubahan yang menurun (ketika diploth melawan bitrate) dapat mengungkapkan apakah gambar telah melewati beberapa tahap kompresi:

Ilustrasi bagaimana kompresi berulang mempengaruhi kualitas gambar di seluruh codec yang berbeda menunjukkan bahwa JPEG AI dan codec neural yang dikembangkan di https://arxiv.org/pdf/1802.01436 keduanya menampilkan penurunan PSNR yang stabil dengan setiap kompresi tambahan – bahkan pada bitrate yang lebih rendah. Sebaliknya, kompresi JPEG tradisional mempertahankan kualitas yang relatif stabil di seluruh kompresi berulang, kecuali bitrate yang tinggi. Pola ini berfungsi sebagai contoh bagaimana rekompresi meninggalkan jejak yang dapat diukur dalam codec yang didorong oleh AI.

Ilustrasi bagaimana kompresi berulang mempengaruhi kualitas gambar di seluruh codec yang berbeda, menampilkan hasil dari JPEG AI dan codec neural yang dikembangkan di https://arxiv.org/pdf/1802.01436; keduanya menampilkan penurunan PSNR yang stabil dengan setiap kompresi tambahan, bahkan pada bitrate yang lebih rendah. Sebaliknya, kompresi JPEG tradisional mempertahankan kualitas yang relatif stabil di seluruh kompresi berulang, kecuali bitrate yang tinggi.

Dalam gambar di atas, kita dapat melihat kurva rate-distortion untuk JPEG AI; codec neural kedua; dan JPEG tradisional, menemukan bahwa JPEG AI dan codec neural menampilkan penurunan PSNR yang konsisten di seluruh bitrate, sementara kompresi JPEG tradisional hanya menampilkan degradasi yang mencolok pada bitrate yang jauh lebih tinggi. Perilaku ini menyediakan sinyal yang dapat diukur yang dapat digunakan untuk membenderai gambar JPEG AI yang dikompresi ulang.

Dengan mengekstrak bagaimana bitrate dan kualitas gambar berkembang di seluruh kompresi berulang, penulis secara serupa mengkonstruksi tanda tangan yang membantu membenderai apakah gambar telah dikompresi ulang, memberikan petunjuk forensik yang potensial dalam konteks JPEG AI.

Quantization

Seperti yang kita lihat sebelumnya, salah satu masalah forensik yang lebih menantang yang dibangkitkan oleh JPEG AI adalah kesamaan visualnya dengan gambar sintetis yang dihasilkan oleh model difusi. Kedua sistem menggunakan arsitektur encoder-decoder yang memproses gambar dalam ruang laten yang terkompresi dan sering meninggalkan artifacts upsampling yang halus.

Karakteristik yang dibagikan ini dapat membingungkan detektor – bahkan mereka yang dilatih ulang pada gambar JPEG AI. Namun, perbedaan struktural kunci tetap: JPEG AI menerapkan kuantisasi, langkah yang membulatkan nilai laten ke tingkat diskrit untuk kompresi yang efisien, sementara model generatif biasanya tidak.

Makalah baru menggunakan perbedaan ini untuk merancang petunjuk forensik yang secara tidak langsung menguji kehadiran kuantisasi. Metode menganalisis bagaimana representasi laten gambar merespons pembulatan, dengan asumsi bahwa jika gambar telah dikompresi, struktur laten akan menampilkan pola yang dapat diukur.

Polanya, meskipun tidak terlihat oleh mata, menghasilkan perbedaan statistik yang dapat membantu memisahkan gambar yang dikompresi oleh JPEG AI dari gambar yang dihasilkan sepenuhnya oleh model AI.

Contoh spektrum Fourier rata-rata menunjukkan bahwa gambar yang dikompresi JPEG AI dan gambar yang dihasilkan oleh model difusi seperti Midjourney-V5 dan Stable Diffusion XL menampilkan pola grid reguler dalam domain frekuensi – artifacts yang umumnya terkait dengan upsampling. Sebaliknya, gambar asli tidak memiliki pola ini. Tumpang tindih struktur spektral ini membantu menjelaskan mengapa alat forensik sering membingungkan gambar yang dikompresi dengan gambar sintetis.

Pentingnya koefisien yang dikuantisasi menjadi nol ditunjukkan dalam kinerja yang sangat baik dari fitur yang dipotong, yang dalam banyak kasus melakukan komparasi dengan classifier ResNet50. Namun, fitur kuantisasi yang menggunakan vektor integer penuh yang tidak dipotong masih melakukan lebih baik. Hasil ini mengkonfirmasi bahwa jumlah nol setelah kuantisasi adalah petunjuk penting untuk membedakan antara gambar yang dikompresi oleh AI dan gambar yang dihasilkan oleh AI.

Data dan Tes

Kompresi

Untuk mengevaluasi apakah petunjuk korelasi warna dapat secara andal mendeteksi kompresi JPEG AI (yaitu, kompresi pertama dari sumber yang tidak terkompresi), penulis mengujinya pada gambar berkualitas tinggi yang tidak terkompresi dari dataset RAISE, mengompresi gambar pada berbagai bitrate, menggunakan implementasi referensi JPEG AI.

Mereka melatih hutan acak pada pola statistik korelasi saluran warna (terutama bagaimana noise residu dalam setiap saluran sejajar dengan yang lain) dan membandingkannya dengan ResNet50 yang dilatih langsung pada piksel gambar.

Akurasi deteksi kompresi JPEG AI menggunakan fitur korelasi warna, dibandingkan di seluruh bitrate yang berbeda. Metode ini paling efektif pada bitrate yang lebih rendah, di mana artifacts kompresi lebih kuat, dan menunjukkan generalisasi yang lebih baik ke tingkat kompresi yang tidak terlihat daripada model ResNet50 dasar.

Sementara ResNet50 mencapai akurasi yang lebih tinggi ketika data uji sangat mirip dengan kondisi pelatihan, namun kesulitan untuk generalisasi di seluruh tingkat kompresi yang berbeda. Pendekatan berbasis korelasi, meskipun jauh lebih sederhana, terbukti lebih konsisten di seluruh bitrate, terutama pada tingkat kompresi yang lebih rendah di mana pra-pengolahan JPEG AI memiliki efek yang lebih kuat.

Hasil ini menunjukkan bahwa bahkan tanpa pembelajaran dalam, memungkinkan untuk mendeteksi kompresi JPEG AI menggunakan petunjuk statistik yang tetap dapat diinterpretasikan dan tangguh.

Rekompresi

Untuk mengevaluasi apakah rekompresi JPEG AI dapat dideteksi secara andal, peneliti menguji petunjuk rate-distortion pada set gambar yang dikompresi pada bitrate yang berbeda – beberapa hanya sekali dan yang lain dua kali menggunakan JPEG AI.

Metode ini melibatkan ekstraksi vektor fitur 17-dimensi untuk melacak bagaimana bitrate dan PSNR gambar berkembang di seluruh tiga putaran kompresi. Set fitur ini menangkap seberapa banyak kualitas yang hilang pada setiap tahap, dan bagaimana laju laten dan hiperprior berperilaku—metrik yang metode berbasis piksel tradisional tidak dapat dengan mudah diakses.

Penulis melatih hutan acak pada fitur ini dan membandingkannya dengan ResNet50 yang dilatih pada patch gambar:

Hasil akurasi klasifikasi dari hutan acak yang dilatih pada fitur rate-distortion untuk mendeteksi apakah gambar JPEG AI telah dikompresi ulang. Metode ini berkinerja terbaik ketika kompresi awal kuat (yaitu, pada bitrate yang lebih rendah), dan kemudian secara konsisten mengungguli ResNet50 – terutama dalam kasus di mana kompresi kedua lebih lembut daripada yang pertama.

Hutan acak terbukti sangat efektif ketika kompresi awal kuat (yaitu, pada bitrate yang lebih rendah), mengungkapkan perbedaan yang jelas antara gambar yang dikompresi sekali dan yang dikompresi dua kali. Seperti pada petunjuk sebelumnya, iterasi ResNet50 mengalami kesulitan generalisasi, terutama ketika diuji pada tingkat kompresi yang tidak terlihat selama pelatihan.

Fitur rate-distortion, di sisi lain, tetap stabil di seluruh skenario. Yang patut dicatat, petunjuk ini bekerja bahkan ketika diterapkan pada codec AI yang berbeda, menunjukkan bahwa pendekatan ini generalisasi melampaui JPEG AI.

JPEG AI dan Gambar Sintetis

Untuk putaran pengujian terakhir, penulis menguji apakah fitur kuantisasi dapat membedakan antara gambar yang dikompresi oleh JPEG AI dan gambar sintetis yang dihasilkan sepenuhnya oleh model seperti Midjourney, Stable Diffusion, DALL-E 2, Glide, dan Adobe Firefly.

Untuk ini, penulis menggunakan subset dari dataset Synthbuster, mencampur foto asli dari database RAISE dengan gambar yang dihasilkan oleh berbagai model difusi dan GAN.

Contoh gambar sintetis dalam Synthbuster, dihasilkan menggunakan prompt teks yang terinspirasi oleh foto alami dari dataset RAISE-1k. Gambar-gambar ini dibuat dengan berbagai model difusi, dengan prompt yang dirancang untuk menghasilkan konten dan tekstur yang fotorealistik daripada render yang stilis atau artistik. Sumber: https://ieeexplore.ieee.org/document/10334046

Gambar asli dikompresi menggunakan JPEG AI pada beberapa tingkat bitrate, dan klasifikasi didefinisikan sebagai tugas dua arah: baik JPEG AI versus generator tertentu, atau bitrate tertentu versus Stable Diffusion XL.

Fitur kuantisasi (korelasi yang diekstrak dari representasi laten) dihitung dari wilayah tetap 256×256 dan diberikan kepada klasifikasi hutan acak. Sebagai baseline, ResNet50 dilatih pada patch piksel dari data yang sama.

Akurasi klasifikasi dari hutan acak yang menggunakan fitur kuantisasi untuk memisahkan gambar yang dikompresi JPEG AI dari gambar sintetis.

Di seluruh kondisi, pendekatan berbasis kuantisasi outperform baseline ResNet50, terutama pada bitrate yang lebih rendah di mana artifacts kompresi lebih kuat.

Penulis menyatakan:

‘Baseline ResNet50 berkinerja terbaik untuk gambar Glide dengan akurasi 66,1%, tetapi lainnya generalisasi lebih buruk daripada fitur kuantisasi. Fitur kuantisasi menunjukkan generalisasi yang baik di seluruh kekuatan kompresi dan jenis generator.

‘Pentingnya koefisien yang dikuantisasi menjadi nol ditunjukkan dalam kinerja yang sangat baik dari fitur yang dipotong, yang dalam banyak kasus melakukan komparasi dengan classifier ResNet50. Namun, fitur kuantisasi yang menggunakan vektor integer penuh yang tidak dipotong masih melakukan lebih baik. Hasil ini mengkonfirmasi bahwa jumlah nol setelah kuantisasi adalah petunjuk penting untuk membedakan antara gambar yang dikompresi oleh AI dan gambar yang dihasilkan oleh AI.

‘Namun, juga menunjukkan bahwa faktor lainnya berkontribusi. Akurasi vektor penuh untuk mendeteksi JPEG AI adalah untuk semua bitrate lebih dari 91,0%, dan kompresi yang lebih kuat menghasilkan akurasi yang lebih tinggi.’

Proyeksi ruang fitur menggunakan UMAP menunjukkan pemisahan yang jelas antara gambar JPEG AI dan gambar sintetis, dengan bitrate yang lebih rendah meningkatkan jarak antar kelas. Satu outlier konsisten adalah Glide, yang gambar-gambarnya mengelompokkan berbeda dan memiliki akurasi deteksi terendah dari generator mana pun yang diuji.

Visualisasi dua dimensi UMAP dari gambar JPEG AI yang dikompresi dan gambar sintetis, berdasarkan fitur kuantisasi. Plot kiri menunjukkan bahwa bitrate JPEG AI yang lebih rendah menciptakan pemisahan yang lebih besar dari gambar sintetis; plot kanan, bagaimana gambar dari generator yang berbeda mengelompokkan secara berbeda dalam ruang fitur.

Akhirnya, penulis mengevaluasi seberapa baik fitur tersebut bertahan di bawah pengolahan pasca yang umum, seperti rekompresi JPEG atau pengubahan ukuran gambar. Meskipun kinerja menurun dengan pengolahan yang lebih berat, penurunan tersebut bertahap, menunjukkan bahwa pendekatan ini mempertahankan beberapa ketangguhan bahkan dalam kondisi yang terdegradasi.

Evaluasi ketangguhan fitur kuantisasi di bawah pengolahan pasca, termasuk rekompresi JPEG (JPG) dan pengubahan ukuran gambar (RS).

Kesimpulan

Tidak ada jaminan bahwa JPEG AI akan mendapatkan adopsi yang luas. Salah satu hal yang ada adalah infrastruktur yang sudah ada yang dapat menimbulkan gesekan pada setiap codec baru; dan bahkan codec ‘konvensional’ dengan garis keturunan yang baik dan konsensus yang luas tentang nilainya, seperti AV1, memiliki kesulitan menggantikan metode yang sudah mapan.

Dalam hal potensi bentrokan sistem dengan generator AI, artifacts kuantisasi yang khas yang membantu detektor gambar AI saat ini mungkin berkurang atau pada akhirnya digantikan oleh jejak dari jenis lain, dalam sistem yang lebih baru (dengan asumsi bahwa generator AI akan selalu meninggalkan residu forensik, yang tidak pasti).

Ini akan berarti bahwa karakteristik kuantisasi JPEG AI sendiri, mungkin bersama dengan petunjuk lain yang diidentifikasi oleh makalah baru, mungkin tidak akan bertabrakan dengan jejak forensik dari sistem generatif AI yang paling efektif.

Namun, jika JPEG AI terus beroperasi sebagai ‘pencuci AI’ de facto, secara signifikan mengaburkan perbedaan antara gambar asli dan gambar yang dihasilkan, akan sulit untuk membuat kasus yang meyakinkan untuk adopsinya.

Pertama dipublikasikan pada hari Selasa, 8 April 2025