Sudut Anderson
Mengajar AI untuk Memberikan Kritik Video yang Lebih Baik

Sementara Large Vision-Language Models (LVLMs) dapat berguna sebagai pembantu dalam menafsirkan beberapa submission yang lebih sulit atau menantang dalam literatur penglihatan komputer, ada satu area di mana mereka terhambat: menentukan kelebihan dan kualitas subjektif dari contoh video yang menyertainya dalam kertas baru*.
Hal ini merupakan aspek kritis dari sebuah submission, karena kertas ilmiah sering bertujuan untuk menghasilkan kegembiraan melalui teks atau visual yang menarik – atau keduanya.
Tetapi dalam kasus proyek yang melibatkan sintesis video, penulis harus menunjukkan output video yang sebenarnya atau berisiko memiliki pekerjaan mereka ditolak; dan dalam demonstrasi ini bahwa kesenjangan antara klaim yang berani dan kinerja dunia nyata paling sering menjadi jelas.
Saya Membaca Buku, Tapi Tidak Melihat Film
Saat ini, sebagian besar API-based Large Language Models (LLMs) dan Large Vision-Language Models (LVLMs) populer tidak akan menganalisis konten video secara langsung dalam cara apa pun, kualitatif atau lainnya. Sebaliknya, mereka hanya dapat menganalisis transkrip terkait – dan, mungkin, thread komentar dan materi tambahan berbasis teks lainnya.

Perbedaan yang beragam dari GPT-4o, Google Gemini dan Perplexity, ketika diminta untuk menganalisis video secara langsung, tanpa menggunakan transkrip atau sumber berbasis teks lainnya.
Namun, LLM mungkin menyembunyikan atau menyangkal ketidakmampuannya untuk benar-benar menonton video, kecuali Anda memanggil mereka:

Setelah diminta untuk memberikan evaluasi subjektif dari video yang terkait dengan kertas penelitian baru, dan telah memalsukan pendapat yang sebenarnya, ChatGPT-4o akhirnya mengakui bahwa ia tidak dapat benar-benar menonton video secara langsung.
Meskipun model seperti ChatGPT-4o adalah multimodal, dan dapat menganalisis foto individual (seperti frame yang diekstrak dari video, lihat gambar di atas), ada beberapa masalah bahkan dengan ini: pertama, ada sedikit dasar untuk memberikan kredensial kepada pendapat kualitatif LLM, tidak hanya karena LLM cenderung untuk ‘memuaskan orang’ daripada wacana yang tulus.
Kedua, banyak, jika tidak sebagian besar, masalah video yang dihasilkan kemungkinan memiliki aspek waktu yang sepenuhnya hilang dalam frame grab – dan sehingga pemeriksaan frame individual tidak berfungsi.
Terakhir, LLM hanya dapat memberikan ‘penilaian nilai’ yang seharusnya berdasarkan (sekali lagi) pada pengetahuan berbasis teks, misalnya dalam hal citra deepfake atau sejarah seni. Dalam kasus seperti itu, pengetahuan domain yang dilatih memungkinkan LLM untuk mengorelasikan kualitas visual gambar dengan embeddings yang dipelajari berdasarkan insight manusia:

Proyek FakeVLM menawarkan deteksi deepfake yang ditargetkan melalui model bahasa-penglihatan multimodal khusus. Source: https://arxiv.org/pdf/2503.14905
Ini tidak berarti bahwa LLM tidak dapat memperoleh informasi langsung dari video; misalnya, dengan menggunakan sistem AI tambahan seperti YOLO, LLM dapat mengidentifikasi objek dalam video – atau dapat melakukan ini secara langsung, jika dilatih untuk fungsi multimodal di atas rata-rata.
Tetapi satu-satunya cara bahwa LLM dapat mengevaluasi video secara subjektif (yaitu, ‘Itu tidak terlihat nyata bagi saya’) adalah dengan menerapkan fungsi kerugian-berbasis metrik yang mencerminkan pendapat manusia dengan baik, atau yang secara langsung dipengaruhi oleh pendapat manusia.
Fungsi kerugian adalah alat matematika yang digunakan selama pelatihan untuk mengukur seberapa jauh prediksi model dari jawaban yang benar. Mereka memberikan umpan balik yang memandu pembelajaran model: semakin besar kesalahan, semakin tinggi kerugian. Saat pelatihan berlangsung, model menyesuaikan parameter untuk mengurangi kerugian ini, secara bertahap meningkatkan kemampuannya untuk membuat prediksi yang akurat.
Fungsi kerugian digunakan baik untuk mengatur pelatihan model, dan juga untuk mengkalibrasi algoritma yang dirancang untuk menilai output AI (seperti evaluasi konten fotorealistik yang disimulasikan dari model video generatif).
Visi Kondisional
Salah satu metrik/kerugian yang paling populer adalah Fréchet Inception Distance (FID), yang mengevaluasi kualitas gambar yang dihasilkan dengan mengukur kesamaan antara distribusi (yang di sini berarti ‘bagaimana gambar disebar atau dikelompokkan oleh fitur visual‘) dan gambar nyata.
Secara khusus, FID menghitung perbedaan statistik, menggunakan mean dan kovariansi, antara fitur yang diekstrak dari kedua set gambar menggunakan (sering dikritik) Inception v3 jaringan klasifikasi. Skor FID yang lebih rendah menunjukkan bahwa gambar yang dihasilkan lebih mirip dengan gambar nyata, yang berarti kualitas visual dan keberagaman yang lebih baik.
Namun, FID pada dasarnya komparatif, dan secara sah self-referential. Untuk memperbaiki ini, pendekatan Conditional Fréchet Distance (CFD, 2021) berbeda dari FID dengan membandingkan gambar yang dihasilkan dengan gambar nyata, dan mengevaluasi skor berdasarkan seberapa baik kedua set gambar memenuhi kondisi tambahan, seperti label kelas atau gambar input.
Dengan cara ini, CFID memperhitungkan seberapa akurat gambar memenuhi kondisi yang dimaksud, bukan hanya realisme atau keberagaman di antara mereka sendiri.

Contoh dari CFD 2021. Source: https://github.com/Michael-Soloveitchik/CFID/
CFD mengikuti tren baru menuju memasukkan interpretasi kualitatif manusia ke dalam fungsi kerugian dan algoritma metrik. Meskipun pendekatan berbasis manusia ini menjamin bahwa algoritma yang dihasilkan tidak akan ‘tanpa jiwa’ atau hanya mekanis, itu juga menyajikan sejumlah masalah: kemungkinan bias; beban memperbarui algoritma sesuai dengan praktik baru; dan keterbatasan anggaran (lebih sedikit kontributor manusia akan membuat penentuan lebih spekulatif, sementara jumlah yang lebih besar bisa mencegah pembaruan yang berguna karena biaya).
cFreD
Ini membawa kita ke kertas baru dari AS yang tampaknya menawarkan Conditional Fréchet Distance (cFreD), sebuah pendekatan baru pada CFD yang dirancang untuk lebih baik mencerminkan preferensi manusia dengan mengevaluasi baik kualitas visual dan keselarasan teks-gambar

Hasil parsial dari kertas baru: peringkat gambar (1–9) oleh metrik yang berbeda untuk prompt “A living room with a couch and a laptop computer resting on the couch.” Sorotan hijau menunjukkan model terbaik yang dinilai manusia (FLUX.1-dev), ungu menunjukkan yang terendah (SDv1.5). Silakan merujuk ke kertas sumber untuk hasil lengkap, yang tidak kami miliki ruang untuk mereproduksi di sini. Source: https://arxiv.org/pdf/2503.21721
Penulis berpendapat bahwa metode evaluasi yang ada untuk sintesis teks-ke-gambar, seperti Inception Score (IS) dan FID, tidak sejalan dengan penilaian manusia karena mereka hanya mengukur kualitas gambar tanpa mempertimbangkan bagaimana gambar sesuai dengan prompt:
‘Misalnya, pertimbangkan sebuah dataset dengan dua gambar: satu gambar anjing dan satu gambar kucing, masing-masing dipasangkan dengan prompt yang sesuai. Sebuah model teks-ke-gambar yang sempurna yang secara tidak sengaja menukar pemetaan ini (yaitu, menghasilkan kucing untuk prompt anjing dan sebaliknya) akan mencapai skor FID yang hampir nol karena distribusi keseluruhan anjing dan kucing dipertahankan, meskipun keselarasan dengan prompt yang dimaksud.
‘Kami menunjukkan bahwa cFreD menangkap penilaian kualitas gambar yang lebih baik dan kondisional pada teks input dan menghasilkan korelasi yang lebih baik dengan preferensi manusia.’

Tes kertas menunjukkan bahwa metrik yang diusulkan penulis, cFreD, secara konsisten mencapai korelasi yang lebih tinggi dengan preferensi manusia daripada FID, FDDINOv2, CLIPScore, dan CMMD pada tiga dataset benchmark (PartiPrompts, HPDv2, dan COCO).
Konsep dan Metode
Penulis mencatat bahwa standar emas saat ini untuk mengevaluasi model teks-ke-gambar melibatkan pengumpulan data preferensi manusia melalui perbandingan yang dikirimkan, mirip dengan metode yang digunakan untuk model bahasa besar (seperti LMSys Arena).
Misalnya, PartiPrompts Arena menggunakan 1.600 prompt bahasa Inggris, mempresentasikan peserta dengan pasangan gambar dari model yang berbeda dan meminta mereka untuk memilih gambar yang lebih disukai.
Serupa dengan itu, Text-to-Image Arena Leaderboard menggunakan perbandingan pengguna dari output model untuk menghasilkan peringkat melalui skor ELO. Namun, mengumpulkan data evaluasi manusia ini mahal dan lambat, menyebabkan beberapa platform – seperti PartiPrompts Arena – untuk berhenti memperbarui secara keseluruhan.

Artificial Analysis Image Arena Leaderboard, yang menempatkan pemimpin saat ini dalam AI generatif visual. Source: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard
Meskipun metode alternatif yang dilatih pada data preferensi manusia sebelumnya ada, efektivitasnya untuk mengevaluasi model di masa depan masih tidak pasti, karena preferensi manusia terus berkembang. Oleh karena itu, metrik otomatis seperti FID, CLIPScore, dan metrik yang diusulkan penulis, cFreD, tampaknya akan tetap menjadi alat evaluasi yang penting.
Penulis menganggap bahwa baik gambar nyata maupun gambar yang dihasilkan yang dikondisikan pada prompt mengikuti distribusi Gaussian, masing-masing didefinisikan oleh mean kondisional dan kovariansi. cFreD mengukur jarak Fréchet yang diharapkan di seluruh prompt antara distribusi kondisional ini. Ini dapat diformulasikan baik secara langsung dalam istilah statistik kondisional atau dengan menggabungkan statistik tidak kondisional dengan kovariansi silang yang melibatkan prompt.
Dengan memasukkan prompt dengan cara ini, cFreD dapat menilai baik realisme gambar dan konsistensi dengan teks yang diberikan.
Data dan Tes
Untuk menilai seberapa baik cFreD berkorelasi dengan preferensi manusia, penulis menggunakan peringkat gambar dari beberapa model yang dipicu dengan teks yang sama. Evaluasi mereka didasarkan pada dua sumber: Human Preference Score v2 (HPDv2) set tes, yang mencakup sembilan gambar yang dihasilkan dan satu COCO gambar dasar per prompt; dan PartiPrompts Arena yang disebutkan sebelumnya, yang berisi output dari empat model di seluruh 1.600 prompt.
Penulis mengumpulkan data Arena yang tersebar menjadi satu dataset; dalam kasus di mana gambar nyata tidak menempati peringkat tertinggi dalam evaluasi manusia, mereka menggunakan gambar terbaik sebagai referensi.
Untuk menguji model yang lebih baru, mereka mengambil sampel 1.000 prompt dari set pelatihan dan validasi COCO, memastikan tidak ada tumpang tindih dengan HPDv2, dan menghasilkan gambar menggunakan sembilan model dari Arena Leaderboard. Gambar COCO asli digunakan sebagai referensi dalam bagian evaluasi ini.


