Anderson’un Açısı

Yapay Zekaya Daha İyi Video Eleştirileri Vermeyi Öğretme

Published April 1, 2025

Updated April 26, 2026

Martin Anderson

Image of a robot with popcorn in a cinema, ChatGPt-4+ and Adobe Firefly.

Büyük Görüntü-Dil Modelleri (LVLMs), bilgisayar görme literatüründeki bazı daha az bilinen veya zorlu gönderilerde yorumlama konusunda полез yardımcılar olabilir, ancak bir alanda engellenirler: herhangi bir video örneklerinin niteliklerini ve subjektif kalitesini belirleme konusunda.

Bu, bir gönderinin kritik bir yönüdür, çünkü bilimsel makaleler genellikle metin veya görseller yoluyla veya her ikisiyle birlikte heyecan yaratmayı amaçlar.

Ancak video sentezini içeren projelerde, yazarlar gerçek video çıkışını göstermek zorundadırlar, yoksa çalışmalarının reddedilme riski vardır ve bu gösterimlerde iddialar ile gerçek dünya performansı arasındaki uçurum genellikle ortaya çıkar.

Kitabı Okudum, Filmi Görmeye Girmedim

Şu anda, popüler API tabanlı Büyük Dil Modelleri (LLM) ve Büyük Görüntü-Dil Modelleri (LVLM), video içeriğini doğrudan analiz hiçbir şekilde thamir etmezler. Bunun yerine, yalnızca ilgili metinleri analiz edebilirler – ve belki de yorum ipliklerini ve diğer salt metin tabanlı yardımcı materyalleri.

The diverse objections of GPT-4o, Google Gemini and Perplexity, when asked to directly analyze video, without recourse to transcripts or other text-based sources.

GPT-4o, Google Gemini ve Perplexity’nin, metin tabanlı kaynaklara başvurmadan doğrudan video analizine karşı çeşitli itirazları.

Ancak, bir LLM, videoyu gerçekten izleyemeyeceğini gizleyebilir veya inkar edebilir, ancak bunu sadece çağırırseniz:

Having been asked to provide a subjective evaluation of a new research paper's associated videos, and having faked a real opinion, ChatGPT-4o eventually confesses that it cannot really view video directly.

Yeni bir araştırma makalesinin ilişkili videolarının subjektif bir değerlendirmesini sağlamak istendiğinde ve gerçek bir görüşü taklit ettikten sonra, ChatGPT-4o sonunda doğrudan videoyu gerçekten göremeyeceğini itiraf eder.

ÇatGPT-4o gibi modeller multimodaldır ve en azından bireysel fotoğrafları (örneğin, bir videodan çıkarılan bir kare, yukarıdaki resme bakınız) analiz edebilir, ancak bununla ilgili bazı sorunlar vardır: önce, bir LLM’nin subjektif görüşüne güvenmek için az bir temel vardır, en azından çünkü LLM’ler insanları memnun etmeye eğilimlidir, samimi bir tartışma yerine.

İkincisi, üretilen bir videonun çoğunun sorunları zamansal bir yönü olacaktır ve bu, bir karede tamamen kaybolacaktır – ve bu nedenle bireysel karelerin incelenmesi hiçbir amaç için hizmet etmez.

Son olarak, LLM yalnızca metin tabanlı bilgiyi emerek, örneğin derin sahte görüntüler veya sanat tarihi konusunda, bir “değer yargısı” verebilir:

The FakeVLM project offers targeted deepfake detection via a specialized multi-modal vision-language model. Source: https://arxiv.org/pdf/2503.14905

FakeVLM projesi, özel bir çok modelli görüntü-dil modeli aracılığıyla hedeflenen derin sahte tespiti sunar. Kaynak: https://arxiv.org/pdf/2503.14905

Bu, bir LLM’nin bir videodan doğrudan bilgi alamayacağı anlamına gelmez; Örneğin, YOLO gibi yardımcı AI sistemleri kullanarak, bir LLM bir videodaki nesneleri tanımlayabilir – veya bunu doğrudan yapabilir, eğer çok modelli işlevler için ortalamanın üzerinde bir sayıda eğitilmişse.

Ancak, bir LLM’nin bir videoyu subjektif olarak değerlendirebileceği (yani, ‘Bu gerçek gibi görünmüyor’) tek yol, insan görüşünü iyi yansıtan veya doğrudan insan görüşü tarafından bilgilendirilen bir kayıp fonksiyonu tabanlı ölçütü uygulamaktır.

Kayıp fonksiyonları, modelin tahminlerinin doğru cevaplarından ne kadar uzakta olduğunu ölçmek için eğitim sırasında kullanılan matematiksel araçlardır. Modelin öğrenmesini yönlendiren geri bildirimi sağlar: hata ne kadar büyükse, kayıp o kadar yüksek olur. Eğitim ilerledikçe, model parametrelerini bu kaybı azaltmak için ayarlayarak, doğru tahminler yapma yeteneğini dần dần geliştirir.

Kayıp fonksiyonları, modellerin eğitimini düzenlemek ve AI modellerinin çıkışını değerlendirmek için tasarlanmış algoritmaları kalibre etmek için kullanılır (örneğin, bir generatif video modelinden simüle edilen fotogerçekçi içeriğin değerlendirmesi).

Şartlı Görüntü

En popüler ölçütlerden biri Fréchet Inception Distance (FID)’dir ve bu, üretilen görüntülerin kalitesini, bunların dağılımını (burada ‘görüntülerin nasıl yayıldığı veya görsel özelliklere göre gruplandığı‘) ve gerçek görüntülerin dağılımını ölçerek değerlendirir.

Özellikle, FID, (sıkça eleştirilen) Inception v3 sınıflandırma ağı kullanarak her iki görüntü kümesinden çıkarılan özellikler arasındaki istatistiksel farkı, ortalamalar ve kovaryanslar kullanarak hesaplar. Daha düşük bir FID puanı, üretilen görüntülerin gerçek görüntülere daha benzer olduğunu gösterir, bu da daha iyi görsel kalite ve çeşitlilik anlamına gelir.

Ancak FID, esasen karşılaştırılabilir ve doğası gereği özreferansiyeldir. Bunu gidermek için, daha sonraki Şartlı Fréchet Mesafesi (CFD, 2021) yaklaşımı, FID’den farklı olarak, üretilen görüntüleri gerçek görüntülere karşılaştırır ve bir ek koşulu karşılamalarına dayanarak bir puan değerlendirir, Örneğin, (kaçınılmaz olarak subjektif) bir sınıf etiketi veya girdi görüntüsü.

Bu şekilde, CFID, görüntülerin yalnızca gerçeklik veya aralarındaki çeşitlilik açısından değil, aynı zamanda amaçlanan koşullara ne kadar uyduğunu da değerlendirir.

2021 CFD çıkışından örnekler. Kaynak: https://github.com/Michael-Soloveitchik/CFID/

CFD, loss fonksiyonlarına ve ölçüt algoritmalarına nitel insan yorumunu dahil etme yönündeki recent trendi takip eder. Bu तरह bir insan merkezli yaklaşım, resulting algoritmanın “ruhsuz” veya sadece mekanik olmayacağı garantisini sağlar, ancak aynı zamanda bir dizi sorunu da sunar: önyargı olasılığı, algoritmanın yeni uygulamalarla güncellenmesinin yükü ve bu durumun, projeler arasında yıllar boyunca tutarlı karşılaştırma standartlarının olmayacağı gerçeğini ortaya koyar ve bütçe sınırlamaları (daha az insan katılımcı, kararların daha şüpheli olacağı anlamına gelirken, daha yüksek bir sayı, güncellemeleri engelleme riski taşır).

cFreD

Bu, bizi ABD’den gelen yeni bir makaleye getirir ve bu, Şartlı Fréchet Mesafesi (cFreD) adlı bir yaklaşımı sunar ve bu, insan tercihlerini daha iyi yansıtmak için tasarlanmış bir cFreD’dir ve hem görsel kalite hem de metin-görüntü hizalamasını değerlendirir.

Yeni makaleden kısmi sonuçlar: ‘Bir oturma odası, bir kanepe ve bir laptop bilgisayarın kanepe üzerinde durduğu’ promt için farklı metrikler tarafından verilen resim sıralamaları (1–9). Yeşil, en yüksek insan tarafından değerlendirilen modeli (FLUX.1-dev) vurgular, mor, en düşük (SDv1.5)’i vurgular. Sadece cFreD, insan sıralamalarına karşılık gelir. Lütfen tam sonuçlar için kaynak makaleye başvurun, çünkü bunları burada yeniden üretmeye yerimiz yok. Kaynak: https://arxiv.org/pdf/2503.21721

Yazarlar, mevcut metin-görüntü sentezinin değerlendirilmesi için kullanılan yöntemlerin, Inception Skoru (IS) ve FID gibi, insan yargısına uygun olmadığını, çünkü sadece görüntü kalitesini dikkate aldıklarını ve metinle olan uyumu dikkate almadıklarını savunurlar:

‘Örneğin, bir veri kümesinde iki resim düşünün: biri bir köpek, diğeri bir kedi, her biri ilgili promt ile eşleştirilmiş. Mükemmel bir metin-görüntü modeli, bu eşleştirmeyi yanlışlıkla değiştirirse (yani, köpek promt için kedi ve tersi için köpek oluşturursa), neredeyse sıfır FID elde edecektir, çünkü genel olarak köpek ve kedilerin dağılımı korunur, ancak amaçlanan promt ile uyumsuzluk rağmen.’

‘Gösteriyoruz ki, cFreD, görüntü kalitesinin daha iyi bir değerlendirmesini sağlar ve metinle olan uyumu dikkate alır, bu da insan tercihleriyle daha iyi bir korelasyon sağlar.’

Makalenin testleri, yazarların önerdiği cFreD’nin, FID, FDDINOv2, CLIPScore ve CMMD’ye kıyasla üç referans veri kümesinde (PartiPrompts, HPDv2 ve COCO) insan tercihleriyle daha yüksek korelasyon elde ettiğini gösterir.

Kavram ve Yöntem

Yazarlar, metin-görüntü modellerini değerlendirmek için kullanılan güncel standartın, insan tercih verilerini toplamak için kalabalık karşılaştırmalar aracılığıyla gerçekleştirildiğini belirtirler, benzer bir yöntem LMSys Arena için kullanılır.

Örneğin, PartiPrompts Arena, 1.600 İngilizce promt kullanır ve katılımcılara farklı modellerden gelen resim çiftleri sunar ve tercih edilen resmi seçmelerini ister.

Benzer şekilde, Metin-Görüntü Arena Liderlik Tablosu, model çıkışlarını karşılaştırmak için kullanıcı değerlendirmelerini kullanır ve ELO puanları aracılığıyla sıralamalar oluşturur. Ancak, bu tür insan değerlendirme verilerini toplamak maliyetli ve zaman alıcıdır, bu nedenle bazı platformlar – PartiPrompts Arena gibi – güncellemeleri tamamen durdurmuştur.

Yapay Zeka Görüntü Arena Liderlik Tablosu, görsel AI’nin şu anki liderlerini sıralar. Kaynak: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard

Alternatif yöntemler, insan tercih verilerine dayalı olarak eğitilmiştir, ancak gelecekteki modelleri değerlendirmek için their etkinliği belirsizdir, çünkü insan tercihleri sürekli olarak evrim geçirir. Bu nedenle, FID, CLIPScore ve yazarların önerdiği cFreD gibi otomatik metrikler, önemli değerlendirme araçları olarak kalmaya devam edecektir.

Yazarlar, her iki gerçek ve üretilen görüntülerin de bir promt koşuluna göre Gaussian dağılımları izlediğini varsayarlar, her biri koşullu ortalamalar ve kovaryanslar tarafından tanımlanır. cFreD, bu koşullu dağılımlar arasındaki beklenen Fréchet mesafesini ölçer. Bu, doğrudan koşullu istatistikler açısından veya koşulsuz istatistiklerle birlikte promt ile ilgili cross-kovaryansları birleştirerek formüle edilebilir.

Promt’u bu şekilde dahil ederek, cFreD hem görüntülerin gerçekliğini hem de metinle olan uyumluğunu değerlendirebilir.

Veri ve Testler

cFreD’nin insan tercihleriyle ne kadar iyi korelasyon sağladığını değerlendirmek için, yazarlar aynı metinle promt edilen farklı modellerden gelen resim sıralamalarını kullandılar. Their değerlendirmeleri, iki kaynaktan yararlanıyordu: Insan Tercih Skoru v2 (HPDv2) test kümesi, her promt için dokuz üretilen resim ve bir COCO gerçek resim içerir; ve yukarıda bahsedilen PartiPrompts Arena.

Yazarlar, Arena’daki dağınık veri noktalarını tek bir veri kümesine topladılar; gerçek resim, insan değerlendirmelerinde en yüksek sıralamaya sahip değilse, en yüksek sıralamaya sahip resmi referans olarak kullandılar.

Yeni modelleri test etmek için, COCO’nun eğitim ve doğrulama kümelerinden 1.000 promt örnekledi, HPDv2 ile örtüşmeyecek şekilde, ve Arena Liderlik Tablosu’ndan dokuz model kullanarak resimler oluşturdu. Orijinal COCO resimleri, bu değerlendirme bölümünde referans olarak hizmet etti.

cFreD yaklaşımı, dört istatistiksel ölçüt aracılığıyla değerlendirildi: FID; FDDINOv2; CLIPScore; ve CMMD. Ayrıca, dört öğrenilmiş ölçüt aracılığıyla değerlendirildi, bunlar insan tercih verilerine dayalı olarak eğitilmiştir: Estetik Skor; Görüntü Ödülü; HPSv2; ve MPS.

Yazarlar, her bir ölçüt için model puanlarını bildirdi ve insan değerlendirmesi sonuçlarıyla uyumlu sıralamaları hesapladı, cFreD, DINOv2-G/14 için görüntü gömme ve OpenCLIP ConvNext-B Metin Kodlayıcı için metin gömme kullanıyordu†.

Önceki çalışmalar, insan tercihlerinin öğrenilmesi için performansın ölçülmesi, her bir resim-metin çifti için sıralama doğruluğunu hesaplayarak ve ardından sonuçları ortalaması olarak hesaplayarak gerçekleştirilmiştir.

Yazarlar, cFreD’yi global sıralama doğruluğu kullanarak değerlendirdi, bu da tüm veri kümesi boyunca genel sıralama performansını değerlendirir; istatistiksel ölçütler için, sıralamaları doğrudan ham puanlardan türettiler; ve insan tercihlerine dayalı ölçütler için, her modelin tüm örnekler boyunca atanan sıralamaları ortalamasını hesapladılar ve sonra final sıralamayı bu ortalamalardan belirlediler.

İlk testler, on çerçeve kullanılarak gerçekleştirildi: GLIDE; COCO; FuseDream; DALLE 2; VQGAN+CLIP; CogView2; Stable Diffusion V1.4; VQ-Diffusion; Stable Diffusion V2.0; ve LAFITE.

HPDv2 test kümesinde istatistiksel ölçütler (FID, FDDINOv2, CLIPScore, CMMD ve cFreD) ve insan tercihlerine dayalı ölçütler (Estetik Skor, Görüntü Ödülü, HPSv2 ve MPS) kullanarak model sıralamaları ve puanları. En iyi sonuçlar kalın olarak gösterilir, ikinci en iyi sonuçlar alt çizgili olarak gösterilir.

İlk sonuçlardan, yazarlar şunları belirtirler:

‘cFreD, insan tercihleriyle en yüksek korelasyonu elde eder, korelasyon 0,97’dir. İstatistiksel ölçütler arasında, cFreD en yüksek korelasyonu elde eder ve insan tercihlerine dayalı olarak eğitilen HPSv2’ye (0,94) benzerdir. HPSv2, HPSv2 eğitim kümesinde eğitilmiştir ve aynı anketörleri kullanmıştır, bu nedenle belirli bir insan tercih önyargısını kodlar.’

‘Karşılaştırıldığında, cFreD, insan tercih training veri kümesine gerek kalmadan benzer veya daha iyi korelasyonu elde eder. Bu sonuçlar, cFreD’nin, standart otomatik ölçütlerle ve insan tercihlerine dayalı ölçütlerle karşılaştırıldığında, çeşitli modeller arasında daha güvenilir sıralamalar sağladığını gösterir.’

Yazarlar, cFreD’yi PartiPrompts Arena’da, SDXL; Kandinsky 2; Würstchen; ve Karlo V1.0 kullanarak test etti.

PartiPrompt’te istatistiksel ölçütler (FID, FDDINOv2, CLIPScore, CMMD ve cFreD) ve insan tercihlerine dayalı ölçütler (Estetik Skor, Görüntü Ödülü ve MPS) kullanarak model sıralamaları ve puanları. En iyi sonuçlar kalın olarak gösterilir, ikinci en iyi sonuçlar alt çizgili olarak gösterilir.

Burada makale şunları belirtir:

‘İstatistiksel ölçütler arasında, cFreD, insan değerlendirmeleriyle en yüksek korelasyonu elde eder, korelasyon 0,73’tür. FID ve FDDINOv2, her ikisi de 0,70 korelasyonu elde eder. Karşılaştırıldığında, CLIP skoru, insan değerlendirmeleriyle çok düşük korelasyon gösterir, 0,12’dir.’

‘İnsan tercihlerine dayalı kategoride, HPSv2, en yüksek korelasyonu elde eder, 0,83 korelasyonu elde eder, onu ImageReward (0,81) ve MPS (0,65) takip eder. Bu sonuçlar, cFreD’nin, PartiPrompts Arena’da insan değerlendirme eğilimlerini yakalamada en etkili olduğunu vurgular.’

Son olarak, yazarlar COCO veri kümesini kullanarak, dokuz modern metin-görüntü modelini test etti: FLUX.1[dev]; Playgroundv2.5; Janus Pro; ve Stable Diffusion varyantları SDv3.5-L Turbo, 3.5-L, 3-M, SDXL, 2.1 ve 1.5.

İnsan tercih sıralamaları, Metin-Görüntü Liderlik Tablosu’ndan ELO puanları olarak alındı:

Rasgele seçilen COCO promtlerinde otomatik ölçütler (FID, FDDINOv2, CLIPScore, CMMD ve cFreD) ve insan tercihlerine dayalı ölçütler (Estetik Skor, Görüntü Ödülü, HPSv2 ve MPS) kullanarak model sıralamaları. En iyi sonuçlar kalın olarak gösterilir, ikinci en iyi sonuçlar alt çizgili olarak gösterilir. Bir sıralama doğruluğu 0,5’in altında olduğunda, daha çok uyumsuz çiftler olduğu anlamına gelir.

Bu tur hakkında, araştırmacılar şunları belirtirler:

‘İstatistiksel ölçütler arasında (FID, FDDINOv2, CLIP, CMMD ve önerdiğimiz cFreD), yalnızca cFreD, insan tercihleriyle güçlü korelasyonu gösterir, korelasyon 0,33’tür ve önemli bir sıralama doğruluğu, %66,67 elde eder. Bu sonuç, cFreD’yi genel olarak üçüncü en uyumlu ölçüt olarak yerleştirir, yalnızca insan tercihlerine dayalı ölçütler ImageReward, HPSv2 ve MPS tarafından geçilir.’

‘Diğer istatistiksel ölçütler, insan sıralamalarıyla ve ELO puanlarıyla önemli ölçüde daha zayıf korelasyonu gösterir ve sıralamaları tersine çevirir, bu da %0,5’in altında bir sıralama doğruluğuna yol açar. Bu bulgular, cFreD’nin hem görsel kalite hem de promt uyumu açısından duyarlı olduğunu vurgular ve metin-görüntü sentezinin benchmarklanması için pratik, eğitim gerektirmeyen bir alternatif olarak değerini güçlendirir.’

Yazarlar ayrıca, Inception V3’ü bir arka uç olarak test etti ve literatürdeki yaygınlığına dikkat çekti ve InceptionV3’nin makul bir performans gösterdiğini, ancak DINOv2-L/14 ve ViT-L/16 gibi transformer tabanlı arka uçların insan sıralamalarıyla daha tutarlı bir şekilde uyumlu olduğunu buldu – ve bu, modern değerlendirme kurulumlarında InceptionV3’ü değiştirmeyi desteklediğini iddia ediyorlar.

COCO veri kümesindeki gerçek insan sıralamalarıyla uyumlu olan her bir görüntü arka ucunun kazandığı oranları gösteren bir grafik.

Sonuç

İnsan-döngüsel çözümlerin, metrik ve loss fonksiyonlarının geliştirilmesinde optimal yaklaşım olduğu açık olsa da, bu tür şemaların gerekli güncelleme sıklığı ve ölçeği, onları uygulamaya koymanın pratik olarak imkansız olacağı anlamına gelir – belki de, insan değerlendirmelerinin yaygın olarak teşvik edildiği veya CAPTCHA’lar gibi, genel olarak zorunlu kılınacağı zamanlara kadar.

Yazarların yeni sisteminin güvenilirliği, hala insan yargısıyla olan korelasyonuna bağlıdır, ancak diğer birçok recent insan-katılımlı yaklaşımdan bir adım daha uzaktadır; ve cFreD’nin meşruiyeti, bu nedenle, hala insan tercih verilerine bağlıdır (elbette, böyle bir referans olmadan, cFreD’nin insan benzeri değerlendirme yaptığını iddia etmek ispatlanamaz olurdu).

İnsanların gerçeklik kavramına ilişkin güncel kriterlerimizi, üretilen çıktılar için bir ölçüt fonksiyonuna dahil etmek, uzun vadede bir hata olabilir, çünkü bu kavram şu anda yeni nesil generatif AI sistemleri tarafından saldırı altında ve sık ve önemli revizyonlar için planlanmıştır.

* Şu anda, genellikle bir örnek video göstermek için buraya bir bağlantı eklerdim, belki de recent bir akademik gönderiden; ancak bu, kötü niyetli olurdu – Arxiv’in generatif AI çıkışını 10-15 dakikadan fazla taramış olan herkes, already subjektif olarak düşük kaliteli video örnekleriyle karşılaşmıştır ve bu, ilgili gönderinin bir köşe taşı olarak kabul edilmeyeceğini gösterir.

† Deneylerde toplam 46 görüntü arka uç modeli kullanıldı, ancak bunların hepsi grafik sonuçlarda dikkate alınmamıştır. Lütfen tam liste için makalenin ekine başvurun; tablo ve şekillerde listelenenler.

İlk olarak 1 Nisan 2025 Salı günü yayımlandı

Related Topics:evaluation metrics loss function