Kąt Andersona
Nauczanie AI, aby lepiej krytykowała filmy

Podczas gdy duże modele języka i wizji (LVLM) mogą być przydatne w interpretowaniu niektórych bardziej ezoterycznych lub wymagających prac w literaturze z zakresu widzenia komputerowego, istnieje jedna dziedzina, w której są one ograniczone: określanie zalet i subiektywnej jakości dowolnych przykładów wideo, które towarzyszą nowym pracom*.
Jest to krytyczny aspekt zgłoszenia, ponieważ artykuły naukowe często mają na celu wywołać entuzjazm poprzez przekonywujący tekst lub wizualizacje – lub oba.
Jednak w przypadku projektów, które obejmują syntezę wideo, autorzy muszą przedstawić rzeczywiste dane wyjściowe wideo lub ryzykują odrzuceniem swojej pracy; a to właśnie w tych demonstracjach różnica między śmiałymi twierdzeniami a rzeczywistymi wynikami najczęściej staje się widoczna.
Przeczytałem książkę, nie widziałem filmu
Obecnie większość popularnych modeli języka i wizji (LLM i LVLM) opartych na API nie będzie analizować bezpośrednio zawartości wideo w żaden sposób, jakościowego lub innego. Zamiast tego mogą one jedynie analizować powiązane transkrypcje – i perhaps, wątki komentarzy i inne ściśle tekstowe materiały pomocnicze.

Różne zastrzeżenia GPT-4o, Google Gemini i Perplexity, gdy poproszono je o bezpośrednią analizę wideo, bez odniesienia do transkrypcji lub innych tekstowych źródeł.
Jednak model LLM może ukryć lub zaprzeczyć swojej niezdolności do rzeczywistego oglądania wideo, chyba że zostanie na to zwrócona uwagę:

Po tym, jak został poproszony o podanie subiektywnej oceny nowego artykułu naukowego powiązanego z wideo, i po tym, jak sfingował prawdziwą opinię, ChatGPT-4o ostatecznie przyznaje, że nie może rzeczywiście oglądać wideo bezpośrednio.
Chociaż modele takie jak ChatGPT-4o są wielomodalne i mogą analizować indywidualne zdjęcia (takie jak wyodrębniony klatka z wideo, patrz powyżej), istnieją pewne problemy również z tym: po pierwsze, nie ma podstaw, aby dać wiarę subiektywnej opinii LLM, nie tylko dlatego, że LLM są skłonne do “ludzkich upodobań” zamiast szczerej dyskusji.
Po drugie, wiele, jeśli nie większość problemów z wygenerowanym wideo ma czasowe aspekty, które są całkowicie tracone w klatce – a zatem badanie poszczególnych klatek nie służy żadnemu celowi.
Wreszcie, LLM może podać tylko domniemaną “ocenę wartości” opartą (ponownie) na wchłoniętej wiedzy tekstowej, na przykład w odniesieniu do głębokich fałszerstw obrazów lub historii sztuki. W takim przypadku wytrenowana wiedza domenowa pozwala LLM skorelować analizowane cechy wizualne obrazu z nauczonymi osadzeniami opartymi na ludzkiej intuicji:

Projekt FakeVLM oferuje ukierunkowaną detekcję głębokich fałszerstw za pomocą specjalistycznego wielomodalnego modelu języka i wizji. Źródło: https://arxiv.org/pdf/2503.14905
To nie oznacza, że LLM nie może uzyskać informacji bezpośrednio z wideo; na przykład, z użyciem systemów AI, takich jak YOLO, LLM mogą identyfikować obiekty w wideo – lub mogą to robić bezpośrednio, jeśli są wytrenowane w powyżej przeciętnej liczby funkcjonalności wielomodalnych.
Jednak jedynym sposobem, w jaki LLM mogłoby podać subiektywną ocenę wideo (tj. “To nie wygląda prawdziwie na mnie”) jest przez zastosowanie funkcji straty opartej metryki, która jest albo znana jako odbicie ludzkiej opinii, albo bezpośrednio poinformowana przez ludzką opinię.
Funkcje straty są matematycznymi narzędziami używanymi podczas treningu do pomiaru, jak daleko przewidywania modelu są od poprawnych odpowiedzi. Zapewniają informacje zwrotne, które kierują uczeniem się modelu: im większy błąd, tym wyższa strata. Podczas postępu treningu model dostosowuje swoje parametry, aby zmniejszyć tę stratę, stopniowo poprawiając swoją zdolność do dokonywania dokładnych przewidywań.
Funkcje straty są używane zarówno do regulacji treningu modeli, jak i do kalibracji algorytmów zaprojektowanych do oceny wyjścia AI (takich jak ocena symulowanych fotorealistycznych treści z generatywnego modelu wideo).
Wizja warunkowa
Jedną z najpopularniejszych metryk / funkcji straty jest Fréchet Inception Distance (FID), który ocenia jakość wygenerowanych obrazów, mierząc podobieństwo między ich dystrybucją (co tutaj oznacza ‘jak obrazy są rozproszone lub grupowane według cech wizualnych‘) a tymi rzeczywistymi obrazami.
Szczególnie FID oblicza różnicę statystyczną, używając średnich i kowariancji, między cechami wyodrębnionymi z obu zestawów obrazów przy użyciu (często krytykowanej) sieci Inception v3. Niższy wynik FID wskazuje, że wygenerowane obrazy są bardziej podobne do rzeczywistych obrazów, co oznacza lepszą jakość wizualną i różnorodność.
Jednak FID jest podstawowo porównawczy i można uznać, że jest samoreferencyjny. Aby zaradzić temu, późniejsze Conditional Fréchet Distance (CFD, 2021) różnią się od FID, porównując wygenerowane obrazy z rzeczywistymi obrazami i oceniając wynik na podstawie tego, jak dobrze oba zestawy spełniają dodatkowy warunek, taki jak (nieunikniona subiektywna) etykieta klasy lub obraz wejściowy.
W ten sposób CFD uwzględnia, jak dokładnie obrazy spełniają zamierzone warunki, a nie tylko ich ogólną realizm lub różnorodność wśród siebie.

Przykłady z wydania CFD z 2021 roku. Źródło: https://github.com/Michael-Soloveitchik/CFID/
CFD podąża za ostatnią tendencją do wprowadzania jakościowej ludzkiej interpretacji do funkcji straty i algorytmów metryk. Chociaż taki ludzki podejście gwarantuje, że wynikowy algorytm nie będzie “bezdusznym” lub mechanicznym, jednocześnie przedstawia szereg problemów: możliwość uprzedzeń; ciężar aktualizacji algorytmu zgodnie z nowymi praktykami i fakt, że to usunie możliwość spójnych standardów porównawczych w czasie przez lata w projektach; oraz ograniczenia budżetowe (mniejsza liczba ludzkich współtwórców sprawi, że decyzje będą mniej wiarygodne, podczas gdy większa liczba mogłaby uniemożliwić przydatne aktualizacje ze względu na koszty).
cFreD
To prowadzi nas do nowego artykułu z USA, który zdaje się oferować Conditional Fréchet Distance (cFreD), nowe spojrzenie na CFD, zaprojektowane tak, aby lepiej odzwierciedlać ludzkie preferencje, oceniając zarówno jakość wizualną, jak i wyrównanie tekstu i obrazu

Częściowe wyniki z nowego artykułu: rankingi obrazów (1–9) według różnych metryk dla podpowiedzi “Salon z kanapą i laptopem leżącym na kanapie.” Zielone podświetlenie wskazuje najlepszy model oceniany przez ludzi (FLUX.1-dev), fioletowy najgorszy (SDv1.5). Tylko cFreD odpowiada rankingom ludzkim. Proszę odnieść się do oryginalnego artykułu, aby uzyskać pełne wyniki, których tutaj nie możemy przedstawić.
Autorzy twierdzą, że istniejące metody oceny syntezji tekstu do obrazu, takie jak Inception Score (IS) i FID, słabo pokrywają się z ludzką oceną, ponieważ mierzą tylko jakość obrazu, nie uwzględniając, jak obrazy odpowiadają swoim podpowiedziom:
‘Na przykład, rozważmy zestaw danych z dwoma obrazami: jednym z psem i jednym z kotem, każdym sparowanym z odpowiednią podpowiedzią. Doskonały model tekstu do obrazu, który mylnie zamienia te powiązania (tj. generuje kota dla podpowiedzi psa i odwrotnie), osiągnie bliską zeru FID, ponieważ ogólna dystrybucja psów i kotów jest utrzymana, pomimo niezgodności z zamierzonymi podpowiedziami.
‘Pokażemy, że cFreD lepiej odzwierciedla ocenę jakości obrazu i warunkowanie na wejściowy tekst, a także daje lepsze wyniki w korelacji z ludzkimi preferencjami.’

Testy artykułu wskazują, że proponowana metryka autorów, cFreD, konsekwentnie osiąga wyższą korelację z ludzkimi preferencjami niż FID, FDDINOv2, CLIPScore i CMMD w trzech zestawach danych benchmarkowych (PartiPrompts, HPDv2 i COCO).
Pomysł i metoda
Autorzy zauważają, że obecny standard złota dla oceny modeli tekstu do obrazu obejmuje gromadzenie danych preferencji ludzkich za pomocą porównań crowdsourcowych, podobnych do metod stosowanych w przypadku dużych modeli języka (takich jak LMSys Arena).
Na przykład, PartiPrompts Arena wykorzystuje 1600 angielskich podpowiedzi, przedstawiając uczestnikom pary obrazów z różnych modeli i prosząc o wybranie ich preferowanego obrazu.
Podobnie, Text-to-Image Arena Leaderboard wykorzystuje porównania użytkowników wyników modeli do generowania rankingów za pomocą punktów ELO. Jednak zbieranie tego rodzaju danych ocen ludzkich jest kosztowne i powolne, co skłoniło niektóre platformy – takie jak PartiPrompts Arena – do zaprzestania aktualizacji.

Artificial Analysis Image Arena Leaderboard, który klasyfikuje obecnych liderów w generatywnej sztucznej inteligencji wizualnej. Źródło: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard
Chociaż istnieją alternatywne metody szkoleniowe oparte na historycznych danych preferencji ludzkich, ich skuteczność w ocenie przyszłych modeli pozostaje niepewna, ponieważ ludzkie preferencje ciągle ewoluują. W związku z tym automatyczne metryki, takie jak FID, CLIPScore i proponowana metryka cFreD autorów, wydają się nadal kluczowymi narzędziami oceny.
Autorzy zakładają, że zarówno rzeczywiste, jak i wygenerowane obrazy warunkowane na podpowiedzi podążają za rozkładem normalnym, każdy zdefiniowany przez warunkowe średnie i kowariancje. cFreD mierzy oczekiwaną odległość Fréchet między tymi warunkowymi rozkładami. Może to być sformułowane bezpośrednio w kategoriach statystyk warunkowych lub przez połączenie statystyk bezwarunkowych z kowariancją obejmującą podpowiedź.
Poprzez uwzględnienie podpowiedzi w ten sposób, cFreD jest w stanie ocenić zarówno realizm obrazów, jak i ich spójność z danym tekstem.
Dane i testy
Aby ocenić, jak dobrze cFreD koreluje z ludzkimi preferencjami, autorzy wykorzystali rankingi obrazów z wielu modeli zainspirowanych tymi samymi podpowiedziami. Ich ocena opierała się na dwóch źródłach: Human Preference Score v2 (HPDv2) zestaw testowy, który zawiera dziewięć wygenerowanych obrazów i jeden COCO obraz odniesienia na podpowiedź; oraz wspomnianą już PartiPrompts Arena, która zawiera dane wyjściowe z czterech modeli w 1600 podpowiedziach.
Autorzy zebrali rozproszone dane z Areny w jeden zestaw danych; w przypadkach, w których rzeczywisty obraz nie zajmował najwyższej pozycji w ocenach ludzkich, użyli najwyżej ocenianego obrazu jako odniesienia.
Aby przetestować nowsze modele, wybrali 1000 podpowiedzi z zestawów szkoleniowych i walidacyjnych COCO, zapewniając brak nakładania się z HPDv2, i wygenerowali obrazy przy użyciu dziewięciu modeli z Areny Leaderboard. Oryginalne obrazy COCO służyły jako odniesienia w tej części oceny.
Podejście cFreD zostało ocenione za pomocą czterech metryk statystycznych: FID; FDDINOv2; CLIPScore; i CMMD. Zostało również ocenione w porównaniu z czterema nauczonymi metrykami wytrenowanymi na danych preferencji ludzkich: Aesthetic Score; ImageReward; HPSv2; i MPS.
Autorzy ocenili korelację z ludzką oceną z perspektywy zarówno rankingowej, jak i oceny: dla każdej metryki raportowano wyniki modeli i obliczano rankingi ich zgodności z wynikami oceny ludzkiej, przy użyciu DINOv2-G/14 do osadzeń obrazów i OpenCLIP ConvNext-B Text Encoder do osadzeń tekstowych†.
Poprzednie prace nad uczeniem ludzkich preferencji mierzyły wydajność przy użyciu dokładności rangi na pozycję, która oblicza dokładność rangi dla każdej pary obraz-tekst przed uśrednieniem wyników.
Autorzy zamiast tego oceniali cFreD przy użyciu globalnej dokładności rangi, która ocenia ogólną wydajność rangi w całym zestawie danych; dla metryk statystycznych pochodzono rankingi bezpośrednio z surowych wyników; i dla metryk wytrenowanych na preferencjach ludzkich najpierw uśredniono rankingi przypisane do każdego modelu we wszystkich próbkach, a następnie określono ostateczny ranking z tych średnich.
Początkowe testy wykorzystywały dziesięć ram: GLIDE; COCO; FuseDream; DALLE 2; VQGAN+CLIP; CogView2; Stable Diffusion V1.4; VQ-Diffusion; Stable Diffusion V2.0; i LAFITE.

Rankingi modeli i wyniki w zestawie testowym HPDv2 przy użyciu metryk statystycznych (FID, FDDINOv2, CLIPScore, CMMD i cFreD) i metryk wytrenowanych na preferencjach ludzkich (Aesthetic Score, ImageReward, HPSv2 i MPS). Najlepsze wyniki są wyróżnione, następne najlepsze są podkreślone.
Z początkowych wyników autorzy komentują:
‘cFreD osiąga najwyższą zgodność z ludzkimi preferencjami, sięgając korelacji 0,97. Wśród metryk statystycznych cFreD osiąga najwyższą korelację i jest porównywalna z HPSv2 (0,94), modelem, który został wyraźnie wytrenowany na preferencjach ludzkich. Biorąc pod uwagę, że HPSv2 został wytrenowany na zestawie szkoleniowym HPSv2, który zawiera cztery modele z zestawu testowego, i zatrudnił tych samych anotatorów, on nieuchronnie zakodował określone ludzkie preferencje uprzedzeń tego samego ustawienia.
‘W przeciwieństwie do tego, cFreD osiąga porównywalną lub lepszą korelację z ludzką oceną bez żadnego szkolenia na preferencjach ludzkich.
‘Te wyniki pokazują, że cFreD zapewnia bardziej niezawodne rankingi wśród różnych modeli w porównaniu ze standardowymi automatycznymi metrykami i metrykami wytrenowanymi wyraźnie na danych preferencji ludzkich.’
Wśród wszystkich ocenianych metryk cFreD osiągnął najwyższą dokładność rangi (91,1%), co – zdaniem autorów – świadczy o silnej zgodności z ludzką oceną.
HPSv2 zajęło drugie miejsce z 88,9%, podczas gdy FID i FDDINOv2 osiągnęły konkurencyjne wyniki 86,7%. Chociaż metryki wytrenowane na preferencjach ludzkich generalnie dobrze korelowały z ludzką oceną, cFreD okazał się najbardziej solidnym i niezawodnym ogólnie.
Poniżej widzimy wyniki drugiej rundy testów, tym razem na PartiPrompts Arena, z użyciem SDXL; Kandinsky 2; Würstchen; i Karlo V1.0.

Rankingi modeli i wyniki w PartiPrompt przy użyciu metryk statystycznych (FID, FDDINOv2, CLIPScore, CMMD i cFreD) i metryk wytrenowanych na preferencjach ludzkich (Aesthetic Score, ImageReward i MPS). Najlepsze wyniki są wyróżnione, następne najlepsze są podkreślone.
Tutaj artykuł stwierdza:
‘Wśród metryk statystycznych cFreD osiąga najwyższą korelację z ludzką oceną (0,73), z FID i FDDINOv2, które osiągają korelację 0,70. W przeciwieństwie do tego, wynik CLIP pokazuje bardzo niską korelację (0,12) z ludzką oceną.
‘W kategorii wytrenowanych na preferencjach ludzkich HPSv2 ma najmocniejszą zgodność, osiągając najwyższą korelację (0,83), po której następuje ImageReward (0,81) i MPS (0,65). Te wyniki podkreślają, że chociaż cFreD jest solidną automatyczną metryką, HPSv2 wyróżnia się jako najbardziej skuteczny w uchwyceniu trendów oceny ludzkiej w PartiPrompts Arena.’
Wreszcie autorzy przeprowadzili ocenę na zestawie danych COCO, wykorzystując dziewięć nowoczesnych modeli tekstu do obrazu: FLUX.1[dev]; Playgroundv2.5; Janus Pro; i warianty Stable Diffusion SDv3.5-L Turbo, 3.5-L, 3-M, SDXL, 2.1 i 1.5.
Rankingi preferencji ludzkich pochodziły z Text-to-Image Leaderboard, a ELO score został podany:

Rankingi modeli na losowo wybranych podpowiedziach COCO przy użyciu automatycznych metryk (FID, FDDINOv2, CLIPScore, CMMD i cFreD) i metryk wytrenowanych na preferencjach ludzkich (Aesthetic Score, ImageReward, HPSv2 i MPS). Dokładność rangi poniżej 0,5 wskazuje więcej niezgodnych niż zgodnych par, a najlepsze wyniki są wyróżnione, następne najlepsze są podkreślone.
W odniesieniu do tej rundy badacze stwierdzają:
‘Wśród metryk statystycznych (FID, FDDINOv2, CLIP, CMMD i nasza proponowana cFreD) tylko cFreD wykazuje silną korelację z ludzkimi preferencjami, osiągając korelację 0,33 i nietrywialną dokładność rangi 66,67%. ‘To wynik umiejscawia cFreD jako trzecią najbardziej zgodną metrykę ogólnie, przewyższoną tylko przez metryki wytrenowane na preferencjach ludzkich ImageReward, HPSv2 i MPS.
‘Godne uwagi jest to, że wszystkie pozostałe metryki statystyczne wykazują znacznie słabszą zgodność z rankingami ELO i, w efekcie, odwróciły rankingi, co skutkuje dokładnością rangi poniżej 0,5.
‘Te wyniki podkreślają, że cFreD jest wrażliwy zarówno na wierną jakość wizualną, jak i na spójność podpowiedzi, potwierdzając jego wartość jako praktyczną, bezszkoleniową alternatywę dla benchmarkowania generacji obrazu z tekstu.’
Autorzy również przetestowali Inception V3 jako backbone, zwracając uwagę na jego powszechność w literaturze, i stwierdzili, że InceptionV3 działał rozsądnie, ale został przewyższony przez transformatorowe backbony, takie jak DINOv2-L/14 i ViT-L/16, które bardziej konsekwentnie korelowały z rankingami ludzkimi – i twierdzą, że to wspiera zastąpienie InceptionV3 w nowoczesnych ustawieniach oceny.

Stawki wygranych, które pokazują, jak często rankingi każdego backbone’u obrazu odpowiadają prawdziwym rankingom ludzkim w zestawie danych COCO.
Wnioski
Jasne jest, że chociaż rozwiązania z ludzkim udziałem są optymalnym podejściem do rozwoju metryk i funkcji straty, skala i częstotliwość niezbędnych aktualizacji tych schematów nadal sprawią, że będą niewykonalne – być może do czasu, gdy powszechny udział publiczny w ocenach będzie powszechnie zachęcany; lub, jak to miało miejsce w przypadku CAPTCH, wymuszony.
Wiarygodność nowego systemu autorów nadal zależy od jego zgodności z ludzką oceną, choć na jeden krok dalej niż wiele ostatnich podejść z udziałem ludzi; i legitymacja cFreD pozostaje nadal w danych preferencji ludzkich (oczywiście, ponieważ bez takiego punktu odniesienia twierdzenie, że cFreD odzwierciedla ocenę ludzką, byłoby nieudowodnione).
Można argumentować, że wpisanie naszych obecnych kryteriów “realizmu” w generowanym wyjściu do funkcji metryki może być błędem długoterminowym, ponieważ nasze pojęcie tego pojęcia jest obecnie atakowane przez nową falę generatywnych systemów AI i jest przeznaczone do częstych i znaczących rewizji.
* W tym momencie zwykle zawarłbym ilustracyjny przykład wideo, być może z niedawnego artykułu akademickiego; ale byłoby to okrutne – każdy, kto spędził więcej niż 10-15 minut przeglądając generowany przez AI wyjście z Arxiv, już natknął się na wideo o słabej jakości, co wskazuje, że powiązany artykuł nie zostanie uznany za przełomowy.
† Łącznie w eksperymentach wykorzystano 46 modeli backbone’u obrazu, z których nie wszystkie są uwzględnione w wynikach graficznych. Proszę odnieść się do załącznika artykułu, aby uzyskać pełną listę; te, które zostały wymienione w tabelach i figurach, zostały wymienione.
Po raz pierwszy opublikowano we wtorek, 1 kwietnia 2025


