Kąt Andersona
Nauczanie sztucznej inteligencji, jak udzielać lepszych recenzji wideo

Chociaż duże modele języka widzenia (LVLM) mogą być użytecznymi pomocnikami w interpretacji niektórych bardziej tajemniczych lub trudnych wniosków w literaturze dotyczącej widzenia komputerowego, istnieje jeden obszar, w którym są one ograniczone: określanie zalet i subiektywnej jakości dowolnego przykłady wideo które towarzyszą nowym artykułom*.
Jest to kluczowy aspekt zgłoszenia, ponieważ prace naukowe często mają na celu wzbudzenie zainteresowania za pomocą interesującego tekstu lub elementów wizualnych – lub obu tych elementów naraz.
Jednak w przypadku projektów obejmujących syntezę wideo autorzy muszą pokazać rzeczywisty wynik wideo, w przeciwnym razie ryzykują odrzuceniem swojej pracy. To właśnie podczas tego typu demonstracji najczęściej ujawnia się przepaść między śmiałymi deklaracjami a rzeczywistą wydajnością.
Przeczytałem książkę, nie widziałem filmu
Obecnie większość popularnych modeli LLM (Large Language Models) i LVLM (Large Vision-Language Models) opartych na interfejsie API nie zajmuje się bezpośrednią analizą treści wideo w jakikolwiek sposób, jakościowe lub inne. Zamiast tego mogą analizować tylko powiązane transkrypty – i być może wątki komentarzy i inne ściśle XNUMX-materiał uzupełniający.

Różnorodne zastrzeżenia GPT-4o, Google Gemini i Perplexity, gdy poproszono je o bezpośrednią analizę wideo, bez odwoływania się do transkrypcji lub innych źródeł tekstowych.
Jednakże LLM może ukrywać lub zaprzeczać swojej niezdolności do oglądania filmów, chyba że zwrócisz mu na to uwagę:

Poproszony o subiektywną ocenę filmów dołączonych do nowego artykułu badawczego i udając prawdziwą opinię, ChatGPT-4o w końcu przyznaje, że tak naprawdę nie potrafi bezpośrednio oglądać filmów.
Chociaż modele takie jak ChatGPT-4o są multimodalne i mogą przynajmniej analizować indywidualny zdjęcia (takie jak wyodrębniona klatka z filmu, patrz obraz powyżej), nawet w tym przypadku występują pewne problemy: po pierwsze, nie ma wystarczających podstaw, aby dać wiarę jakościowej opinii LLM, nie w ostatniej kolejności dlatego, że LLM są skłonny do „przyjemnej” rozmowy, a nie do szczerej dyskusji.
Po drugie, wiele, jeśli nie większość problemów związanych z generowanym filmem, prawdopodobnie mieć czasowy aspekt który zostaje całkowicie utracony podczas przechwytywania klatek – w związku z czym badanie poszczególnych klatek nie ma sensu.
Wreszcie, LLM może jedynie wydawać domniemany „sąd wartościujący” oparty (ponownie) na przyswojeniu wiedzy opartej na tekście, na przykład w odniesieniu do obrazów deepfake lub historii sztuki. W takim przypadku wyuczona wiedza dziedzinowa pozwala LLM na korelację analizowanych cech wizualnych obrazu z wyuczonymi osadzeniami na podstawie człowiek wgląd:

Projekt FakeVLM oferuje ukierunkowane wykrywanie deepfake'ów za pomocą specjalistycznego multimodalnego modelu wizyjno-językowego. Źródło: https://arxiv.org/pdf/2503.14905
Nie oznacza to, że LLM nie może uzyskać informacji bezpośrednio z filmu, np. przy użyciu pomocniczych systemów sztucznej inteligencji, takich jak YOLO, LLM może identyfikować obiekty na filmie – lub może to robić bezpośrednio, jeśli zostanie przeszkolony do liczba powyżej średniej funkcjonalności multimodalnych.
Ale jedynym sposobem, w jaki LLM może subiektywnie ocenić film (tj. „To nie wygląda dla mnie realnie”) odbywa się poprzez zastosowanie funkcja utraty- oparta na wskaźniku, który albo dobrze odzwierciedla opinię człowieka, albo jest bezpośrednio kształtowany przez opinię człowieka.
Funkcje straty to narzędzia matematyczne używane podczas treningu do pomiaru, jak daleko przewidywania modelu są od poprawnych odpowiedzi. Dostarczają informacji zwrotnych, które kierują uczeniem się modelu: im większy błąd, tym wyższy strataW miarę postępu treningu model dostosowuje swoje parametry, aby zmniejszyć tę stratę, stopniowo poprawiając swoją zdolność do dokonywania dokładnych przewidywań.
Funkcje straty służą zarówno do regulowania procesu uczenia modeli, jak i do kalibracji algorytmów, których zadaniem jest ocena wyników modeli sztucznej inteligencji (np. ocena symulowanej fotorealistycznej zawartości z generatywnego modelu wideo).
Wizja warunkowa
Jedną z najpopularniejszych funkcji metryk/strat jest Odległość początkowa Frécheta (FID), który ocenia jakość generowanych obrazów poprzez pomiar podobieństwa ich dystrybucji (co tutaj oznacza „jak obrazy są rozmieszczane lub grupowane według cech wizualnych) i rzeczywistych obrazów.
Dokładniej rzecz biorąc, FID oblicza różnicę statystyczną, używając średnich i kowariancje, między cechami wyodrębnionymi z obu zestawów obrazów przy użyciu (często krytykowany) Początek v3 sieć klasyfikacji. Niższy wynik FID wskazuje, że wygenerowane obrazy są bardziej podobne do obrazów rzeczywistych, co oznacza lepszą jakość wizualną i różnorodność.
Jednakże FID jest zasadniczo porównawczy i prawdopodobnie samoodniesieniowy w swej naturze. Aby temu zaradzić, późniejsza Warunkowa odległość Frécheta Podejście CFD (2021) różni się od FID, ponieważ porównuje wygenerowane obrazy z obrazami rzeczywistymi i ocenia wynik na podstawie tego, jak dobrze oba zestawy pasują do siebie. dodatkowy warunek, takie jak (nieuchronnie subiektywna) etykieta klasy lub obraz wejściowy.
W ten sposób CFID bierze pod uwagę dokładność, z jaką obrazy spełniają zamierzone warunki, a nie tylko ich ogólny realizm lub różnorodność.

Przykłady z wycieczki CFD 2021. SŹródło: https://github.com/Michael-Soloveitchik/CFID/
CFD podąża za najnowszym trendem wbudowywania jakościowej interpretacji ludzkiej w funkcje strat i algorytmy metryczne. Chociaż takie podejście skoncentrowane na człowieku gwarantuje, że powstały algorytm nie będzie „bezduszny” ani wyłącznie mechaniczny, to jednocześnie wiąże się z szeregiem problemów: możliwością wystąpienia błędów; obciążeniem związanym z aktualizacją algorytmu zgodnie z nowymi praktykami oraz faktem, że uniemożliwi to zachowanie spójnych standardów porównawczych w różnych projektach przez wiele lat; a także ograniczeniami budżetowymi (mniejsza liczba osób zaangażowanych w obliczenia sprawi, że ustalenia będą bardziej mylące, podczas gdy większa liczba mogłaby uniemożliwić wprowadzenie przydatnych aktualizacji ze względu na koszty).
cFreD
To prowadzi nas do nowy papier ze Stanów Zjednoczonych, które najwyraźniej oferują Warunkowa odległość Frécheta (cFreD), nowatorskie podejście do CFD, którego celem jest lepsze odzwierciedlenie ludzkich preferencji poprzez ocenę zarówno jakości wizualnej, jak i wyrównania tekstu do obrazu

Częściowe wyniki z nowego artykułu: rankingi obrazów (1–9) według różnych metryk dla monitu „Salon z kanapą i laptopem spoczywającym na kanapie”. Kolor zielony oznacza najlepiej oceniony przez człowieka model (FLUX.1-dev), kolor fioletowy najgorzej (SDv1.5). Tylko cFreD pasuje do rankingów ludzkich. Aby uzyskać pełne wyniki, zapoznaj się z artykułem źródłowym, na którego przytoczenie nie mamy miejsca. Źródło: https://arxiv.org/pdf/2503.21721
Autorzy twierdzą, że istniejące metody oceny syntezy tekstu na obraz, takie jak Wynik inicjacji (IS) i FID słabo odpowiadają osądowi człowieka, ponieważ mierzą wyłącznie jakość obrazu, nie biorąc pod uwagę, w jaki sposób obrazy odpowiadają ich wskazówkom:
'Na przykład rozważmy zbiór danych z dwoma obrazami: jednym psa i jednym kota, każdy sparowany z odpowiadającym mu monit. Idealny model tekst-obraz, który błędnie zamienia te mapowania (tj. generuje monit kota na psa i odwrotnie), osiągnąłby prawie zerowy FID, ponieważ ogólny rozkład kotów i psów jest zachowany, pomimo niezgodności z zamierzonymi monitami.
„Wykazujemy, że cFreD pozwala na lepszą ocenę jakości obrazu i warunkowanie tekstu wejściowego, co przekłada się na lepszą korelację z preferencjami człowieka”.

Testy przeprowadzone w ramach artykułu wskazują, że proponowana przez autorów metryka cFreD konsekwentnie osiąga wyższą korelację z preferencjami człowieka niż FID, FDDINOv2, CLIPScore i CMMD w przypadku trzech zbiorczych zestawów danych (PartiPrompts, HPDv2 i COCO).
Koncepcja i metoda
Autorzy zauważają, że obecny złoty standard oceny modeli tekst-obraz obejmuje gromadzenie danych o preferencjach człowieka poprzez porównania z udziałem społeczności, podobnie jak w przypadku metod stosowanych w przypadku dużych modeli językowych (takich jak Arena LMSys).
Na przykład, Arena PartiPrompts korzysta z 1,600 podpowiedzi w języku angielskim, prezentując uczestnikom pary obrazów pochodzących z różnych modeli i prosząc ich o wybranie preferowanego obrazu.
Podobnie, Tabela wyników w kategorii Tekst-do-obrazu wykorzystuje porównania użytkowników wyników modelu w celu generowania rankingów za pomocą wyników ELO. Jednak zbieranie tego typu danych dotyczących oceny człowieka jest kosztowne i powolne, co prowadzi niektóre platformy – takie jak PartiPrompts Arena – do całkowitego zaprzestania aktualizacji.

Ranking Artificial Analysis Image Arena, który przedstawia aktualnych liderów w dziedzinie generatywnej sztucznej inteligencji wizualnej. Źródło: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard
Chociaż istnieją alternatywne metody trenowane na historycznych danych o preferencjach człowieka, ich skuteczność w ocenie przyszłych modeli pozostaje niepewna, ponieważ preferencje człowieka nieustannie ewoluują. W związku z tym zautomatyzowane metryki, takie jak FID, Wynik CLIPScore, a zaproponowane przez autorów cFreD prawdopodobnie pozostaną kluczowymi narzędziami oceny.
Autorzy zakładają, że zarówno obrazy rzeczywiste, jak i generowane warunkowane są szybkim podążaniem za Rozkłady Gaussa, każdy zdefiniowany za pomocą średnich warunkowych i kowariancji. cFreD mierzy oczekiwaną odległość Frécheta pomiędzy monitami między tymi rozkładami warunkowymi. Można to sformułować albo bezpośrednio w kategoriach statystyki warunkowej, albo poprzez połączenie statystyki bezwarunkowej z kowariancjami krzyżowymi obejmującymi monit.
Dzięki takiemu podejściu cFreD jest w stanie ocenić zarówno realizm obrazów, jak i ich spójność z podanym tekstem.
Dane i testy
Aby ocenić, jak dobrze cFreD koreluje z ludzkimi preferencjami, autorzy wykorzystali rankingi obrazów z wielu modeli wywołanych tym samym tekstem. Ich ocena opierała się na dwóch źródłach: Wynik preferencji człowieka v2 Zestaw testowy (HPDv2), który obejmuje dziewięć wygenerowanych obrazów i jeden Orzech kokosowy prawdziwy obraz na każde polecenie oraz wspomniana wcześniej PartiPrompts Arena, która zawiera wyniki z czterech modeli na podstawie 1,600 poleceń.
Autorzy zebrali rozproszone punkty danych Areny w jeden zbiór danych; w przypadkach, gdy rzeczywisty obraz nie uzyskał najwyższej oceny w ocenach ludzi, jako punkt odniesienia wykorzystali obraz oceniony najwyżej.
Aby przetestować nowsze modele, pobrali 1,000 monitów z pociągu COCO i uprawomocnienie zestawy, zapewniając brak nakładania się z HPDv2, i wygenerowane obrazy przy użyciu dziewięciu modeli z Arena Leaderboard. Oryginalne obrazy COCO służyły jako odniesienia w tej części oceny.
Podejście cFreD oceniano za pomocą czterech metryk statystycznych: FID; FDDINov2; CLIPScore; i CMMDOceniono go również na podstawie czterech wyuczonych metryk, trenowanych na danych o preferencjach człowieka: Wynik estetyczny; Nagroda za wizerunek; HPSv2; i MPS.
Autorzy ocenili korelację z osądem ludzkim zarówno z perspektywy rankingu, jak i punktacji: dla każdej metryki podano wyniki modelu i obliczono rankingi w celu dopasowania ich do wyników oceny ludzkiej, przy czym cFreD używał DINOv2-G/14 do osadzania obrazów i OtwórzCLIP ConvNext-B Text Encoder przeznaczony do osadzania tekstu†.
Wcześniejsze prace nad poznawaniem ludzkich preferencji opierały się na pomiarze wydajności przy użyciu dokładności rankingu dla każdego elementu, która oblicza dokładność rankingu dla każdej pary obraz-tekst przed uśrednieniem wyników.
Autorzy zamiast tego ocenili cFreD przy użyciu światowy dokładność rankingu, która ocenia ogólną wydajność rankingu w całym zestawie danych; w przypadku metryk statystycznych, rankingi wyprowadzili bezpośrednio z surowych wyników; a w przypadku metryk wytrenowanych na preferencjach ludzkich, najpierw uśrednili rankingi przypisane do każdego modelu we wszystkich próbkach, a następnie określili ostateczny ranking na podstawie tych średnich.
W początkowych testach wykorzystano dziesięć struktur: POŚLIZG; KOKOS; Bezpiecznik; DALEJ 2; VQGAN+KLIP; Widok koła zębatego 2; Stabilna dyfuzja V1.4; Dyfuzja VQ; Stabilna dyfuzja V2.0; i LAFIT.

Rankingi i wyniki modelu w zestawie testowym HPDv2 przy użyciu metryk statystycznych (FID, FDDINOv2, CLIPScore, CMMD i cFreD) oraz metryk wytrenowanych na podstawie preferencji człowieka (Aesthetic Score, ImageReward, HPSv2 i MPS). Najlepsze wyniki są pogrubione, drugie najlepsze są podkreślone.
Autorzy tak komentują wstępne wyniki:
'cFreD osiąga najwyższe dopasowanie do ludzkich preferencji, osiągając korelację 0.97. Wśród metryk statystycznych, cFreD osiąga najwyższą korelację i jest porównywalny do HPSv2 (0.94), modelu wyraźnie trenowanego na ludzkich preferencjach. Biorąc pod uwagę, że HPSv2 został wytrenowany na zestawie treningowym HPSv2, który obejmuje cztery modele z zestawu testowego i wykorzystuje te same adnotatory, z natury koduje on określone ludzkie uprzedzenia preferencji tego samego ustawienia.
'Wręcz przeciwnie, cFreD osiąga porównywalną lub lepszą korelację z oceną człowieka bez żadnego szkolenia w zakresie preferencji człowieka.
„Wyniki te pokazują, że cFreD zapewnia bardziej wiarygodne rankingi w różnych modelach w porównaniu ze standardowymi automatycznymi metrykami i metrykami trenowanymi jawnie na danych dotyczących preferencji człowieka”.
Spośród wszystkich ocenianych wskaźników cFreD osiągnął najwyższą dokładność rankingu (91.1%), co – jak twierdzą autorzy – dowodzi silnej zgodności z osądami ludzkimi.
HPSv2 znalazł się na drugim miejscu z wynikiem 88.9%, natomiast FID i FDDINOv2 uzyskały konkurencyjne wyniki na poziomie 86.7%. Chociaż metryki trenowane na danych o preferencjach człowieka generalnie dobrze pokrywały się z ocenami ludzi, cFreD okazał się najbardziej niezawodny i niezawodny.
Poniżej widzimy wyniki drugiej rundy testów, tym razem na PartiPrompts Arena, przy użyciu SDXL; Kandyński 2; hot dogOraz Karlo V1.0.

Rankingi i wyniki modeli na PartiPrompt przy użyciu metryk statystycznych (FID, FDDINOv2, CLIPScore, CMMD i cFreD) oraz metryk wytrenowanych na podstawie preferencji człowieka (Aesthetic Score, ImageReward i MPS). Najlepsze wyniki są pogrubione, drugie najlepsze są podkreślone.
W artykule czytamy:
Wśród metryk statystycznych cFreD osiąga najwyższą korelację z ocenami ludzkimi (0.73), a FID i FDDINOv2 osiągają korelację na poziomie 0.70. Natomiast wynik CLIP wykazuje bardzo niską korelację (0.12) z osądami ludzkimi.
„W kategorii wytrenowanych preferencji ludzkich, HPSv2 wykazuje najsilniejsze dopasowanie, osiągając najwyższą korelację (0.83), a następnie ImageReward (0.81) i MPS (0.65). Wyniki te podkreślają, że chociaż cFreD jest solidną metryką automatyczną, HPSv2 wyróżnia się jako najskuteczniejszy w rejestrowaniu trendów w ocenie ludzi w PartiPrompts Arena”.
Na koniec autorzy przeprowadzili ocenę zbioru danych COCO, wykorzystując dziewięć nowoczesnych modeli zamiany tekstu na obraz: FLUX.1[rozw.]; Plac zabawv2.5; Janus Pro; oraz warianty Stable Diffusion SDv3.5-L Turbo, 3.5-L, 3-M, SDXL, 2.1 i 1.5.
Rankingi preferencji ludzkich pochodzą z tabeli wyników konwersji tekstu na obraz i podane są w postaci punktów ELO:

Rankingi modeli na losowo wybranych monitach COCO przy użyciu automatycznych metryk (FID, FDDINOv2, CLIPScore, CMMD i cFreD) oraz metryk wytrenowanych na podstawie preferencji człowieka (Aesthetic Score, ImageReward, HPSv2 i MPS). Dokładność rankingu poniżej 0.5 wskazuje na więcej par niezgodnych niż zgodnych, a najlepsze wyniki są pogrubione, drugie najlepsze są podkreślone.
W odniesieniu do tej rundy badacze stwierdzają:
'Wśród metryk statystycznych (FID, FDDINOv2, CLIP, CMMD i naszego proponowanego cFreD) tylko cFreD wykazuje silną korelację z preferencjami człowieka, osiągając korelację na poziomie 0.33 i nietrywialną dokładność rankingu na poziomie 66.67%. 'Ten wynik plasuje cFreD jako trzecią najbardziej zgodną metrykę w sumie, ustępując jedynie metrykom wytrenowanym na podstawie preferencji człowieka: ImageReward, HPSv2 i MPS.
'Co godne uwagi, wszystkie inne wskaźniki statystyczne wykazują znacznie słabsze dopasowanie do rankingów ELO i w rezultacie odwróciły rankingi, co dało Rank Acc. Poniżej 0.5.
„Wyniki te wskazują, że cFreD jest wrażliwy zarówno na wierność wizualną, jak i spójność, co potwierdza jego wartość jako praktycznej, niewymagającej szkolenia alternatywy do analizy porównawczej generowania tekstu na obraz”.
Autorzy przetestowali również Inception V3 jako szkielet, zwracając uwagę na jego wszechobecność w literaturze, i odkryli, że InceptionV3 działało rozsądnie, ale było gorsze od szkieletów opartych na transformatorach, takich jak DINOv2-L/14 i ViT-L/16, które bardziej konsekwentnie odpowiadały rankingom ludzkim. Twierdzą, że przemawia to za zastąpieniem InceptionV3 w nowoczesnych konfiguracjach ewaluacyjnych.

Współczynniki wygranych pokazujące, jak często rankingi poszczególnych szkieletów obrazów pokrywały się z rzeczywistymi rankingami ustalonymi przez człowieka w zestawie danych COCO.
Podsumowanie
Oczywiste jest, że chociaż rozwiązania z udziałem człowieka stanowią optymalne podejście do rozwoju funkcji metrycznych i strat, skala i częstotliwość aktualizacji niezbędnych w takich schematach nadal będą sprawiać, że będą one niepraktyczne – być może do czasu, gdy powszechny udział społeczeństwa w ocenach zostanie ogólnie zmotywowany; lub, jak to miało miejsce tak było w przypadku CAPTCHA, wyegzekwowane.
Wiarygodność nowego systemu autorów nadal zależy od jego zgodności z osądem ludzkim, choć w większym stopniu niż w przypadku wielu niedawnych podejść z udziałem człowieka. W związku z tym zasadność systemu cFreD nadal opiera się na danych dotyczących preferencji człowieka (oczywiście, bez takiego punktu odniesienia twierdzenie, że system cFreD odzwierciedla ocenę podobną do ludzkiej, byłoby niemożliwe do udowodnienia).
Można by rzec, że utrwalenie naszych obecnych kryteriów „realizmu” w wynikach generatywnych w formie funkcji metrycznej mogłoby okazać się błędem w dłuższej perspektywie, ponieważ nasza definicja tej koncepcji jest obecnie atakowana przez nową falę generatywnych systemów sztucznej inteligencji i będzie podlegać częstym i znaczącym zmianom.
* W tym miejscu zazwyczaj zamieściłbym przykładowy materiał wideo, na przykład pochodzący z niedawnego artykułu naukowego, ale byłoby to małostkowe – każdy, kto poświęcił więcej niż 10–15 minut na przeglądanie wyników Arxiv dotyczących generatywnej sztucznej inteligencji, natknął się już na dodatkowe materiały wideo, których subiektywnie niska jakość wskazuje na to, że powiązany z nim materiał nie zostanie uznany za przełomowy.
† W eksperymentach wykorzystano łącznie 46 modeli szkieletu obrazu, z których nie wszystkie uwzględniono w wynikach przedstawionych na wykresach. Pełną listę modeli można znaleźć w załączniku do artykułu; te przedstawione w tabelach i na rysunkach zostały wymienione.
Pierwsze opublikowanie wtorek, 1 kwietnia 2025 r.