Connect with us

Andersonův úhel

Učení AI poskytovat lepší video kritiky

mm
Image of a robot with popcorn in a cinema, ChatGPt-4+ and Adobe Firefly.

Zatímco velké vize-jazykové modely (LVLMs) mohou být užitečnými pomocníky při interpretaci některých více arcana nebo náročných příspěvků v počítačovém vidění literatury, je zde jedna oblast, kde jsou omezeny: určování zásluh a subjektivních kvalit libovolných příkladech videa, které doprovázejí nové články*.

Tento kritický aspekt příspěvku je důležitý, protože vědecké články často mají za cíl generovat nadšení prostřednictvím přesvědčivého textu nebo vizuálů – nebo obou.

Ale v případě projektů, které zahrnují video syntézu, autoři musí ukázat skutečný video výstup nebo riskují, že jejich práce bude odmítnuta; a je v těchto demonstracích, že se mezera mezi smělémi nároky a skutečným výkonem nejčastěji stává zjevnou.

Četl jsem knihu, neviděl jsem film

V současné době většina populárních API-založených velkých jazykových modelů (LLM) a velkých vize-jazykových modelů (LVLMs) se nezabývá přímo analýzou video obsahu žádným způsobem, kvalitativním nebo jinak. Místo toho mohou analyzovat pouze související přepisy – a perhaps, komentářové vlákna a další striktně text-založené pomocné materiály.

Různé námitky GPT-4o, Google Gemini a Perplexity, když byli požádáni o přímou analýzu videa, bez použití přepisů nebo jiných text-založených zdrojů.

Různé námitky GPT-4o, Google Gemini a Perplexity, když byli požádáni o přímou analýzu videa, bez použití přepisů nebo jiných text-založených zdrojů.

Nicméně, LLM může skrýt nebo popřít svou neschopnost skutečně sledovat videa, pokud je na to přímo upozorněn:

Požádán o poskytnutí subjektivního hodnocení nového výzkumného článku spojených videí a po fingování skutečného názoru, ChatGPT-4o nakonec přiznává, že nemůže skutečně sledovat videa přímo.

Požádán o poskytnutí subjektivního hodnocení nového výzkumného článku spojených videí a po fingování skutečného názoru, ChatGPT-4o nakonec přiznává, že nemůže skutečně sledovat videa přímo.

Ačkoli modely, jako je ChatGPT-4o, jsou multimodální a mohou alespoň analyzovat jednotlivé fotografie (jako extrahovaná snímka z videa, viz obrázek výše), existují některé problémy i s tím: poprvé, je málo základů pro přiznání důvěryhodnosti LLM kvalitativnímu názoru, nejméně proto, že LLM jsou náchylné k “lidem-oblíbeným” spíše než upřímné diskusi.

Druhým je, že mnoho, pokud ne většina generovaných videí, má časový aspekt, který je zcela ztracen v snímku – a tak zkoumání jednotlivých snímků slouží žádnému účelu.

Nakonec, LLM může poskytnout pouze domnělý “hodnotový soud” založený (opět) na absorbovaných text-založených znalostech, například v případě deepfake obrazů nebo umělecké historie. V takovém případě umožňuje trénovaná doménová znalost LLM korelovat analyzované vizuální kvality obrazu s naučenými vloženými založenými na lidském vhledu:

Projekt FakeVLM nabízí cílenou detekci deepfake prostřednictvím specializovaného multi-modálního vize-jazykového modelu. Zdroj: https://arxiv.org/pdf/2503.14905

Projekt FakeVLM nabízí cílenou detekci deepfake prostřednictvím specializovaného multi-modálního vize-jazykového modelu. Zdroj: https://arxiv.org/pdf/2503.14905

To není říci, že LLM nemůže získat informace přímo z videa; například, s použitím pomocných AI systémů, jako je YOLO, LLM by mohl identifikovat objekty ve videu – nebo by mohl udělat to přímo, pokud byl trénován pro nadprůměrný počet multimodálních funkcí.

Ale jediným způsobem, jak by LLM mohl subjektivně vyhodnotit video (tj. “To nevypadá reálně pro mě”), je aplikováním loss funkce-založené metriky, která je buď známa jako odrážející lidský názor, nebo je přímo informována lidským názorem.

Loss funkce jsou matematické nástroje používané během trénování k měření, jak daleko jsou předpovědi modelu od správných odpovědí. Poskytují zpětnou vazbu, která řídí učení modelu: čím větší chyba, tím vyšší loss. Jak trénování postupuje, model upravuje své parametry, aby snížil tuto ztrátu, postupně zlepšuje svou schopnost dělat přesné předpovědi.

Loss funkce se používají jak pro regulaci trénování modelů, tak pro kalibraci algoritmů, které jsou navrženy pro hodnocení výstupu AI modelů (jako je hodnocení simulovaných fotorealistických obsahů z generativního video modelu).

Podmíněné vize

Jedním z nejpopulárnějších metrik/loss funkcí je Fréchet Inception Distance (FID), který hodnotí kvalitu generovaných obrazů měřením podobnosti mezi jejich distribucí (která zde znamená ‘jak jsou obrazy rozloženy nebo seskupeny podle vizuálních funkcí‘) a distribucí skutečných obrazů.

Konkrétně, FID počítá statistický rozdíl, pomocí průměrů a kovariancí, mezi funkcemi extrahovanými z obou sad obrazů pomocí (často kritizovaného) Inception v3 klasifikačního sítě. Nižší skóre FID označuje, že generované obrazy jsou podobnější skutečným obrazům, což naznačuje lepší vizuální kvalitu a rozmanitost.

Nicméně, FID je esenciálně komparativní a lze jej považovat za sebe-referenční. Aby se toto napravilo, pozdější Conditional Fréchet Distance (CFD, 2021) přístup se liší od FID tím, že porovnává generované obrazy se skutečnými obrazy a hodnotí skóre založené na tom, jak dobře obě sady odpovídají dodatečnému podmínkám, jako je (inevitably subjektivní) třída štítku nebo vstupní obraz.

Příklady z CFD z roku 2021. Zdroj: https://github.com/Michael-Soloveitchik/CFID/

Příklady z CFD z roku 2021. Zdroj: https://github.com/Michael-Soloveitchik/CFID/

CFD následuje nedávný trend směrem k zapojení kvalitativního lidského výkladu do loss funkcí a metrik algoritmů. Ačkoli takový lidský přístup zajišťuje, že výsledný algoritmus nebude “bezduchý” nebo mechanický, představuje současně řadu problémů: možnost zkreslení; břemeno aktualizace algoritmu v souladu s novými postupy a skutečnost, že toto odstraní možnost konzistentních srovnávacích standardů po dobu let napříč projekty; a rozpočtová omezení (méně lidských přispěvatelů by mohlo učinit rozhodnutí více spekulativními, zatímco vyšší počet by mohl zabránit užitečným aktualizacím kvůli nákladům).

cFreD

To nás přivádí k novému článku z USA, který nabízí Conditional Fréchet Distance (cFreD), novou verzi CFD, která je navržena tak, aby lépe odrážela lidské preference, hodnotící jak vizuální kvalitu, tak text-obrázek zarovnání

Částečné výsledky z nového článku: hodnocení obrazů (1–9) podle různých metrik pro prompt

Částečné výsledky z nového článku: hodnocení obrazů (1–9) podle různých metrik pro prompt “Obývací pokoj s gaučem a laptopem ležícím na gauči.” Zelené zvýraznění označuje nejlepší model ohodnocený lidmi (FLUX.1-dev), fialové označuje nejhorší (SDv1.5). Pouze cFreD odpovídá lidskému hodnocení. Prosím, odkážete se na zdroj článku pro kompletní výsledky, které zde nemáme prostor reprodukovat. Zdroj: https://arxiv.org/pdf/2503.21721

Autoři argumentují, že stávající metody hodnocení pro text-obrázek syntézu, jako je Inception Score (IS) a FID, špatně odpovídají lidskému soudu, protože měří pouze kvalitu obrazu bez zohlednění, jak obrazy odpovídají svým promptům:

‘Například, zvažte dataset s dvěma obrazy: jedním psa a jedním kočky, každý spárován se svým odpovídajícím promptem. Dokonalý text-obrázek model, který chybně zamění tyto mapování (tj. generuje kočku pro prompt psa a naopak), by dosáhl téměř nulového FID, protože celková distribuce psů a koček je udržena, navzdory nesouladu s úmyslnými prompty.

‘Ukázali jsme, že cFreD zachycuje lepší hodnocení kvality obrazu a zarovnání na vstupní text a vede k lepšímu souladu s lidskými preferencemi.’

Článek ukazuje, že navrhovaná metrika cFreD dosahuje konzistentně vyšší soulad s lidskými preferencemi než FID, FDDINOv2, CLIPScore a CMMD na třech benchmarkových datech (PartiPrompts, HPDv2 a COCO).

Článek ukazuje, že navrhovaná metrika cFreD dosahuje konzistentně vyšší soulad s lidskými preferencemi než FID, FDDINOv2, CLIPScore a CMMD na třech benchmarkových datech (PartiPrompts, HPDv2 a COCO).

Koncept a metoda

Autoři uvádějí, že současný zlatý standard pro hodnocení text-obrázkových modelů zahrnuje shromažďování lidských preferenčních dat prostřednictvím crowd-sourced srovnání, podobných metodám používaným pro velké jazykové modely (jako je LMSys Arena).

Například PartiPrompts Arena používá 1 600 anglických promptů, prezentuje účastníkům páry obrazů z různých modelů a žádá je, aby vybrali svůj preferovaný obraz.

Podobně Text-to-Image Arena Leaderboard používá uživatelská srovnání modelových výstupů pro generování žebříčků prostřednictvím ELO skóre. Nicméně, shromažďování tohoto typu lidského hodnocení dat je nákladné a pomalé, což vedlo některé platformy – jako PartiPrompts Arena – k ukončení aktualizací úplně.

Artificial Analysis Image Arena Leaderboard, který řadí současné lídry v generativní vizuální AI. Zdroj: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard

Artificial Analysis Image Arena Leaderboard, který řadí současné lídry v generativní vizuální AI. Zdroj: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard

Ačkoli existují alternativní metody trénované na historických lidských preferenčních datech, jejich účinnost pro hodnocení budoucích modelů zůstává nejistá, protože lidské preference neustále evoluují. V důsledku toho se automatické metriky, jako je FID, CLIPScore a navrhovaná cFreD, zdají se být důležité pro hodnocení.

Autoři předpokládají, že jak reálné, tak generované obrazy podmíněné promptem následují Gaussovy distribuce, každá definovaná podmíněnými průměry a kovariancemi. cFreD měří očekávanou Fréchet vzdálenost napříč promptem mezi těmito podmíněnými distribucemi. To lze formulovat buď přímo v termínech podmíněných statistik, nebo kombinací nezávislých statistik s křížovými kovariancemi zahrnujícími prompt.

Tímto způsobem je cFreD schopen hodnotit jak realističnost obrazů, tak jejich soulad s daným textem.

Data a testy

Aby autoři vyhodnotili, jak dobře cFreD odpovídá lidským preferencím, použili hodnocení obrazů z více modelů vyvolaných stejným textem. Jejich hodnocení vycházelo ze dvou zdrojů: Human Preference Score v2 (HPDv2) testovací sada, která zahrnuje devět generovaných obrazů a jeden COCO ground truth obraz na prompt; a výše zmíněná PartiPrompts Arena, která obsahuje výstupy ze čtyř modelů napříč 1 600 prompty.

Autoři shromáždili rozptýlená data z Areny do jediné datové sady; v případech, kdy reálný obraz nezaujal nejvyšší hodnocení v lidských hodnoceních, použili nejlepší ohodnocený obraz jako referenci.

Aby otestovali novější modely, vzorkovali 1 000 promptů z COCO trénovací a validační sady, zajišťují, že nejsou žádné překryvy s HPDv2, a generovali obrazy pomocí devíti modelů z Arena Leaderboard. Původní COCO obrazy sloužily jako referenční v této části hodnocení.

Přístup cFreD byl vyhodnocen prostřednictvím čtyř statistických metrik: FID; FDDINOv2; CLIPScore; a CMMD. Bylo také vyhodnoceno proti čtyřem naučeným metrikám trénovaným na lidských preferenčních datech: Aesthetic Score; ImageReward; HPSv2; a MPS.

Autoři vyhodnotili korelaci s lidským soudem z obou hodnocení a žebříčkového hlediska: pro každou metriku byly hlášeny modelové skóre a žebříčky vypočteny pro jejich soulad s lidskými hodnoceními, s cFreD používajícím DINOv2-G/14 pro obrazové vložené a OpenCLIP ConvNext-B Text Encoder pro textové vložené†.

Předchozí práce o učení lidských preferencí měřila výkon pomocí per-item rank accuracy, který počítá žebříčkovou přesnost pro každou obraz-text pár před průměrováním výsledků.

Autoři místo toho vyhodnotili cFreD pomocí globálního rank accuracy, který hodnotí celkový žebříčkový výkon napříč celou datovou sadou; pro statistické metriky odvodily žebříčky přímo ze surových skóre; a pro metriky trénované na lidských preferencích nejprve průměrovaly žebříčky přiřazené každému modelu napříč všemi vzorky, a poté určily konečný žebříček z těchto průměrů.

Původní testy použily deset rámců: GLIDE; COCO; FuseDream; DALLE 2; VQGAN+CLIP; CogView2; Stable Diffusion V1.4; VQ-Diffusion; Stable Diffusion V2.0; a LAFITE.

Modelové žebříčky a skóre na HPDv2 testovací sadě pomocí statistických metrik (FID, FDDINOv2, CLIPScore, CMMD a cFreD) a lidských preferenčních metrik (Aesthetic Score, ImageReward, HPSv2 a MPS). Nejlepší výsledky jsou v tučném písmu, druhý nejlepší jsou podtrženy.

Modelové žebříčky a skóre na HPDv2 testovací sadě pomocí statistických metrik (FID, FDDINOv2, CLIPScore, CMMD a cFreD) a lidských preferenčních metrik (Aesthetic Score, ImageReward, HPSv2 a MPS). Nejlepší výsledky jsou v tučném písmu, druhý nejlepší jsou podtrženy.

Z původních výsledků autoři komentují:

‘cFreD dosahuje nejvyšší soulad s lidskými preferencemi, dosahující korelace 0,97. Mezi statistickými metrikami cFreD dosahuje nejvyšší korelace a je srovnatelný s HPSv2 (0,94), modelem, který byl explicitně trénován na lidských preferencích.

‘V kontrastu, cFreD dosahuje srovnatelné nebo lepší korelace s lidským soudem bez jakéhokoli lidského preferenčního tréninku.

‘Tyto výsledky ukazují, že cFreD poskytuje spolehlivější žebříčky napříč různými modely ve srovnání se standardními automatickými metrikami a metrikami trénovanými explicitně na lidských preferenčních datech.’

Mezi všemi vyhodnocenými metrikami cFreD dosáhl nejvyšší rank accuracy (91,1 %), což – podle autorů – demonstruje silný soulad s lidskými soudy.

HPSv2 následoval s 88,9 %, zatímco FID a FDDINOv2 produkovaly konkurenční skóre 86,7 %. Ačkoli metriky trénované na lidských preferencích obecně odpovídaly lidským hodnoceníům, cFreD se ukázal jako nejrobustnější a nejspolehlivější celkově.

Níže vidíme výsledky druhého kola testování, tentokrát na PartiPrompts Arena, pomocí SDXL; Kandinsky 2; Würstchen; a Karlo V1.0.

Modelové žebříčky a skóre na PartiPrompt pomocí statistických metrik (FID, FDDINOv2, CLIPScore, CMMD a cFreD) a lidských preferenčních metrik (Aesthetic Score, ImageReward a MPS). Nejlepší výsledky jsou v tučném písmu, druhý nejlepší jsou podtrženy.

Modelové žebříčky a skóre na PartiPrompt pomocí statistických metrik (FID, FDDINOv2, CLIPScore, CMMD a cFreD) a lidských preferenčních metrik (Aesthetic Score, ImageReward a MPS). Nejlepší výsledky jsou v tučném písmu, druhý nejlepší jsou podtrženy.

Zde článek uvádí:

‘Mezi statistickými metrikami cFreD dosahuje nejvyšší korelace s lidskými hodnoceními (0,73), zatímco FID a FDDINOv2 dosahují korelace 0,70. V kontrastu, CLIP skóre ukazuje velmi nízkou korelaci (0,12) s lidskými soudy.

‘V kategorii lidských preferenčních metrik HPSv2 dosahuje nejvyšší soulad, dosahující korelace 0,83, následovaný ImageReward (0,81) a MPS (0,65). Tyto výsledky zdůrazňují, že zatímco cFreD je robustní automatickou metrikou, HPSv2 vyniká jako nejúčinnější v zachycení trendů lidských hodnocení v PartiPrompts Arena.’

Nakonec autoři provedli vyhodnocení na COCO datové sadě pomocí devíti moderních text-obrázek modelů: FLUX.1[dev]; Playgroundv2.5; Janus Pro; a Stable Diffusion varianty SDv3.5-L Turbo, 3.5-L, 3-M, SDXL, 2.1 a 1.5.

Lidská hodnocení žebříčků byla získána z Text-to-Image Leaderboard, a byla dána jako ELO skóre:

Modelové žebříčky na náhodně vybraných COCO promptech pomocí automatických metrik (FID, FDDINOv2, CLIPScore, CMMD a cFreD) a lidských preferenčních metrik (Aesthetic Score, ImageReward, HPSv2 a MPS). Žebříčková přesnost pod 0,5 označuje více nesouladných než souladných párů, a nejlepší výsledky jsou v tučném písmu, druhý nejlepší jsou podtrženy.

Modelové žebříčky na náhodně vybraných COCO promptech pomocí automatických metrik (FID, FDDINOv2, CLIPScore, CMMD a cFreD) a lidských preferenčních metrik (Aesthetic Score, ImageReward, HPSv2 a MPS). Žebříčková přesnost pod 0,5 označuje více nesouladných než souladných párů, a nejlepší výsledky jsou v tučném písmu, druhý nejlepší jsou podtrženy.

Ohledně tohoto kola výzkumníci uvádějí:

‘Mezi statistickými metrikami (FID, FDDINOv2, CLIP, CMMD a naše navrhovaná cFreD) pouze cFreD vykazuje silnou korelaci s lidskými preferencemi, dosahující korelace 0,33 a nezanedbatelnou rank přesnost 66,67 %. ‘Tento výsledek řadí cFreD jako třetí nejvíce souladnou metriku celkově, překonanou pouze lidskými preferenčními metrikami ImageReward, HPSv2 a MPS.

‘Zejména, všechny ostatní statistické metriky vykazují podstatně slabší soulad s ELO žebříčky a, jako výsledek, invertují žebříčky, vedoucí k Rank Acc. Pod 0,5.

‘Tyto výsledky zdůrazňují, že cFreD je citlivý na vizuální věrnost a prompt konzistenci, posiluje jeho hodnotu jako praktickou, tréninkovou alternativu pro benchmarking text-obrázkové generace.’

Autoři také testovali Inception V3 jako backbone, upozorňující na jeho všudypřítomnost v literatuře, a zjistili, že InceptionV3 vykonal rozumně, ale byl překonán transformátorovými backbony, jako je DINOv2-L/14 a ViT-L/16, které více konzistentně odpovídaly lidským žebříčkům – a tvrdí, že to podporuje nahrazení InceptionV3 v moderních hodnoceních.

Vítězné sazby ukazující, jak často žebříčky každé image backbone odpovídaly skutečným lidským žebříčkům na COCO datové sadě.

Vítězné sazby ukazující, jak často žebříčky každé image backbone odpovídaly skutečným lidským žebříčkům na COCO datové sadě.

Závěr

Je zřejmé, že zatímco lidské-in-the-loop řešení jsou optimální přístup k vývoji metrik a loss funkcí, rozsah a frekvence aktualizací nezbytných pro tato schémata budou pokračovat v tom, aby je činily nepraktickými – možná až do té doby, než bude obecně incentivizována široká veřejná účast v hodnoceních; nebo, jako je tomu u CAPTCHAs, vynucena.

Důvěryhodnost autorů nového systému stále závisí na jeho souladu s lidským soudem, byť o jeden stupeň více než mnoho nedávných lidských účastnických přístupů; a legitimita cFreD zůstává stále v lidských preferenčních datech (zjevně, protože bez takové referenční hodnoty by bylo tvrzení, že cFreD odráží lidské hodnocení, neprokazatelné).

Argumentovatelně, zanesení našich současných kritérií pro “realismus” do generativního výstupu do metrické funkce by mohlo být chybou v dlouhodobém horizontu, protože naše definice tohoto konceptu je目前 pod útokem z nové vlny generativních AI systémů a je připravena na časté a významné revize.

 

* V tomto okamžiku bych normálně zahrnul ilustrativní video příklad, možná z nedávného akademického příspěvku; ale to by bylo zlomyslné – kdokoli, kdo strávil více než 10-15 minut procházením Arxivova generativního AI výstupu, již narazil na doplňková videa, jejichž subjektivně špatná kvalita naznačuje, že související příspěvek nebude oslavován jako milník článku.

Celkem 46 image backbone modelů bylo použito v experimentech, z nichž ne všechny jsou zvažovány v grafovaných výsledcích. Prosím, odkážete se na článekův appendix pro úplný seznam; ty, které jsou uvedeny v tabulkách a obrázcích, jsou zde uvedeny.

 

Poprvé publikováno úterý, 1. dubna 2025

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai