Andersons vinkel

Undervisning av AI til å gi bedre video-kritikk

Published April 1, 2025

Updated April 3, 2026

Martin Anderson

Image of a robot with popcorn in a cinema, ChatGPt-4+ and Adobe Firefly.

Mens store visuelt-språklige modeller (LVLMs) kan være nyttige hjelpemidler i tolkningen av noen av de mer arcane eller utfordrende innleveringene i datavisjonslitteraturen, er det ett område der de er begrenset: å bestemme fortjenestene og den subjektive kvaliteten på noen videoeksempler som følger med nye artikler*.

Dette er et kritisk aspekt av en innlevering, siden vitenskapelige artikler ofte har som mål å generere begeistring gjennom overbevisende tekst eller visuelle elementer – eller begge deler.

Men i tilfeller der prosjekter involverer video-syntese, må forfatterne vise faktisk video-utdata eller risikere å få arbeidet forkastet; og det er i disse demonstrasjonene at gapet mellom dristige krav og virkelige resultater oftest blir åpenbart.

Jeg leste boken, så ikke filmen

For tiden vil de fleste populære API-baserte store språkmodeller (LLM) og store visuelt-språklige modeller (LVLMs) ikke engasjere seg i direkte analyse av video-innhold på noen måte, kvalitativ eller annen. I stedet kan de bare analysere relaterte transkripter – og kanskje kommentar-tråder og andre strengt tekst-baserte hjelpemidler.

De ulike innvendingene til GPT-4o, Google Gemini og Perplexity, når de ble bedt om å direkte analysere video, uten å bruke transkripter eller andre tekst-baserte kilder.

Men en LLM kan skjule eller nekte sin evne til å faktisk se videoer, med mindre du konfronterer dem med det:

Etter å ha blitt bedt om å gi en subjektiv vurdering av en ny forskningsartikkel assosierte videoer, og etter å ha forfalsket en virkelig mening, innrømmer ChatGPT-4o til slutt at det ikke kan se videoer direkte.

Til tross for at modeller som ChatGPT-4o er multimodale, og kan analysere enkelte bilder (slik som et uttrukket bilde fra en video, se bildet over), er det noen problemer også med dette: først og fremst er det liten grunn til å gi troverdighet til en LLMs kvalitative mening, ikke minst fordi LLMs er prone til ‘people-pleasing’ rather enn ærlig diskurs.

For det andre er mange, hvis ikke de fleste av en generert videos problemer sannsynligvis å ha en temporal aspekt som er helt tapt i en ramme-grab – og så er undersøkelsen av enkelt-rammer uten mening.

Til slutt kan LLM bare gi en påstått ‘verdi-dømming’ basert (igjen) på å ha absorbert tekst-basert kunnskap, for eksempel i forhold til deepfake-bilder eller kunsthistorie. I et slikt tilfelle tillater trent domene-kunnskap LLM å korrelere analyserte visuelle kvaliteter av et bilde med lærte innlegg basert på menneskelig innsikt:

FakeVLM-prosjektet tilbyr målrettede deepfake-oppdaging via en spesialisert multi-modal visuelt-språklig modell. Kilde: https://arxiv.org/pdf/2503.14905

Dette er ikke å si at en LLM ikke kan få informasjon direkte fra en video; for eksempel, med bruk av hjelpemidler som YOLO, kunne en LLM identifisere objekter i en video – eller kunne gjøre dette direkte, hvis den var trent for en over-gjennomsnittlig mengde multimodale funksjoner.

Men den eneste måten en LLM kunne muligens evaluere en video subjektivt (dvs. ‘Det ser ikke ut til å være ekte for meg’) er gjennom å bruke en tap-funksjon-basert metrikk som enten er kjent for å reflektere menneskelig mening godt, eller som er direkte informert av menneskelig mening.

Tap-funksjoner er matematiske verktøy som brukes under trening til å måle hvor langt en modells prediksjoner er fra de riktige svarene. De gir tilbakemelding som guider modellens læring: jo større feil, jo høyere tap. Etter hvert som treningen skjer, justerer modellen sine parametre for å redusere dette tapet, og forbedrer gradvis sin evne til å gi nøyaktige prediksjoner.

Tap-funksjoner brukes både til å regulere treningen av modeller, og også til å kalibrere algoritmer som er designet til å vurdere utgangen av AI-modeller (slik som evaluering av simulerende fotorealistiske innhold fra en generativ video-modell).

Betinget visjon

En av de mest populære metrikkene/tap-funksjonene er Fréchet Inception Distance (FID), som vurderer kvaliteten på genererte bilder ved å måle likheten mellom deres distribusjon (hvilket her betyr ‘hvordan bilder er spredt ut eller gruppert etter visuelle egenskaper’) og den av virkelige bilder.

Spesifikt beregner FID den statistiske forskjellen, ved hjelp av midler og kovarianser, mellom egenskaper trukket fra både sett av bilder ved hjelp av (ofte kritisert) Inception v3-klassifiseringsnettverket. En lavere FID-poengsum indikerer at de genererte bildene er mer lik virkelige bilder, og antyder bedre visuell kvalitet og mangfold.

Men FID er i seg selv komparativ, og kan argumenteres for å være selv-referensiell i naturen. For å rette opp dette, er den senere Conditional Fréchet Distance (CFD, 2021)-tilnærmingen forskjellig fra FID ved å sammenligne genererte bilder med virkelige bilder, og vurderer en poengsum basert på hvor godt begge sett møter en ekstra betingelse, som en (uunngåelig subjektiv) klasse-etikett eller inngangs-bilde.

På denne måten tar CFD med i hvor nøyaktig bilder møter de ønskede betingelsene, ikke bare deres overordnede realisme eller mangfold blant seg selv.

Eksempler fra CFD-utgivelsen i 2021. Kilde: https://github.com/Michael-Soloveitchik/CFID/

CFD følger en ny trend mot å bake kvalitative menneskelige tolkninger inn i tap-funksjoner og metrikk-algoritmer. Selv om en slik menneske-sentrert tilnærming garanterer at den resulterende algoritmen ikke vil være ‘sjælløs’ eller bare mekanisk, presenterer den samtidig en rekke problemer: muligheten for fordommer; byrden av å oppdatere algoritmen i tråd med nye praksiser, og det faktum at dette vil fjerne muligheten for konsistente sammenligningsstandarder over en periode på år mellom prosjekter; og budsjetteringsbegrensninger (færre menneskelige bidragsytere vil gjøre bestemmelsene mer tvilsomme, mens et høyere antall kunne forhindre nyttige oppdateringer på grunn av kostnader).

cFreD

Dette bringer oss til en ny artikkel fra USA som åpenbart tilbyr Conditional Fréchet Distance (cFreD), en ny tilnærming til CFD som er designet til å bedre reflektere menneskelige preferanser ved å evaluere både visuell kvalitet og tekst-bilde-justering

Delvis resultater fra den nye artikkelen: bilde-rangeringer (1–9) fra forskjellige metrikk for prompten “Et stue med en sofa og en bærbar datamaskin som hviler på sofaen.” Grønne høydepunkter den øverste menneske-vurderte modellen (FLUX.1-dev), lilla den laveste (SDv1.5). Bare cFreD matcher menneske-rangeringer. Vennligst se den opprinnelige artikkelen for fullstendige resultater, som vi ikke har plass til å gjengi her. Kilde: https://arxiv.org/pdf/2503.21721

Forfatterne argumenterer for at eksisterende evalueringmetoder for tekst-til-bilde-syntese, som Inception Score (IS) og FID, dårlig sammenfaller med menneskelig dømming fordi de bare måler bilde-kvalitet uten å vurdere hvordan bildene matcher deres prompt:

‘For eksempel, betrakt en datasett med to bilder: ett av en hund og ett av en katt, hver parret med deres respektive prompt. En perfekt tekst-til-bilde-modell som feilaktig bytter disse koblingene (dvs. genererer en katt for en hund-prompt og omvendt) ville oppnå nesten null FID siden den overordnede distribusjonen av katter og hunder er opprettholdt, til tross for misjusteringen med de ønskede promptene. ‘

‘Vi viser at cFreD fanger bedre bilde-kvalitetsvurdering og betingelse på inngangstekst og resulterer i forbedret sammenfall med menneskelige preferanser.’

Artikkelen viser at forfatterens foreslåtte metrikk, cFreD, konsistent oppnår høyere sammenfall med menneskelige preferanser enn FID, FDDINOv2, CLIPScore og CMMD på tre benchmark-datasett (PartiPrompts, HPDv2 og COCO).

Konsept og metode

Forfatterne bemerker at den nåværende gullstandarden for å evaluere tekst-til-bilde-modeller innebærer å samle inn menneskelig preferanse-data gjennom crowdsourcet sammenligninger, lignende metoder brukt for store språkmodeller (slik som LMSys Arena).

For eksempel bruker PartiPrompts Arena 1 600 engelske prompter, presenterer deltakerne med par av bilder fra forskjellige modeller og ber dem om å velge deres foretrukne bilde.

Lignende Text-to-Image Arena Leaderboard bruker bruker-sammenligninger av modell-utgang til å generere rangeringer via ELO-poeng. Men å samle inn denne type menneskelig evaluering-data er kostbart og tregt, noe som har ført til at noen plattformer – som PartiPrompts Arena – har stoppet oppdateringene helt.

Artificial Analysis Image Arena Leaderboard, som rangerer de nåværende estimerte lederne i generativ visuell AI. Kilde: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard

Selv om alternative metoder trent på historisk menneskelig preferanse-data eksisterer, er deres effektivitet for å evaluere fremtidige modeller usikker, fordi menneskelige preferanser kontinuerlig utvikler seg. Derfor synes automatiske metrikk som FID, CLIPScore og forfatterens foreslåtte cFreD å være viktige evaluering-verktøy.

Forfatterne antar at både virkelige og genererte bilder betinget av en prompt følger Gaussiske distribusjoner, hver definert av betingede midler og kovarianser. cFreD måler den forventede Fréchet-avstanden over prompter mellom disse betingede distribusjonene. Dette kan formuleres enten direkte i termer av betingede statistikker eller ved å kombinere ubetingede statistikker med kryss-kovarianser som involverer prompten.

Ved å inkorporere prompten på denne måten, er cFreD i stand til å vurdere både realisme av bildene og deres konsistens med den gitte teksten.

Data og tester

For å vurdere hvor godt cFreD sammenfaller med menneskelige preferanser, brukte forfatterne bilde-rangeringer fra flere modeller promptet med samme tekst. Deres evaluering dro på to kilder: Human Preference Score v2 (HPDv2)-testsettet, som inkluderer ni genererte bilder og ett COCO-grunn-sannhets-bilde per prompt; og den ovennevnte PartiPrompts Arena, som inneholder utgang fra fire modeller over 1 600 prompter.

Forfatterne samlet de spredte Arena-dataene inn i ett enkelt datasett; i tilfeller hvor det virkelige bildet ikke rangerte høyest i menneskelig vurdering, brukte de den øverste vurderte bildet som referanse.

For å teste nyere modeller, samplet de 1 000 prompter fra COCOs trening- og valideringssett, sikret ingen overlap med HPDv2, og genererte bilder ved hjelp av ni modeller fra Arena Leaderboard. De opprinnelige COCO-bildene tjente som referanser i denne delen av evalueringen.

cFreD-tilnærmingen ble evaluert gjennom fire statistiske metrikk: FID; FDDINOv2; CLIPScore; og CMMD. Det ble også evaluert mot fire lærte metrikk trent på menneskelig preferanse-data: Aesthetic Score; ImageReward; HPSv2; og MPS.

Forfatterne evaluerte sammenfall med menneskelig dømming fra både en rangering- og en poeng-synsvinkel: for hver metrikk, ble modell-poeng rapportert og rangeringer beregnet for deres sammenfall med menneskelig vurderingsresultater, med cFreD som brukte DINOv2-G/14 for bilde-innlegg og OpenCLIP-ConvNext-B-tekst-encoder for tekst-innlegg†.

Tidligere arbeid på å lære menneskelige preferanser målte ytelse ved hjelp av per-item-rangeringsnøyaktighet, som beregner rangeringsnøyaktighet for hvert bilde-tekst-par før gjennomsnittlig resultater.

Forfatterne evaluerte cFreD ved hjelp av en global rangeringsnøyaktighet, som vurderer overordnet rangeringsytelse over hele datasettet; for statistiske metrikk beregnet de rangeringer direkte fra rå-poeng; og for metrikk trent på menneskelig preferanse-data, beregnet de først gjennomsnittet av rangeringene tildelt hver modell over alle prøver, og bestemte deretter den endelige rangeringen fra disse gjennomsnittene.

Related Topics:evaluation metrics loss function