Andersons vinkel

Att lära AI att ge bättre videokritik

Published April 1, 2025

Updated April 26, 2026

Martin Anderson

Image of a robot with popcorn in a cinema, ChatGPt-4+ and Adobe Firefly.

Medan stora vision-språkmodeller (LVLMs) kan vara användbara hjälpmedel för att tolka vissa av de mer esoteriska eller utmanande bidragen i datorseende-litteraturen, finns det ett område där de är hämmade: att bestämma förtjänsten och den subjektiva kvaliteten på några videexempel som åtföljer nya artiklar*.

Detta är ett kritiskt aspekt av en inskickning, eftersom vetenskapliga artiklar ofta syftar till att generera entusiasm genom övertygande text eller visuella element – eller båda.

Men i fallet med projekt som involverar videosyntes måste författarna visa faktisk videooutput eller riskera att deras arbete förkastas; och det är i dessa demonstrationer som gapet mellan djärva påståenden och faktisk prestanda oftast blir tydligt.

Jag läste boken, men såg inte filmen

För närvarande kommer de flesta populära API-baserade stora språkmodeller (LLM) och stora vision-språkmodeller (LVLMs) inte att engagera sig i direkt analys av videoinnehåll på något sätt, kvalitativt eller annorlunda. Istället kan de bara analysera relaterade transkriptioner – och kanske kommentartrådar och annat strikt text-baserat material.

De olika invändningarna från GPT-4o, Google Gemini och Perplexity, när de tillfrågades att direkt analysera video, utan tillgång till transkriptioner eller andra textbaserade källor.

Men en LLM kan dölja eller förneka sin oförmåga att faktiskt titta på videor, såvida du inte påpekar det:

Efter att ha tillfrågats att ge en subjektiv utvärdering av en ny forskningsartikels associerade videor, och ha fejkat en riktig åsikt, medger ChatGPT-4o slutligen att den inte kan se video direkt.

Även om modeller som ChatGPT-4o är multimodala och kan analysera enskilda foton (såsom en extraherad ram från en video, se bild ovan), finns det vissa problem även med detta: först och främst finns det ingen anledning att ge credens till en LLM:s kvalitativa åsikt, inte minst för att LLM:s är benägna att “people-pleasing” snarare än äkta diskurs.

För det andra är många, om inte de flesta, av en genererad videos problem troligen att ha en temporär aspekt som helt förloras i en ramgrabb – och således tjänar undersökningen av enskilda ramar ingen funktion.

Slutligen kan LLM endast ge en påstådd “värderingsdom” baserad (återigen) på att ha absorberat textbaserad kunskap, till exempel i fråga om deepfake-bilder eller konsthistoria. I ett sådant fall tillåter tränad domänkunskap LLM att korrelera analyserade visuella kvaliteter på en bild med inlärda embeddings baserade på mänsklig insikt:

FakeVLM-projektet erbjuder riktad deepfake-detektion via en specialiserad multimodal vision-språkmodell. Källa: https://arxiv.org/pdf/2503.14905

Detta betyder inte att en LLM inte kan erhålla information direkt från en video; till exempel kan en LLM med hjälp av adjungerade AI-system som YOLO identifiera objekt i en video – eller kan göra detta direkt, om den tränas för ett ovanligt antal multimodala funktioner.

Men den enda sättet som en LLM kan utvärdera en video subjektivt (dvs. “Det ser inte riktigt ut för mig”) är genom att tillämpa en förlustfunktion-baserad mått som antingen är känd för att återspegla mänsklig åsikt väl eller som direkt informeras av mänsklig åsikt.

Förlustfunktioner är matematiska verktyg som används under träningsprocessen för att mäta hur långt en modells förutsägelser är från de korrekta svaren. De ger feedback som vägleder modellens inlärning: ju större felet, desto högre förlust. När träningsprocessen fortskrider justerar modellen sina parametrar för att minska denna förlust, gradvis förbättrar sin förmåga att göra precisa förutsägelser.

Förlustfunktioner används både för att reglera träningsprocessen för modeller och för att kalibrera algoritmer som är utformade för att utvärdera utmatningen från AI-modeller (såsom utvärderingen av simulerad fotorealistisk innehåll från en generativ videomodell).

Villkorlig syn

En av de mest populära måtten/förlustfunktionerna är Fréchet Inception Distance (FID), som utvärderar kvaliteten på genererade bilder genom att mäta likheten mellan deras distribution (vilket här betyder ‘hur bilder är spridda eller grupperade av visuella funktioner‘) och den för riktiga bilder.

Specifikt beräknar FID den statistiska skillnaden, med hjälp av medelvärden och kovarianser, mellan funktioner som extraheras från båda uppsättningarna av bilder med hjälp av (den ofta kritiserade) Inception v3-klassificeringsnätverket. En lägre FID-poäng indikerar att de genererade bilderna är mer lika riktiga bilder, vilket innebär bättre visuell kvalitet och mångfald.

Men FID är i princip jämförande och kan anses vara självrefererande till sin natur. För att åtgärda detta skiljer sig den senare Villkorlig Fréchet Distance (CFD, 2021) från FID genom att jämföra genererade bilder med riktiga bilder och utvärdera en poäng baserad på hur väl båda uppsättningarna matchar en ytterligare villkor, såsom en (oundvikligen subjektiv) klassetikett eller ingångsbild.

På detta sätt tar CFD hänsyn till hur väl bilder möter de avsedda villkoren, inte bara deras övergripande realism eller mångfald inom sig själva.

Exempel från CFD 2021. Källa: https://github.com/Michael-Soloveitchik/CFID/

CFD följer en sen trend mot att integrera kvalitativ mänsklig tolkning i förlustfunktioner och måttalgoritmer. Även om en sådan mänsklig ansats garanterar att den resulterande algoritmen inte blir “själlös” eller enbart mekanisk, presenterar den samtidigt ett antal problem: möjligheten till partiskhet; bördan att uppdatera algoritmen i linje med nya metoder, och det faktum att detta kommer att ta bort möjligheten till konsekventa jämförande standarder över en period av år mellan projekt; och budgetbegränsningar (färre mänskliga bidragsgivare kommer att göra bestämmandena mer tvivelaktiga, medan ett större antal kan förhindra användbara uppdateringar på grund av kostnad).

cFreD

Detta leder oss till en ny artikel från USA som tydligen erbjuder Villkorlig Fréchet Distance (cFreD), en ny syn på CFD som är utformad för att bättre återspegla mänskliga preferenser genom att utvärdera både visuell kvalitet och text-bild-alignment

Delvisa resultat från den nya artikeln: bildrankningar (1–9) med olika mått för frågan “Ett vardagsrum med en soffa och en laptop-dator som vilar på soffan.” Grön markerar den högst rankade modellen (FLUX.1-dev), lila den lägst rankade (SDv1.5). Endast cFreD matchar mänskliga rankningar. Vänligen se den ursprungliga artikeln för fullständiga resultat, som vi inte har utrymme att återge här. Källa: https://arxiv.org/pdf/2503.21721

Författarna hävdar att befintliga utvärderingsmetoder för text-till-bild-syntes, såsom Inception Score (IS) och FID, dåligt överensstämmer med mänsklig bedömning eftersom de endast mäter bildkvalitet utan att beakta hur bilder matchar sina frågor:

‘Till exempel, överväg en datamängd med två bilder: en av en hund och en av en katt, var och en parad med sina respektive frågor. En perfekt text-till-bild-modell som av misstag byter ut dessa mappningar (dvs. genererar en katt för en hundfråga och vice versa) skulle uppnå nästan noll FID eftersom den övergripande fördelningen av katter och hundar upprätthålls, trots att den inte stämmer överens med de avsedda frågorna.

‘Vi visar att cFreD fångar bättre bildkvalitetsutvärdering och konditionering på ingångstext och resulterar i förbättrad korrelation med mänskliga preferenser.’

Författarnas tester visar att deras föreslagna mått, cFreD, konsekvent uppnår högre korrelation med mänskliga preferenser än FID, FDDINOv2, CLIPScore och CMMD på tre benchmark-datamängder (PartiPrompts, HPDv2 och COCO).

Koncept och metod

Författarna noterar att den nuvarande guldstandarden för utvärdering av text-till-bild-modeller innefattar insamling av mänskliga preferensdata genom crowdsourcade jämförelser, liknande metoder som används för stora språkmodeller (såsom LMSys Arena).

Till exempel använder PartiPrompts Arena 1 600 engelska frågor, presenterar deltagarna med par av bilder från olika modeller och ber dem att välja sin föredragna bild.

Likaså använder Text-to-Image Arena Leaderboard användarjämförelser av modellutmatningar för att generera rankningar via ELO-poäng. Men att samla in den här typen av mänsklig utvärderingsdata är dyrt och långsamt, vilket har lett till att vissa plattformar – som PartiPrompts Arena – har upphört med uppdateringar helt.

Artificial Analysis Image Arena Leaderboard, som rankar de för närvarande uppskattade ledarna inom generativ visuell AI. Källa: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard

Även om alternativa metoder som tränats på historiska mänskliga preferensdata finns, är deras effektivitet för att utvärdera framtida modeller osäker, eftersom mänskliga preferenser kontinuerligt utvecklas. Följaktligen verkar automatiserade mått som FID, CLIPScore och författarnas föreslagna cFreD sannolikt att förbli viktiga utvärderingsverktyg.

Författarna antar att både riktiga och genererade bilder som är villkorade på en fråga följer Gaussiska distributioner, var och en definierad av villkorliga medelvärden och kovarianser. cFreD mäter den förväntade Fréchet-avståndet över frågor mellan dessa villkorliga distributioner. Detta kan formuleras antingen direkt i termer av villkorliga statistik eller genom att kombinera ovillkorliga statistik med kovarianser som involverar frågan.

Genom att inkorporera frågan på detta sätt kan cFreD utvärdera både realismen i bilderna och deras överensstämmelse med den givna texten.

Data och tester

För att utvärdera hur väl cFreD korrelerar med mänskliga preferenser, använde författarna bildrankningar från flera modeller som tillfrågats med samma text. Deras utvärdering drog på två källor: Human Preference Score v2 (HPDv2)-testuppsättningen, som innehåller nio genererade bilder och en COCO-grundbild per fråga; och den ovannämnda PartiPrompts Arena, som innehåller utmatningar från fyra modeller över 1 600 frågor.

Författarna samlade de utspridda Arenadatapunkterna i en enda datamängd; i fall där den riktiga bilden inte rankades högst i mänskliga utvärderingar, använde de den högst rankade bilden som referens.

För att testa nyare modeller sampade de 1 000 frågor från COCO:s tränings- och valideringsuppsättningar, säkerställde att det inte fanns någon överlappning med HPDv2, och genererade bilder med hjälp av nio modeller från Arenalederplattan. De ursprungliga COCO-bilderna fungerade som referenser i denna del av utvärderingen.

cFreD-ansatsen utvärderades genom fyra statistiska mått: FID; FDDINOv2; CLIPScore; och CMMD. Det utvärderades också mot fyra inlärda mått som tränats på mänskliga preferensdata: Aesthetic Score; ImageReward; HPSv2; och MPS.

Författarna utvärderade korrelationen med mänsklig bedömning från både en ranknings- och en poängsynvinkel: för varje mått rapporterades modellpoäng och rankningar beräknades för deras överensstämmelse med mänskliga utvärderingsresultat, med cFreD som använde DINOv2-G/14 för bildinbäddningar och OpenCLIP-ConvNext-B Text Encoder för textinbäddningar†.

Tidigare arbete om att lära mänskliga preferenser mätte prestanda med hjälp av per-artikel-rankningsnoggrannhet, som beräknar rankningsnoggrannhet för varje bild-text-par innan den genomsnittligar resultaten.

Författarna utvärderade cFreD med hjälp av en global rankningsnoggrannhet, som utvärderar den övergripande rankningsprestandan över hela datamängden; för statistiska mått derivierade de rankningar direkt från råpoäng; och för mått som tränats på mänskliga preferenser, beräknade de först genomsnittet av rankningar som tilldelats varje modell över alla prover, och bestämde sedan den slutliga rankningen från dessa genomsnitt.

Initiala tester använde tio ramverk: GLIDE; COCO; FuseDream; DALLE 2; VQGAN+CLIP; CogView2; Stable Diffusion V1.4; VQ-Diffusion; Stable Diffusion V2.0; och LAFITE.

Modellrankningar och poäng på HPDv2-testuppsättningen med hjälp av statistiska mått (FID, FDDINOv2, CLIPScore, CMMD och cFreD) och mänskligt preferens-tränade mått (Aesthetic Score, ImageReward, HPSv2 och MPS). Bästa resultat visas i fetstil, näst bästa är understrukna.

Av de initiala resultaten kommenterar författarna:

‘cFreD uppnår den högsta överensstämmelsen med mänskliga preferenser, med en korrelation på 0,97. Bland statistiska mått uppnår cFreD den högsta korrelationen och är jämförbar med HPSv2 (0,94), en modell som uttryckligen tränats på mänskliga preferenser. Eftersom HPSv2 tränades på HPSv2-träningsuppsättningen, som innehåller fyra modeller från testuppsättningen, och använde samma annotatorer, kodar den implicit mänskliga preferensfördomar från samma inställning.

‘I kontrast uppnår cFreD en jämförbar eller överlägsen korrelation med mänsklig utvärdering utan någon mänsklig preferens-träning.

‘Dessa resultat visar att cFreD tillhandahåller mer tillförlitliga rankningar över diverse modeller jämfört med standardautomatiska mått och mått som tränats explicit på mänskliga preferensdata.’

Bland alla utvärderade mått uppnådde cFreD den högsta rankningsnoggrannheten (91,1%), vilket, enligt författarna, visar en stark överensstämmelse med mänskliga bedömningar.

HPSv2 följde med 88,9%, medan FID och FDDINOv2 producerade konkurrenskraftiga poäng på 86,7%. Även om mått som tränats på mänskliga preferenser i allmänhet överensstämde väl med mänskliga utvärderingar, visade sig cFreD vara det mest robusta och tillförlitliga övergripande.

Nedan ser vi resultaten från den andra testomgången, denna gång på PartiPrompts Arena, med SDXL; Kandinsky 2; Würstchen; och Karlo V1.0.

Modellrankningar och poäng på PartiPrompt med hjälp av statistiska mått (FID, FDDINOv2, CLIPScore, CMMD och cFreD) och mänskligt preferens-tränade mått (Aesthetic Score, ImageReward och MPS). Bästa resultat visas i fetstil, näst bästa är understrukna.

Här påstår artikeln:

‘Bland statistiska mått uppnår cFreD den högsta korrelationen med mänskliga utvärderingar (0,73), med FID och FDDINOv2 som båda når en korrelation på 0,70. I kontrast visar CLIP-poängen en mycket låg korrelation (0,12) med mänskliga bedömningar.

‘I kategorin mänskligt preferens-tränade mått uppnår HPSv2 den starkaste överensstämmelsen, med den högsta korrelationen (0,83), följt av ImageReward (0,81) och MPS (0,65). Dessa resultat betonar att medan cFreD är ett robustt automatiskt mått, utmärker sig HPSv2 som det mest effektiva för att fånga mänskliga utvärderingstrender i PartiPrompts Arena.’

Slutligen genomförde författarna en utvärdering på COCO-datamängden med nio moderna text-till-bild-modeller: FLUX.1[dev]; Playgroundv2.5; Janus Pro; och Stable Diffusion-varianterna SDv3.5-L Turbo, 3.5-L, 3-M, SDXL, 2.1 och 1.5.

Mänskliga preferensrankningar hämtades från Text-to-Image Leaderboard och angavs som ELO-poäng:

Modellrankningar på slumpmässigt valda COCO-frågor med hjälp av automatiska mått (FID, FDDINOv2, CLIPScore, CMMD och cFreD) och mänskligt preferens-tränade mått (Aesthetic Score, ImageReward, HPSv2 och MPS). En rankningsnoggrannhet under 0,5 indikerar mer diskordanta än koncordanta par, och bästa resultat visas i fetstil, näst bästa är understrukna.

Med avseende på denna omgång påstår forskarna:

‘Bland statistiska mått (FID, FDDINOv2, CLIP, CMMD och vårt föreslagna cFreD) är det endast cFreD som visar en stark korrelation med mänskliga preferenser, med en korrelation på 0,33 och en icke-trivial rankningsnoggrannhet på 66,67%. ‘Detta resultat placerar cFreD som det tredje mest överensstämmande måttet totalt, överträffat endast av de mänskligt preferens-tränade måtten ImageReward, HPSv2 och MPS.

‘Notabelt visar alla andra statistiska mått en betydligt svagare överensstämmelse med ELO-rankningar och, som ett resultat, inverterade rankningarna, vilket resulterade i en Rank Acc. under 0,5.

‘Dessa resultat betonar att cFreD är känslig för både visuell trohet och frågekonsekvens, och stärker dess värde som en praktisk, träningsfri alternativ för benchmarkning av text-till-bild-generering.’

Författarna testade också Inception V3 som en bakben, och drog uppmärksamhet till dess allmänpresence i litteraturen, och fann att InceptionV3 presterade skäligt, men överträffades av transformer-baserade bakben som DINOv2-L/14 och ViT-L/16, som mer konsekvent överensstämde med mänskliga rankningar – och de hävdar att detta stöder ersättning av InceptionV3 i moderna utvärderingsinställningar.

Vinstfrekvenser som visar hur ofta varje bildbakbens rankningar matchade de sanna mänskligt derivierade rankningarna på COCO-datamängden.

Slutsats

Det är tydligt att medan mänskliga-i-loopen-lösningar är den optimala metoden för utveckling av mått och förlustfunktioner, kommer skalan och frekvensen av uppdateringar som krävs för sådana system att fortsätta göra dem opraktiska – kanske tills dess att allmän medverkan i utvärderingar allmänt uppmuntras; eller, som har varit fallet med CAPTCHAs, tvingas.

Tillförlitligheten hos författarnas nya system beror fortfarande på dess överensstämmelse med mänsklig bedömning, fast på ett steg längre bort än många nyliga mänskligt deltagande-ansatser; och cFreD:s legitimitet förblir därför fortfarande i mänskliga preferensdata (uppenbarligen, eftersom utan en sådan benchmark skulle påståendet att cFreD återspeglar mänsklig utvärdering vara obestyrkt).

Man kan hävda att att förankra våra nuvarande kriterier för “realism” i genererad utmatning i ett måttfunktion kan vara ett misstag på lång sikt, eftersom vår definition av detta begrepp för närvarande är under attack från den nya vågen av generativa AI-system, och är inställd för frekventa och betydande revisioner.

* På detta stadium skulle jag normalt inkludera ett exemplariskt illustrativt videexempel, kanske från en nyligen akademisk inskickning; men det skulle vara elakt – alla som har tillbringat mer än 10-15 minuter med att bläddra igenom Arxivs generativa AI-utmatning kommer att ha stött på tilläggsvideor vars subjektivt dåliga kvalitet indikerar att den relaterade inskickningen inte kommer att hyllas som en banbrytande artikel.

† Sammanlagt 46 bildbakmodeller användes i experimenten, varav inte alla anses i de grafiska resultaten. Vänligen se artikeln för en fullständig lista; de som visas i tabellerna och figurerna har listats.

Publicerad första gången tisdagen den 1 april 2025

Related Topics:evaluation metrics loss function