Andersons vinkel

I Sökandet Efter En AI Som Kan Följa En Hel Film

Published February 27, 2026

Updated May 16, 2026

Martin Anderson

AI-generated illustration (GPT-1.5) depicting a POV of a Steenbeck flatbed editing table as robot hands examine celluloid footage of a love scene from an old movie.

AI-modeller förlorar fortfarande spåret av vem som är vem och vad som händer i en film. Ett nytt system orkestrerar ansiktsigenkänning och scenbeskrivning, håller karaktärerna raka och handlingen sammanhängande över hela filmer.

Att få artificiell intelligens att se och förstå Hollywood-stil filmer kan verka som en nisch eller marginell strävan, men ett system som kan se en hel film från början till slut, spåra karaktärernas utveckling och hålla reda på handlingen, har inte bara möjliggjort flera direkta tillämpningar som kan dra nytta av sådana förmågor, utan också flera perifera eller orelaterade utmaningar inom olika områden.

De lågt hängande frukterna för film-tittande AI-modeller är recommender system, i streaming-plattformar som Netflix, Amazon Prime och HBO Max. En detaljerad förståelse av handlingens utveckling och karaktärernas handlingar möjliggör en närmare matchning till (ofta tvivelaktiga) preferenser och entusiasm hos tittarna.

Dessutom möjliggör en djupare förståelse av en film generering av nyckelord och mer exakt kategorisering, snarare än att upprätthålla ofta kopierade film beskrivningar som kan ha skrivits för decennier sedan. Sådana insikter kan också avslöja närvaron av “vuxna” teman i en film som inte är uppenbara från dialogen eller från de visuella elementen.

Dessutom kan äldre filmer i en katalog ha föråldrade betyg och sammanfattningar, till exempel språk och idiom som var normala i en film från 1950-talet kan kräva mer uppmärksamhet nu. Men utan en övergripande förståelse av sammanhanget, som hämtas från att faktiskt följa en lång filmberättelse, kan sådana incidenter vara över- eller underbetonade.

Mer allmänt kan förbättrade filmanalysmetoder bidra mycket till det bredare problemet med händelseigenkänning, som är livsviktigt för innovationer inom säkerhetsövervakning, automatiserad sportkommentering och sammanfattningar av alla slag, över en stor mängd medier.

Därför är “AI-baserad film-tittande” en förvånansvärt välrepresenterad genre inom Computer Vision-litteraturen.

Att Se Det Stora Perspektivet

Den senaste deltagaren heter MovieTeller – ett akademiskt/industriellt samarbete från Kina som gör nya framsteg genom att dela upp de olika deluppgifterna i utmaningen över olika AI-applikationer som passar för dessa utmaningar, snarare än att, som ofta är fallet, försöka träna diskreta och inkapslade modeller som kan utföra alla nödvändiga uppgifter från ett enda latent utrymme.

Författarna observerar att tidigare Vision-Language-modeller (VLM) som stod inför samma uppgift inte har kunnat gå längre än enstaka ram-analys, och att deras brist på sammanhang gör det svårt för sådana modeller att beständigt identifiera karaktärer – kanske den viktigaste egenskapen hos ett sådant system:

Det nya systemet, MovieTeller, kan beständigt identifiera personer i scener, tack vare användningen av ett dedikerat ansiktsigenkänningssystem, men det är den mer övergripande tillägnelsen av sammanhang som tillåter ramverket att hålla reda på handlingens utveckling. Källa

Författarna skriver:

‘Allmänna VLM-modeller kämpar ofta för att känna igen och konsekvent spåra specifika karaktärer under en lång berättelse. De kan beskriva en nyckelprotagonist som “en man” i en scen och “en person” i en annan, utan att binda den visuella representationen till en konsekvent identitet.’

Författarna noterar att eftersom Transformers självuppmärksamhetsmekanism använder kvadratisk komplexitet, blir det för dyrt att bearbeta varje ram i en hel film på en gång. Därför tenderar metoder som förlitar sig på enhetlig ram-sampling eller enkel konkatenering att bryta upp berättelsens flöde, vilket resulterar i fragmenterade sammanfattningar snarare än en sammanhängande berättelse.

I stället består det nya systemet av en orkestrerad träningsfri pipeline, med dedikerade verktyg för att hantera ansiktsigenkänning och beständighet i minnet (när karaktärer lämnar och återvänder till berättelsen i en film).

MovieTeller testades mot tidigare metoder med 60 hel-längdsfilmer, motsvarande 10 000 minuters spelning. I kvantitativa ablations-tester och mänskliga studier rapporterar författarna att deras tillvägagångssätt kunde förbättra betydligt på de standardmiljöer och antaganden som användes av tidigare system.

Den nya artikeln heter MovieTeller: Tool-augmented Movie Synopsis med ID-konsekvent Progressiv Abstraktion, och kommer från fem författare på Zhejiang University i Hangzhou, den statliga China Media Group och Watch AI Group* (de två senare baserade i Peking).

Metod

MovieTeller-schemat består av tre steg: scen-segmentering och nyckelram-extraktion, som hanteras av PySceneDetect-projektet; Faktiskt grundad scenbeskrivning via anpassning av Qwen2.5-VL-7B-Instruct-VLM; och progressiv abstraktion, som kondenserar detaljerade scenbeskrivningar till kapitel-sammanfattningar och sedan till en slutlig sammanhängande sammanfattning – och detta utförs också av Qwen2.5-modellen:

Översikt av MovieTeller-ramverket: en hel-längdsfilm delas först in i scener och destilleras till högkvalitativa nyckelramar; sedan injiceras faktiska grunder med ett externt ansiktsigenkänningssystem, som länkar karaktärernas namn till begränsningsrutor, vilket guidar en Vision-Language-modell i att producera ID-konsekventa scenbeskrivningar. Dessa beskrivningar kondenseras sedan progressivt till kapitel-sammanfattningar och integreras i en sammanhängande film-sammanfattning.

Det första steget använder PySceneDetect för att dela upp filmen i diskreta scener, baserat på tydliga visuella förändringar, med varje scen representerad av en enda nyckelram.

Men inte varje ram är en bra sammanfattningsbild, eftersom övergångsmoment, fade-outer och mörka ramar kan förvirra senare analyser. Därför utförs en enkel kvalitetskontroll som filtrerar kandidat-ramar genom att mäta ljusstyrka och visuell variation, vilket säkerställer att endast informationsrika bilder väljs för beskrivning.

Att Placera Ansiktet

En ansiktsdatabas byggdes från offentligt tillgänglig rollinformation^†, som lagrade varje huvudkaraktärs namn bredvid en numerisk ansiktsinbäddning^†. När ett ansikte visas i en nyckelram matchas dess inbäddning mot databasen, och den närmaste matchningen accepteras om den klarar en konfidens-tröskel. Detta skapar “faktiska grunder” som länkar namn till specifika begränsningsrutor.

För dessa ändamål används InsightFace, som utnyttjar en ArcFace-baserad igenkänningshuvud:

Två bekanta ansikten som är väl ihågkomna av Additive Angular Margin Loss (ArcFace)-initiativet, som används på ett liknande sätt för MovieTeller-projektet. Källa

De annoterade nyckelramarna skickas sedan till Qwen-modellen med en prompt som listar upptäckta karaktärer och deras positioner.

Eftersom Vision-Language-modeller inte kan absorbera en hel film på en gång, delar MovieTeller först upp materialet i scenbeskrivningar. Dessa grupperas i på varandra följande, kapitel-liknande block, som sedan skickas till Qwen2.5, som sammanfattar varje kapitel, komprimerar handlingens utveckling, karaktärernas motiv och vändpunkter, samtidigt som den behåller de tidigare verifierade karaktärernas namn.

De komprimerade kapitel-sammanfattningarna konkateneras sedan och returneras till modellen med en ny prompt som begär en fullständig sammanfattning:

Ett exempel på en prompt-mall som används för att generera scenbeskrivningar, som explicit injicerar verifierade karaktärernas namn och begränsningsrutor för att begränsa Vision-Language-modellen och tvinga fram ID-konsekvent berättande.

Antagande att processen har lyckats, bör den slutliga utmatningen sammanhängande återspegla filmens berättelsebåge. Detta är ett särskilt svårt uppdrag i maskinlärning, eftersom variationen av möjliga sammanfattningar av handlingen och den stil i vilken de kan presenteras, tillsammans med den nödvändiga längden på dessa data punkter, gör det nästan omöjligt att anta de vanliga ground truth-baserade tillvägagångssätten.

Data Och Tester

För att testa systemet, kuraterade författarna en specialanpassad (och käll-ouppgiven) dataset på 100 hel-längdsfilmer, motsvarande cirka 166 timmars speltid. Filmerna inkluderade Järnman 3, Farväl Min Konkubin, Ät Drick Man Kvinna och De Krontalkronikernas Berättelser. Forskarna krävde att alla inkluderade filmer skulle ha ett betyg över 5,0 på IMDB:

Datasammansättning över 100 filmer, som visar en balanserad tidsmässig täckning från 1992 till 2025, en lätt majoritet av icke-engelska titlar och en bred genre-spridning ledd av drama och action, med representation över sci-fi, skräck, komedi, romantik och historia.

Den breda genreespridningen (se graf ovan) var avsedd att förhindra partiskhet mot en viss genre.

Ansiktsdatabasen för varje film bestod av två bilder av huvudskådespelare – en från en film-still och en från en relaterad publicity-fotografi.

Implementerat i Python, testades testerna på fyra NVIDIA A40 GPU:er, var och en med 48 GB VRAM, och med den ovannämnda Qwen2.5-varianten som den centrala VLM. Ablationsstudier^†† genomfördes också med alternativa state-of-the-art-modeller InternVL3-8B och WeThink-Qwen2.5VL-7B.

Det nya ramverket testades mot två ablations^††-varianter: en Ingen-hint-baslinje, där Vision-Language-modellen genererade scenbeskrivningar från nyckelramen ensam, utan några textuella ledtrådar om karaktärernas identiteter; och en Endast-namn-hint-inställning, där modellen gavs de upptäckta karaktärernas namn, men inte deras begränsningsrutor, vilket tillät författarna att isolera den specifika bidraget från rumslig grundning till identitets-konsekvens och berättelse-sammanhang

I fråga om mått, med tanke på den ovannämnda svårigheten att tillämpa ground truth-metoder på långa sammanfattningar av handlingen, avvisades standard-n-gram-överlappningsmått som ROUGE och BLEU till förmån för BERTScore med F1-poäng, för att mäta semantisk likhet mot en referens-sammanfattning ritad från “en offentlig encyklopedi”.

Även Gemini 2.5 Flash användes för att poängsätta varje sammanfattning för faktisk trohet; ID-konsekvens och fullständighet; berättelse-sammanhang och flöde; och koncisenhet, med poäng som genomsnittligt över dimensioner.

Slutligen genomfördes en mänsklig utvärdering av 50 slumpmässigt utvalda sammanfattningar med hjälp av parvisa jämförelser, vilket gav en praktisk kontroll på de automatiserade bedömningarna.

Nedan ser vi BERTScore (F1)-resultat för de tre ryggrads-modellerna: Qwen2.5-VL, InternVL3 och WeThink. Var och en testas i tre konfigurationer: Ingen-hint, Endast-namn och det fullständiga MovieTeller-systemet:

BERTScore (F1)-jämförelse över tre bas-Vision-Language-modeller och tre experimentella inställningar, som visar konsekventa vinster från att lägga till karaktärernas namn och ytterligare förbättringar när rumslig grundning ingår, med MovieTeller som uppnår de högsta poängen i alla fall.

Författarna noterar att mönstret är konsekvent över alla tre ryggrads-modellerna: att använda endast den råa nyckelramen ger den svagaste prestationen; att lägga till karaktärernas namn ger en måttlig förbättring; och att kombinera namn med begränsningsrutor ger de starkaste resultaten. Även om vinsterna är inkrementella snarare än dramatiska, uppnår den fullständigt grundade konfigurationen den högsta semantiska anpassningen till referens-sammanfattningen i varje inställning.

I fråga om LLM-baserad utvärdering av berättelsekvalitet: som vi ser i resultaten nedan, kämpar Ingen-hint-baslinjen mest med ID-konsekvens, vilket drar ner dess totala poäng; men att tillhandahålla endast namn ger en märkbar lyft, särskilt på ID-relaterade dimensioner. Men det fullständiga MovieTeller-systemet rankas fortfarande högst över alla tre ryggrads-modellerna:

LLM-as-a-Judge-utvärdering (1–5-skala) över tre bas-modeller, som visar att att lägga till karaktärernas namn förbättrar ID-konsekvens och total kvalitet, medan det fullständiga MovieTeller-ramverket uppnår de högsta poängen över faktisk trohet, sammanhang, koncisenhet och slutlig poäng.

De starkaste vinsterna syns i ID-konsekvens och i den slutliga genomsnittliga poängen, vilket tyder på att rumslig grundning hjälper modellen att hålla reda på vem som gör vad när handlingen utvecklas.

I den mänskliga utvärderingen av 50 slumpmässigt utvalda sammanfattningar, visades deltagarna tre sammanfattningar åt gången och bad att välja den bästa:

Mänskliga preferensfrekvenser i en trevägs tvångsjämförelse, som visar att de fullständigt grundade MovieTeller-sammanfattningarna väljs oftast över alla tre bas-modellerna, och signifikant överträffar både Ingen-hint- och Endast-namn-variarterna.

Slutligen genomfördes en kvalitativ test på filmen Kulan Försvinner (2012):

Vi kan inte återge hela denna figur från den ursprungliga artikeln, eftersom den är mycket hög och text-tät. Vänligen se den ursprungliga artikeln istället.

Här producerar Ingen-hint-baslinjen en vag sammanfattning som hänvisar till karaktärer i generiska termer och suddar ut deras roller, vilket gör det svårt att följa händelsekedjan. Att tillhandahålla endast namn förbättrar ytnivå-minnet, men berättelsen drar fortfarande, med karaktärers relationer och motiv beskrivna på ett ganska “platt” sätt.

Omvänt håller den fullständigt grundade MovieTeller-versionen identiteterna stabila genom hela sammanfattningen och binder handlingar till rätt karaktärer, vilket tillåter utrednings-berättelsen att utvecklas med en tydligare orsak-och-verkan-struktur. Specifika spänningar och roll-dynamik bevaras snarare än abstraheras bort, vilket resulterar i en sammanfattning som läser mindre som en frånkopplad kontur och mer som en sammanhängande återberättelse av filmens centrala båge:

En del av den slutliga jämförelsen, som vi inte kan återge i sin helhet här, som visar en ablerad och fullständig MovieTeller-sammanfattning. Vänligen se den ursprungliga artikeln istället.

En del av den slutliga jämförelsen, som vi inte kan återge i sin helhet här, som visar en ablerad och en fullständig MovieTeller-sammanfattning. Vänligen se den ursprungliga artikeln istället.

Slutsats

Även om de flesta nya projekt av det här slaget hamnar i Computer Vision-litteraturen, omfattar AI-genererad film-sammanfattning många andra discipliner och områden inom maskinlärningsforskning – och det är svårt att säga vilka av dessa som oavsiktligt kommer att bidra med den saknade biten av pusslet; även om MovieTeller tar ett steg i rätt riktning genom att dela upp uppgifterna över lämpliga moduler snarare än att försöka lösa allt diskret i det latenta utrymmet, behåller det den “lagade ihop”-känslan som tenderar att föregå en senare, mer elegant lösning.

* Jag kan inte identifiera denna institution, även efter en del sökande.

^†Man skulle anta något som IMDB eller OMDB, men källan är inte specificerad.

^††Vänligen se den ursprungliga artikeln för en fullständig ablations-studie, eftersom vi endast täcker full ablation i exceptionella fall. Jag vill notera att de obehända ablations-studierna som nämns här inte undergräver artikeln generella slutsatser.

Publicerad första gången fredagen den 27 februari 2026