Kąt Andersona

W poszukiwaniu sztucznej inteligencji, która może śledzić cały film

mm
AI-generated illustration (GPT-1.5) depicting a POV of a Steenbeck flatbed editing table as robot hands examine celluloid footage of a love scene from an old movie.

Modele sztucznej inteligencji nadal tracą ślad, kto jest kim i co się dzieje w filmie. Nowy system orchestruje rozpoznawanie twarzy i sceniczną syntezy, utrzymując postacie proste, a fabułę spójną w całych filmach.

 

Uzyskanie sztucznej inteligencji, która może oglądać i rozumieć filmy w stylu Hollywood, może się wydawać niszowym lub marginalnym zajęciem, ale system, który może obejrzeć pełnometrażowy film od początku do końca, śledzić postępy wszystkich postaci i utrzymywać się na bieżąco z fabułą, umożliwił wiele bezpośrednich zastosowań, które mogą skorzystać z takich możliwości, a także wiele peryferyjnych lub niezwiązanych wyzwań w różnych dziedzinach.

Najłatwiejszym celem dla modeli sztucznej inteligencji oglądających filmy są systemy rekomendacji, na platformach streamingowych takich jak Netflix, Amazon Prime i HBO Max. Dogłębne zrozumienie rozwoju fabuły i działań postaci pozwala na bliższe dopasowanie do (często wątpliwych) upodobań i entuzjazmu widzów.

Ponadto, głębsze zrozumienie filmu umożliwia generowanie słów kluczowych i bardziej dokładną kategoryzację, zamiast utrwalania często kopiowanych opisów filmów, które mogły być napisane wiele lat temu. Takie spostrzeżenia mogą również ujawnić obecność “dorosłych” tematów w filmie, które nie są oczywiste z dialogu lub wizualizacji.

Dodatkowo, starsze filmy w katalogu mogą mieć przestarzałe oceny oraz przeglądy, na przykład język i idiomy, które były normalizowane w filmie z lat 50., mogą wymagać znacznie więcej uwagi teraz. Ale bez ogólnego zrozumienia kontekstu, uzyskanego z prawdziwego śledzenia długiej narracji filmowej, takie przypadki mogą być przeszacowane lub niedoszacowane.

Bardziej ogólnie, udoskonalone podejścia do analizy filmów mogą przyczynić się do rozwiązania znacznie szerszego problemu rozpoznawania zdarzeń, który jest niezbędny do innowacji w monitorowaniu bezpieczeństwa, automatycznych komentarzach sportowych i podsumowaniach wszystkich rodzajów, we wszystkich rodzajach mediów.

Zatem “oparty na sztucznej inteligencji film” jest dość popularnym gatunkiem w literaturze Computer Vision.

Widzenie całości

Najnowszy przykład to MovieTeller – współpraca akademicko-przemysłowa z Chin, która robi nowe postępy, dzieląc różne podzadania w wyzwaniu na różne aplikacje sztucznej inteligencji, które odpowiadają tym wyzwaniom, zamiast – jak to często bywa – próbować trenować dyskretne i zamknięte modele, które mogą wykonywać wszystkie niezbędne zadania z jednego latent space.

Autorzy obserwują, że poprzednie modele Vision-Language (VLMs) stojące przed tym samym zadaniem nie były w stanie uczynić znaczących postępów poza analizą pojedynczych klatek; i że ich brak kontekstu utrudnia tym modelom trwałe identyfikowanie postaci – być może najbardziej istotną cechą takiego systemu:

Nowy system, MovieTeller, jest w stanie trwale identyfikować ludzi w scenach, dzięki zastosowaniu dedykowanego systemu rozpoznawania twarzy; ale to bardziej ogólne poświęcenie kontekstowi pozwala ramom na utrzymanie się na bieżąco z rozwojem fabuły. Źródło - https://arxiv.org/pdf/2602.23228

Nowy system, MovieTeller, jest w stanie trwale identyfikować ludzi w scenach, dzięki zastosowaniu dedykowanego systemu rozpoznawania twarzy; ale to bardziej ogólne poświęcenie kontekstowi pozwala ramom na utrzymanie się na bieżąco z rozwojem fabuły. Źródło

Autorzy stwierdzają:

‘Ogólne modele VLM często mają trudności z rozpoznawaniem i trwałym śledzeniem konkretnych postaci w całej narracji. Mogą opisać kluczowego protagonistę jako “mężczyznę” w jednej scenie i “osobę” w innej, nie wiążąc wizualnej reprezentacji z konsekwentną tożsamością.’

Autorzy zauważają, że ponieważ Transformery mechanizm uwagi wykorzystuje kwadratową złożoność, przetwarzanie każdej klatki pełnometrażowego filmu na raz jest zbyt kosztowne obliczeniowo. W związku z tym, podejścia, które polegają na równomiernym próbkowaniu klatek lub prostym łączeniu, tendencję do łamania przepływu historii, wytwarzając fragmentaryczne podsumowania zamiast spójnej narracji.

Zamiast tego, nowy system składa się z bezszwego, bezwzględnego potoku szkoleniowego, z dedykowanymi narzędziami do rozpoznawania twarzy i trwałości pamięci (gdy postacie wychodzą i wchodzą w narrację filmu).

MovieTeller został przetestowany wobec poprzednich podejść przy użyciu 60 pełnometrażowych filmów, co odpowiada 10 000 minutom materiału. W ilościowych testach ablacjacji i badaniach z udziałem ludzi, autorzy donoszą, że ich podejście było w stanie znacznie poprawić wyniki w porównaniu z domyślnymi środowiskami i założeniami używanymi przez poprzednie systemy.

Nowy artykuł pt. MovieTeller: Tool-augmented Movie Synopsis with ID Consistent Progressive Abstraction, pochodzi od pięciu autorów z Zhejiang University w Hangzhou, państwowej grupy medialnej China Media Group i Watch AI Group* (oba z siedzibą w Pekinie).

Metoda

Schemat MovieTeller składa się z trzech etapów: segmentacji scen i ekstrakcji klatek kluczowych, które są obsługiwane przez PySceneDetect; Factual-Grounded Scene Description Generation za pomocą dostosowania Qwen2.5-VL-7B-Instruct VLM; oraz progressive abstraction, który kondensuje szczegółowe opisy scen w podsumowania rozdziałów, a następnie w koherentny podsumowanie – i jest to również wykonywane przez model Qwen2.5:

Przegląd ramy MovieTeller: pełnometrażowy film jest najpierw podzielony na sceny i destylowany w wysokiej jakości kluczowe klatki; następnie, zewnętrzne narzędzie rozpoznawania twarzy wstrzykuje podstawowe informacje, łącząc nazwy postaci z bounding boxami, które prowadzą model Vision-Language do wytwarzania opisów scen zgodnych z identyfikatorem. Te opisy są następnie stopniowo abstrahowane w podsumowania rozdziałów i integrowane w koherentne podsumowanie filmu.

Przegląd ramy MovieTeller: pełnometrażowy film jest najpierw podzielony na sceny i destylowany w wysokiej jakości kluczowe klatki; następnie, zewnętrzne narzędzie rozpoznawania twarzy wstrzykuje podstawowe informacje, łącząc nazwy postaci z bounding boxami, które prowadzą model Vision-Language do wytwarzania opisów scen zgodnych z identyfikatorem.

Początkowy etap wykorzystuje PySceneDetect do podzielenia filmu na dyskretne sceny, na podstawie wyraźnych zmian wizualnych, z każdą sceną reprezentowaną przez jedną kluczową klatkę.

Jednak nie każda klatka jest dobrą klatką podsumowującą, ponieważ momenty przejściowe, wygaszacze i ciemne klatki mogą wprowadzić w błąd późniejszą analizę. Dlatego prosta kontrola jakości wykonuje filtr na kandydujących klatkach, mierząc jasność i zmianę wizualną, zapewniając, że tylko informacyjnie bogate obrazy są wybrane do opisu.

Umieszczanie twarzy

Baza danych twarzy została zbudowana z publicznie dostępnych informacji o obsadzie, przechowując nazwę każdej głównej postaci obok numerycznego embeddingu. Gdy twarz pojawia się w kluczowej klatce, jej embedding jest dopasowywany do bazy danych, a najbliższy wynik jest akceptowany, jeśli przekracza próg ufności. To tworzy “podstawowe informacje”, łącząc nazwy z konkretnymi bounding boxami.

Dla tych celów InsightFace jest używany, wykorzystując ArcFace loss-based recognition head:

Dwie dobrze rozpoznawalne twarze przez inicjatywę Additive Angular Margin Loss (ArcFace), używaną w bardzo podobny sposób w projekcie MovieTeller. Źródło - https://www.youtube.com/watch?v=y-D1tReryGA&t=80s

Dwie dobrze rozpoznawalne twarze przez inicjatywę Additive Angular Margin Loss (ArcFace), używaną w bardzo podobny sposób w projekcie MovieTeller. Źródło

Oznaczone kluczowe klatki są następnie przekazywane do modelu Qwen z podpowiedzią, która wymienia wykryte postacie i ich pozycje.

Ponieważ modele Vision-Language nie mogą pochłonąć całego pełnometrażowego filmu na raz, MovieTeller najpierw rozdziela materiał na opisy scen. Są one grupowane w następujące po sobie bloki, które są następnie przekazywane do Qwen2.5, który podsumowuje każdy rozdział, kompresując rozwój fabuły, motywacje postaci i punkty zwrotne, przy zachowaniu wcześniej zweryfikowanych nazw postaci.

Te skompresowane podsumowania rozdziałów są następnie łączone i zwracane do modelu z nową podpowiedzią, która prosi o pełne podsumowanie:

Przykładowy szablon podpowiedzi używany do generowania opisów scen, wyraźnie wstrzykujący zweryfikowane nazwy postaci i bounding boxy, aby ograniczyć model Vision-Language i wymusić narrację zgodną z identyfikatorem.

Podobnie jak podpowiedź, która prosi o całe podsumowanie, ten przykład jest używany do generowania opisów scen, wyraźnie wstrzykujący zweryfikowane nazwy postaci i bounding boxy, aby ograniczyć model Vision-Language i wymusić narrację zgodną z identyfikatorem.

Zakładając, że proces zakończył się powodzeniem, ostateczny wynik powinien spójnie odzwierciedlać narracyjną łuk filmu. To jest szczególnie trudne zadanie w uczeniu maszynowym, ponieważ różnorodność możliwych podsumowań fabuły i stylu, w jakim mogą być one przedstawione, wraz z konieczną długością tych danych, sprawia, że niemal niemożliwe jest przyjęcie zwykłych podejść opartych na ground truth.

Dane i testy

Aby przetestować system, autorzy stworzyli specjalnie przygotowaną (i nieprzypisaną do źródła) bazę danych 100 pełnometrażowych filmów, co odpowiada 166 godzinom czasu odtwarzania. Filmy obejmowały Iron Man 3, Farewell My Concubine, Eat Drink Man Woman i The Chronicles of Narnia. Badacze wymagali, aby wszystkie uwzględnione filmy miały ocenę powyżej 5,0 na IMDB:

Skład bazy danych w 100 filmach, pokazujący zrównoważone pokrycie czasowe od 1992 do 2025, nieznacznie większość tytułów nieangielskich i szeroki zakres gatunków, na czele z dramatem i akcją, z reprezentacją w Sci-Fi, Horror, Komedia, Romantyczne i Historia.

Skład bazy danych w 100 filmach, pokazujący zrównoważone pokrycie czasowe od 1992 do 2025, nieznacznie większość tytułów nieangielskich i szeroki zakres gatunków, na czele z dramatem i akcją, z reprezentacją w Sci-Fi, Horror, Komedia, Romantyczne i Historia.

Szeroki zakres gatunków (patrz wykres powyżej) został zaprojektowany, aby uniknąć uprzedzeń wobec jakiegokolwiek jednego gatunku.

Baza danych twarzy dla każdego filmu składała się z dwóch zdjęć głównych aktorów – jednego z klatki filmu, a drugiego ze zdjęcia promocyjnego.

Wdrożony w Pythonie, testy zostały uruchomione na czterech procesorach NVIDIA A40, każdy z 48 GB pamięci VRAM, a z wyżej wymienionym modelem Qwen2.5 jako centralnym VLM. Przeprowadzono również studia ablacjacji†† z alternatywnymi modelami stanu sztuki InternVL3-8B i WeThink-Qwen2.5VL-7B.

Nowy framework został przetestowany wobec dwóch wariantów ablacjacji††: No-Hint bazowy, w którym model Vision-Language generował opisy scen wyłącznie z kluczowej klatki, bez żadnych tekstowych wskazówek dotyczących tożsamości postaci; oraz Name-Only Hint ustawienie, w którym model otrzymywał wykryte nazwy postaci, ale nie ich bounding boxy, co pozwoliło autorom na izolację konkretnego wkładu przestrzennego ugruntowania w identyfikacji i spójności narracyjnej

W odniesieniu do metryk, biorąc pod uwagę trudności zastosowania podejść opartych na ground truth do długich podsumowań fabuły, standardowe metryki nakładu n-gram, takie jak ROUGE i BLEU, zostały odrzucone na rzecz BERTScore z F1 score, aby zmierzyć semantyczną podobieństwo w stosunku do odniesienia podsumowania pobranego z “publicznej encyklopedii”.

Ponadto, Gemini 2.5 Flash został użyty do oceny każdego podsumowania pod kątem wierności faktom; spójności identyfikatora i kompletności; koherencji narracyjnej i przepływu; oraz zwięzłości, z wynikami uśrednionymi w różnych wymiarach.

Wreszcie, przeprowadzono ocenę ludzką 50 losowo wybranych podsumowań, korzystając z porównania parami, co zapewniło praktyczną weryfikację ocen automatycznych.

Poniżej widzimy wyniki BERTScore (F1) dla trzech modeli backbone: Qwen2.5-VL, InternVL3 i WeThink. Każdy z nich został przetestowany w trzech konfiguracjach: No-Hint, Name-Only i pełny system MovieTeller:

Porównanie BERTScore (F1) w trzech modelach backbone i trzech ustawieniach eksperymentalnych, pokazujące ciągłe zyski z dodawaniem nazw postaci i dalsze poprawy, gdy jest uwzględnione ugruntowanie przestrzenne, z MovieTeller osiągając najwyższe wyniki we wszystkich przypadkach.

Porównanie BERTScore (F1) w trzech modelach backbone i trzech ustawieniach eksperymentalnych, pokazujące ciągłe zyski z dodawaniem nazw postaci i dalsze poprawy, gdy jest uwzględnione ugruntowanie przestrzenne, z MovieTeller osiągając najwyższe wyniki we wszystkich przypadkach.

Autorzy zauważają, że wzorzec jest spójny we wszystkich trzech modelach backbone: korzystanie tylko z surowej klatki daje najgorsze wyniki; dodawanie nazw postaci daje umiarkowaną poprawę; a łączenie nazw z bounding boxami daje najmocniejsze wyniki. Chociaż zyski są stopniowe, a nie dramatyczne, w pełni ugruntowana konfiguracja osiąga najwyższą semantyczną zgodność z odniesieniowym podsumowaniem we wszystkich ustawieniach.

W odniesieniu do oceny jakości narracyjnej opartej na LLM: jak widać w wynikach poniżej, No-Hint bazowy wariant ma największe trudności z identyfikacją postaci, co obniża jego ogólny wynik; ale dostarczanie nazw postaci daje zauważalną poprawę, szczególnie w wymiarach związanych z identyfikacją. Jednak pełna konfiguracja MovieTeller ponownie zajmuje najwyższe miejsce we wszystkich trzech modelach backbone:

Ocena LLM-as-a-Judge (skala 1–5) w trzech modelach backbone, pokazująca, że dodawanie nazw postaci poprawia identyfikację postaci i ogólną jakość, podczas gdy pełna konfiguracja MovieTeller osiąga najwyższe wyniki w wierności faktom, koherencji, zwięzłości i końcowej ocenie.

Ocena LLM-as-a-Judge (skala 1–5) w trzech modelach backbone, pokazująca, że dodawanie nazw postaci poprawia identyfikację postaci i ogólną jakość, podczas gdy pełna konfiguracja MovieTeller osiąga najwyższe wyniki w wierności faktom, koherencji, zwięzłości i końcowej ocenie.

Największe zyski pojawiają się w identyfikacji postaci i w końcowej uśrednionej ocenie, co sugeruje, że ugruntowanie przestrzenne pomaga modelowi utrzymać wyraźność, kto robi co, gdy fabuła się rozwija.

W ocenie ludzkiej 50 losowo wybranych podsumowań, uczestnicy byli pokazywani trzy podsumowania na raz i proszeni o wybór najlepszego:

Stawki preferencji ludzkich w trzydrożnym porównaniu wymuszonym, pokazując, że w pełni ugruntowane podsumowania MovieTeller są wybierane najczęściej we wszystkich trzech modelach backbone, znacznie przewyższając oba warianty No-Hint i Name-Only.

Stawki preferencji ludzkich w trzydrożnym porównaniu wymuszonym, pokazując, że w pełni ugruntowane podsumowania MovieTeller są wybierane najczęściej we wszystkich trzech modelach backbone, znacznie przewyższając oba warianty No-Hint i Name-Only.

Wreszcie, przeprowadzono test jakościowy na filmie The Bullet Vanishes (2012):

Nie możemy odtworzyć całości tej figury z oryginalnego artykułu, ponieważ jest ona bardzo wysoka i gęsto wypełniona tekstem. Proszę odnieść się do oryginalnego artykułu.

Nie możemy odtworzyć całości tej figury z oryginalnego artykułu, ponieważ jest ona bardzo wysoka i gęsto wypełniona tekstem. Proszę odnieść się do oryginalnego artykułu.

Tutaj No-Hint bazowy wariant wytwarza mgliste podsumowanie, które odnosi się do postaci w ogólnych terminach i rozmywa ich role, utrudniając śledzenie łańcucha zdarzeń. Dostarczanie nazw postaci poprawia powierzchowne przypomnienie, ale narracja nadal dryfuje, a relacje i motywacje postaci są opisywane w dość “spłaszczony” sposób.

Odwrócony, w pełni ugruntowany wariant MovieTeller utrzymuje identyfikatory stabilne w całym podsumowaniu i wiąże działania z odpowiednimi postaciami, pozwalając na rozwinięcie się śledztwa z wyraźniejszą strukturą przyczynowo-skutkową. Konkretnie napięcia i dynamika ról są zachowane, a nie abstrahowane, w wyniku czego podsumowanie brzmi bardziej jak spójne opowiadanie o głównym łuku filmu:

Część ostatecznego porównania, które nie możemy odtworzyć w całości tutaj, pokazująca ablacjowane i pełne podsumowanie MovieTeller. Proszę odnieść się do oryginalnego artykułu.

Część ostatecznego porównania, które nie możemy odtworzyć w całości tutaj, pokazująca ablacjowane i pełne podsumowanie MovieTeller. Proszę odnieść się do oryginalnego artykułu.

Wnioski

Chociaż większość nowych projektów tego rodzaju kończy się w literaturze Computer Vision, generowanie podsumowań filmów opartych na sztucznej inteligencji obejmuje wiele innych dyscyplin i dziedzin w badaniach nad sztuczną inteligencją – i trudno powiedzieć, które z nich przypadkowo przyczynią się do znalezienia brakującego elementu układanki; chociaż MovieTeller robi krok w dobrym kierunku, dzieląc zadania na odpowiednie moduły, zamiast próbować rozwiązać wszystko dyskretne w latent space, nadal ma “składany” charakter, który często poprzedza późniejsze, bardziej eleganckie rozwiązanie.

 

* Nie mogę zidentyfikować tej instytucji, nawet po przeszukaniu.

Można przypuszczać, że coś w rodzaju IMDB lub OMDB, ale źródło nie jest określone.

†† Proszę odnieść się do oryginalnego artykułu w celu uzyskania kompleksowej ablacjacji, ponieważ tutaj omawiamy tylko pełną ablację w wyjątkowych przypadkach. Zauważam, że nieleczona ablacjacja nie podważa ogólnych wniosków artykułu.

Pierwotnie opublikowane w piątek, 27 lutego 2026

Pisarz na temat uczenia maszynowego, specjalista ds. syntezowania obrazów ludzi. Były kierownik treści badawczych w Metaphysic.ai.