Sztuczna inteligencja

Używanie AI do Streszczenia Długich Filmów “Jak To Zrobić”

Published August 16, 2022

Updated April 28, 2026

Martin Anderson

Jeśli jesteś tym, kto przyspiesza odtwarzanie filmu instruktażowego na YouTube, aby dostać się do informacji, które naprawdę chcesz; konsultujesz transkrypt filmu, aby uzyskać podstawowe informacje ukryte w długim i często sponsorowanym czasie odtwarzania; lub nadajesz, że WikiHow stworzył mniej czasochłonne wersje informacji w filmie instruktażowym; to nowy projekt z UC Berkeley, Google Research i Brown University może być dla Ciebie interesujący.

Nazwany TL;DW? Streszczenie filmów instruktażowych z użyciem Task Relevance & Cross-Modal Saliency, nowy artykuł nowy artykuł szczegółowo opisuje stworzenie systemu AI-aided do streszczenia filmów, który może identyfikować istotne kroki z filmu i odrzucać wszystko inne, w wyniku czego powstają krótkie streszczenia, które szybko dochodzą do sedna sprawy.

WikiHow’s wykorzystanie istniejących długich klipów wideo do tekstu i informacji wideo jest używane przez projekt IV-Sum do generowania fałszywych streszczeń, które dostarczają podstawę do szkolenia systemu. Źródło: https://arxiv.org/pdf/2208.06773.pdf

Wynikowe streszczenia mają ułamek oryginalnego czasu odtwarzania filmu, a informacje wielomodalne (tj. oparte na tekście) są również rejestrowane podczas procesu, aby przyszłe systemy mogły potencjalnie automatyzować tworzenie postów blogowych w stylu WikiHow, które mogą automatycznie parsować długi film instruktażowy na zwięzły i przeszukiwalny krótki artykuł, wraz z ilustracjami, co może zaoszczędzić czas i frustrację.

Nowy system nazywa się IV-Sum (‘Streszczanie filmów instruktażowych’), i używa otwartego źródła ResNet-50 algorytmu rozpoznawania komputerowego, wraz z innymi technikami, aby indywidualizować istotne klatki i segmenty długiego filmu źródłowego.

Konceptualny przepływ pracy dla IV-Sum.

System jest szkolony na pseudo-streszczeniach wygenerowanych z struktury treści witryny WikiHow, gdzie ludzie często wykorzystują popularne filmy instruktażowe do płaskiej, opartej na tekście formy multimedialnej, często używając krótkich klipów i animowanych GIF-ów z źródłowych filmów instruktażowych.

Omawiając projektowy wykorzystanie streszczeń WikiHow jako źródła danych podstawowych dla systemu, autorzy stwierdzają:

‘Każdy artykuł na stronie WikiHow Videos składa się z głównego filmu instruktażowego, który demonstruje zadanie, które często zawiera treści promocyjne, klipy instruktora mówiącego do kamery bez wizualnych informacji o zadaniu, oraz kroki, które nie są niezbędne do wykonania zadania.

‘Widzowie, którzy chcą uzyskać przegląd zadania, wolą krótszy film bez wszystkich powyższych nieistotnych informacji. Artykuły WikiHow (np. zobacz Jak zrobić ryż sushi) zawierają właśnie to: odpowiadający tekst, który zawiera wszystkie ważne kroki w filmie, wraz z towarzyszącymi obrazami/klipami ilustrującymi różne kroki w zadaniu.’

Wynikowa baza danych z tego web-scrapingu nazywa się WikiHow Summaries. Baza danych składa się z 2 106 filmów wejściowych i ich powiązanych streszczeń. Jest to znacznie większy rozmiar zbioru danych niż jest powszechnie dostępny dla projektów streszczenia filmów, które zwykle wymagają drogich i czasochłonnych ręcznych etykietowania i adnotacji – proces, który został w dużej mierze zautomatyzowany w nowej pracy, dzięki bardziej ograniczonemu zakresowi streszczenia filmów instruktażowych (zamiast ogólnych).

IV-Sum wykorzystuje czasowe 3D sieci neuronowe, a nie reprezentacje oparte na klatkach, które charakteryzują poprzednie podobne prace, i studium ablacjum zawarte w artykule potwierdza, że wszystkie składniki tego podejścia są niezbędne do funkcjonalności systemu.

IV-Sum przetestowany pozytywnie w porównaniu z różnymi porównywalnymi ramami, w tym CLIP-It (nad którym kilku autorów artykułu również pracowało).

IV-Sum uzyskuje dobre wyniki w porównaniu z porównywalnymi metodami, możliwie dzięki jego bardziej ograniczonemu zakresowi zastosowania, w porównaniu z ogólnym zakresem inicjatyw streszczenia filmów. Szczegóły metryk i metod punktacji znajdują się dalej w tym artykule.

Metoda

Pierwszym etapem w procesie streszczenia jest użycie względnie niskiego wysiłku, słabo nadzorowanego algorytmu do stworzenia pseudo-streszczeń i klatkowych wskaźników ważności dla dużej liczby wideo pobranych z sieci, z tylko jedną etykietą zadania w każdym filmie.

Następnie sieć streszczenia instruktażowego jest szkolona na tych danych. System pobiera automatycznie transkrybowaną mowę (np. AI-wygenerowane napisy dla filmu) i źródłowy film jako dane wejściowe.

Sieć składa się z kodera wideo i transformatora oceny segmentu (SST), a szkolenie jest kierowane przez wskaźniki ważności przypisane w pseudo-streszczeniach. Ostateczne streszczenie jest tworzone przez łączenie segmentów, które uzyskały wysoki wskaźnik ważności.

Z artykułu:

‘Główna intuicja za naszą pipeline generowania pseudo-streszczeń jest taka, że dane wielu filmów zadania, kroki, które są niezbędne do zadania, są prawdopodobnie widoczne w wielu filmach (istotność zadania).

‘Ponadto, jeśli krok jest ważny, jest typowe, że demonstrator mówi o tym kroku przed, podczas lub po wykonaniu go. Dlatego też napisy dla filmu uzyskane za pomocą automatycznego rozpoznawania mowy (ASR) będą prawdopodobnie odnosić się do tych kluczowych kroków (współmodalna saliency).’

Aby wygenerować pseudo-streszczenie, film jest najpierw podzielony na segmenty, a segmenty są grupowane na podstawie ich podobieństwa wizualnego do ‘kroków’ (różne kolory na powyższym obrazie). Następnie te kroki są przypisane wskaźniki ważności na podstawie ‘istotności zadania’ i ‘współmodalnej saliency’ (tj. korelacji między tekstem ASR a obrazami). Kroki o wysokim wskaźniku są następnie wybrane do reprezentowania etapów w pseudo-streszczeniu.

System wykorzystuje Współmodalną saliency w celu ustalenia istotności każdego kroku, porównując interpretowaną mowę z obrazami i działaniami w filmie. Jest to osiągane za pomocą pre-trenowanego modelu wideo-tekstowego, w którym każdy element jest wspólnie trenowany pod MIL-NCE loss, przy użyciu 3D CNN kodera wideo opracowanego przez DeepMind.

Ogólny wskaźnik ważności jest następnie uzyskany z obliczonej średniej tych etapów istotności zadania i analizy współmodalnej.

Dane

Początkowa baza danych pseudo-streszczeń została wygenerowana dla procesu, składająca się z większości zawartości dwóch poprzednich zbiorów danych – COIN, zestawu z 2019 roku zawierającego 11 000 filmów związanych z 180 zadaniami; i Cross-Task, który zawiera 4 700 filmów instruktażowych, z których 3 675 zostało użytych w badaniu. Cross-Task zawiera 83 różne zadania.

Powyżej, przykłady z COIN; poniżej, z Cross-Task. Źródła, odpowiednio: https://arxiv.org/pdf/1903.02874.pdf i https://openaccess.thecvf.com/content_CVPR_2019/papers/Zhukov_Cross-Task_Weakly_Supervised_Learning_From_Instructional_Videos_CVPR_2019_paper.pdf

Używając filmów, które pojawiły się w obu zbiorach danych tylko raz, badacze byli w stanie uzyskać 12 160 filmów obejmujących 263 różne zadania, oraz 628,53 godziny treści dla swojego zbioru danych.

Aby zaludnić zbiór danych oparty na WikiHow i dostarczyć podstawę dla systemu, autorzy pobrali WikiHow Videos dla wszystkich długich filmów instruktażowych, wraz z ich obrazami i klipami wideo (tj. GIF-ami) związanymi z każdym krokiem. Struktura pochodzącej zawartości WikiHow miała służyć jako szablon do identyfikacji kroków w nowym systemie.

Cechy wyodrębnione za pomocą ResNet50 zostały użyte do dopasowania wybranych sekcji filmu w obrazach WikiHow i wykonania lokalizacji kroków. Najbardziej podobny uzyskany obraz w oknie filmu 5-sekundowego został użyty jako punkt kotwicy.

Te krótsze klipy zostały następnie zszyte w filmy, które stanowiłyby podstawę dla szkolenia modelu.

Etykiety zostały przypisane do każdej klatki w filmie wejściowym, aby oznaczyć, czy należą one do streszczenia wejściowego, czy nie, przy czym każdy film otrzymał od badaczy etykietę binarną na poziomie klatki i średni wskaźnik streszczenia uzyskany za pomocą wskaźników ważności dla wszystkich klatek w segmencie.

W tym momencie “kroki” w każdym filmie instruktażowym były już związane z danymi opartymi na tekście i oznaczone.

Szkolenie, testy i metryki

Ostateczny zbiór danych WikiHow został podzielony na 1 339 filmów testowych i 768 filmów walidacyjnych – godny uwagi wzrost w porównaniu z przeciętnym rozmiarem nieprzetworzonych zbiorów danych poświęconych analizie wideo.

Kodery wideo i tekstu w nowej sieci były wspólnie szkolone na sieci S3D z wagami załadowanymi z pre-trenowanego modelu HowTo100M pod MIL-NCE loss.

Model został przeszkolony z optymalizatorem Adam przy szybkości uczenia 0,01 i rozmiarze partii 24, z Distributed Data Parallel łączącym szkolenie na osiem kart graficznych NVIDIA RTX 2080, dla łącznej ilości 24 GB rozproszonej pamięci VRAM.

IV-Sum został następnie porównany do różnych scenariuszy dla CLIP-It zgodnie z podobnymi poprzednimi pracami, w tym studium na CLIP-It. Użyte metryki to Precision, Recall i F-Score, w trzech nienadzorowanych bazach (zobacz artykuł dla szczegółów).

Wyniki są wymienione w poprzednim obrazie, ale badacze zauważają dodatkowo, że CLIP-It pomija pewne możliwe kroki na różnych etapach testów, których IV-Sum nie pomija. Przypisują to temu, że CLIP-It został przeszkolony i opracowany przy użyciu znacznie mniejszych zbiorów danych niż nowy korpus WikiHow.

Implikacje

Długoterminowa wartość tego nurtu badań (który IV-Sum dzieli z szerszym wyzwaniem analizy wideo) mogłaby polegać na tym, aby uczynić klipy wideo instruktażowe bardziej dostępnymi dla konwencjonalnego indeksowania wyników wyszukiwania, oraz umożliwić rodzaj redukcyjnego wyniku ‘snippet’ dla filmów, który Google często wyodrębnia z dłuższego artykułu konwencjonalnego.

Oczywiście, rozwój jakiegokolwiek procesu AI-aided, który zmniejsza nasze zobowiązanie do zastosowania liniowego i wyłącznego uwagi do treści wideo, mógłby mieć konsekwencje dla atrakcyjności medium dla pokolenia marketerów, dla których nieprzezroczystość wideo była może jedynym sposobem, w jaki czuli, że mogą nas wyłącznie zaangażować.

Z lokalizacją “wartościowego” contenu niezbyt łatwą do określenia, wideo przesyłane przez użytkowników cieszyły się szerokim (choć niechętnym) przyzwoleniem od konsumentów mediów w odniesieniu do umieszczania produktów, miejsc sponsorów i ogólnego samozachwytu, w którym wartość propozycji wideo jest tak często ujęta. Projekty takie jak IV-Sum zawierają obietnicę, że ostatecznie pod-aspekty treści wideo staną się granularne i oddzielne od tego, co wiele osób uważa za “balast” reklamy w treści i nie-treści ekspozycji.

Pierwotnie opublikowane 16 sierpnia 2022. Zaktualizowane 14:52 16 sierpnia, usunięto powtarzające się zdanie.