Kunstig intelligens

Brug af AI til at sammenfatte lange ‘How To’-videoer

Published August 16, 2022

Updated April 28, 2026

Martin Anderson

Hvis du er den type, der øger hastigheden på en YouTube-how-to-video for at komme til den information, du faktisk ønsker; konsulterer videoens transskript for at udtrække den væsentlige information, der er skjult i de lange og ofte sponsorbelagte køretider; eller håber, at WikiHow har lavet en mindre tidskrævende version af informationen i den instruktive video; så kan et nyt projekt fra UC Berkeley, Google Research og Brown University være af interesse for dig.

Titled TL;DW? Summarizing Instructional Videos with Task Relevance & Cross-Modal Saliency, den nye artikel beskriver oprettelsen af et AI-baseret video-sammenfatningssystem, der kan identificere relevante trin fra videoen og smide alt andet væk, hvilket resulterer i korte sammenfatninger, der hurtigt kommer til sagen.

WikiHow’s udnyttelse af eksisterende lange videoklip til både tekst- og videoinformation bruges af IV-Sum-projektet til at generere faux-sammenfatninger, der giver grundsandheden for at træne systemet. Kilde: https://arxiv.org/pdf/2208.06773.pdf

De resulterende sammenfatninger har en brøkdel af den oprindelige video’s køretid, mens multi-modale (dvs. tekstbaserede) oplysninger også optages under processen, så fremtidige systemer potentielt kan automatisere oprettelsen af WikiHow-stil blogindlæg, der kan parse en prolix how-to-video til en kort og søgbart kort artikel, komplet med illustrationer, potentielt spare tid og frustration.

Det nye system kaldes IV-Sum (‘Instructional Video Summarizer’), og bruger den open source ResNet-50 computer vision recognition algorithm, blandt andre teknikker, til at identificere relevante billeder og segmenter af en længere kildevideo.

Den konceptuelle arbejdsgang for IV-Sum.

Systemet er trænet på pseudo-sammenfatninger genereret fra indholdsstrukturen af WikiHow-webstedet, hvor rigtige mennesker ofte udnytter populære instruktionsvideoer til en fladere, tekstbaseret multimedieform, ofte med korte klip og animerede GIF’er taget fra kilde-instruktionsvideoer.

Ved at diskutere projektets brug af WikiHow-sammenfatninger som en kilde til grundsandheden for systemet, siger forfatterne:

‘Hver artikel på WikiHow Videos-webstedet består af en hovedinstruktionsvideo, der demonstrerer en opgave, der ofte inkluderer promotionsindhold, klip af instruktøren, der taler til kameraet uden visuel information om opgaven, og trin, der ikke er afgørende for at udføre opgaven. ‘

‘Seere, der ønsker en oversigt over opgaven, ville foretrække en kortere video uden alle ovennævnte irrelevante oplysninger. WikiHow-artiklerne (f.eks. se How to Make Sushi Rice) indeholder netop dette: entsprechende tekst, der indeholder alle vigtige trin i videoen, sammen med billeder/klip, der illustrerer de forskellige trin i opgaven.’

Den resulterende database fra denne web-skrapning kaldes WikiHow Summaries. Database indeholder 2.106 inputvideoer og deres relaterede sammenfatninger. Dette er en bemærkelsesværdigt større størrelse af dataset end normalt er tilgængeligt for video-sammenfatningsprojekter, der normalt kræver dyre og arbejdskrævende manuel mærkning og annotation – en proces, der til stor del er automatiseret i det nye arbejde, takket være den mere begrænsede omfang af at sammenfatte instruktionsvideoer (i stedet for generelle) videoer.

IV-Sum udnytter tidsmæssige 3D convolutional neural network-repræsentationer, i stedet for de ramme-baserede repræsentationer, der kendetegner tidligere lignende arbejder, og en ablationsstudie detaljeret i artiklen bekræfter, at alle komponenterne i denne tilgang er essentielle for systemets funktionalitet.

IV-Sum testede positivt mod forskellige sammenlignelige rammer, herunder CLIP-It (som flere af artiklens forfattere også arbejdede på).

IV-Sum scorer godt mod sammenlignelige metoder, muligvis på grund af dens mere begrænsede anvendelsesområde, i sammenligning med den generelle række af video-sammenfatningsinitiativer. Detaljer om metrikker og scoremetoder længere nede i denne artikel.

Metode

Den første fase i sammenfatningsprocessen indebærer brug af en relativt lav-anstrængende, svagt-overvåget algoritme til at oprette pseudo-sammenfatninger og ramewise importance scores for et stort antal web-skrapede instruktionsvideoer, med kun ét enkelt opgave-mærke i hver video.

Derefter trænes et instruktions-sammenfatningsnetværk på denne data. Systemet tager auto-transkriberet tale (for eksempel YouTube’s egen AI-genererede undertekster til videoen) og kildevideoen som input.

Netværket består af en video-encoder og en segment scoring transformer (SST), og træningen styres af de vigtighedsscores, der er tildelt i pseudo-sammenfatningerne. Den endelige sammenfatning oprettes ved at sammenkæde segmenter, der opnåede en høj vigtighedsscore.

Fra artiklen:

‘Hovedintuitionen bag vores pseudo-sammenfatnings-genererings-pipeline er, at givet mange videoer af en opgave, trin, der er afgørende for opgaven, er sandsynligvis til stede på tværs af multiple videoer (opgave-relevans). ‘

‘Derudover, hvis et trin er vigtigt, er det typisk for demonstratoren at tale om dette trin enten før, under eller efter at udføre det. Derfor vil underteksterne for videoen, som er erhvervet ved hjælp af automatisk tale-genkendelse (ASR), sandsynligvis reference disse nøgletrin (cross-modal saliency).’

For at generere pseudo-sammenfatningen, partitioneres videoen først jævnt i segmenter, og segmenterne grupperes på baggrund af deres visuelle lighed i ‘trin’ (forskellige farver i billedet ovenfor). Disse trin tildeles derefter vigtighedsscores baseret på ‘opgave-relevans’ og ‘cross-modal saliency’ (dvs. korrelationen mellem ASR-tekst og billeder). Højtscorende trin vælges derefter til at repræsentere stadier i pseudo-sammenfatningen.

Systemet bruger Cross-Modal Saliency til at hjælpe med at etablere relevansen af hvert trin, ved at sammenligne den fortolkede tale med billeder og handlinger i videoen. Dette opnås ved hjælp af en forudtrænet video-tekst-model, hvor hvert element er trænet sammen under MIL-NCE-tab, ved hjælp af en 3D CNN video-encoder udviklet af, blandt andre, DeepMind.

En generel vigtighedsscore opnås herefter fra en beregnet gennemsnit af disse opgave-relevans- og cross-modal-analysefaser.

Data

En initial pseudo-sammenfatnings-dataset blev genereret til processen, bestående af det meste af indholdet af to tidligere datasets – COIN, en 2019-sæt indeholdende 11.000 videoer relateret til 180 opgaver; og Cross-Task, som indeholder 4.700 instruktionsvideoer, hvoraf 3.675 blev brugt i forskningen. Cross-Task indeholder 83 forskellige opgaver.

Ovenfor, eksempler fra COIN; nedenfor, fra Cross-Task. Kilder, henholdsvis: https://arxiv.org/pdf/1903.02874.pdf og https://openaccess.thecvf.com/content_CVPR_2019/papers/Zhukov_Cross-Task_Weakly_Supervised_Learning_From_Instructional_Videos_CVPR_2019_paper.pdf

Ved at bruge videoer, der kun er med i begge datasets én gang, kunne forskerne således opnå 12.160 videoer, der dækker 263 forskellige opgaver, og 628,53 timers indhold til deres dataset.

For at befolke WikiHow-baseret dataset og for at give grundsandheden for systemet, scrapede forfatterne WikiHow Videos for alle lange instruktionsvideoer, sammen med deres billeder og video-klip (dvs. GIF’er) associeret med hvert trin. Således skulle strukturen af WikiHow’s afledte indhold fungere som en skabelon for individuationen af trin i det nye system.

Features, der blev udtrukket via ResNet50, blev brugt til at krydsmatche de udvalgte sektioner af video i WikiHow-billeder og udføre lokalisation af trinnene. Det mest lignende erhvervede billede inden for en 5-sekunders video-vindue blev brugt som anchor-punktet.

Disse kortere klip blev herefter syet sammen til videoer, der ville udgøre grundsandheden for træningen af modellen.

Mærker blev tildelt til hver ramme i input-videoen for at erklære, om de tilhørte input-sammenfatningen eller ej, og hver video modtog fra forskerne en ramme-niveau binær mærke og en gennemsnitlig sammenfatnings-score, der blev opnået via vigtighedsscores for alle rammer i segmentet.

På dette stadium var ‘trinnene’ i hver instruktionsvideo nu associeret med tekstbaserede data og mærket.

Træning, tests og metrikker

Den endelige WikiHow-dataset blev inddelt i 1.339 testvideoer og 768 valideringsvideoer – en bemærkelsesværdig øgning i forhold til den gennemsnitlige størrelse af ikke-raw-datasets til videoanalyse.

Video- og tekst-encodere i det nye netværk blev trænet sammen på et S3D netværk med vægte lastet fra en forudtrænet HowTo100M model under MIL-NCE-tab.

Modellen blev trænet med Adam-optimizeren med en læringsrate på 0,01 og en batch-størrelse på 24, med Distributed Data Parallel, der spreder træningen over otte NVIDIA RTX 2080 GPU’er, for i alt 24 GB distribueret VRAM.

IV-Sum blev herefter sammenlignet med forskellige scenarier for CLIP-It i overensstemmelse med lignende tidligere arbejder, herunder en studie om CLIP-It. Metrikker, der blev brugt, var Præcision, Genkald og F-Score-værdier på tværs af tre usupervisede baseline (se artikel for detaljer).

Resultaterne er nævnt i det tidligere billede, men forskerne bemærker desuden, at CLIP-It mangler en række mulige trin på forskellige stadier i testene, som IV-Sum ikke gør. De tilskriver dette til, at CLIP-It er blevet trænet og udviklet ved hjælp af bemærkelsesværdigt småere datasets end det nye WikiHow-korpus.

Konsekvenser

Den mulige langsigtede værdi af denne forskningsstrang (som IV-Sum deler med den bredere udfordring af videoanalyse) kunne være at gøre instruktionsvideo-klip mere tilgængelige for konventionel søgemaskine-indeksering og at muliggøre den type reductive i-resultater ‘snippet’ for videoer, som Google ofte vil trække ud af en længere konventionel artikel.

Det er åbenbart, at udviklingen af enhver AI-baseret proces, der reducerer vores forpligtelse til at anvende lineær og eksklusiv opmærksomhed på videoindhold, kunne have konsekvenser for appel af mediet til en generation af markedsførere, for hvem videoens uigennemsigtighed måske var den eneste måde, de følte, de kunne eksklusivt engagere os.

Med lokalisationen af ‘værdifuld’ indhold svær at fastslå, har brugerbidraget video nydt en bred (omend uvillig) tilfredshed fra medieforbrugere i forhold til produktplacering, sponsor-slots og den generelle selvforherligelse, hvori en videos værdiproposition ofte er indpakket. Projekter som IV-Sum holder løftet om, at til sidst vil underfacetter af videoindhold blive granulære og adskilte fra, hvad mange betragter som ‘ballasten’ af indhold-reklame og ikke-indhold-improvisation.

Udgivet første gang 16. august 2022. Opdateret kl. 14.52 16. august, fjernet gentaget udtryk.