Kunstig intelligens

Brug af AI til at opsummere lange 'How To'-videoer

Opdateret on 9. December, 2022

Hovedbillede: DALL-E 2

Hvis du er typen til at skrue op for en YouTube how-to-video for at få den information, du rent faktisk ønsker; konsultere videoens transskription for at indsamle de væsentlige oplysninger, der er gemt i de lange og ofte sponsorfyldte runtimes; ellers håbe, at WikiHow fik lavet en mindre tidskrævende version af informationen i instruktionsvideoen; så kan et nyt projekt fra UC Berkeley, Google Research og Brown University være interessant for dig.

Med titlen TL;DW? Opsummering af instruktionsvideoer med opgaverelevans og cross-modal saliency, nyt papir detaljer om oprettelsen af et AI-støttet videoopsummeringssystem, der kan identificere relevante trin fra videoen og kassere alt andet, hvilket resulterer i korte opsummeringer, der hurtigt skærer til benet.

WikiHows udnyttelse af eksisterende lange videoklip til både tekst- og videoinformation bruges af IV-Sum-projektet til at generere falske resuméer, der giver grundsandheden til at træne systemet. Kilde: https://arxiv.org/pdf/2208.06773.pdf

De resulterende resuméer har en brøkdel af den originale videos runtime, mens multimodal (dvs. tekstbaseret) information også registreres under processen, så fremtidige systemer potentielt kan automatisere oprettelsen af WikiHow-stil blogindlæg, der er i stand til automatisk at parse en prolix how-to-video til en kortfattet og søgbar kort artikel, komplet med illustrationer, hvilket potentielt sparer tid og frustration.

Det nye system hedder IV-Sum ('Instructional Video Summarizer'), og bruger open source ResNet-50 computersynsgenkendelsesalgoritme, blandt flere andre teknikker, til at individualisere relevante frames og segmenter af en lang kildevideo.

Den konceptuelle arbejdsgang for IV-Sum.

Systemet er trænet på pseudo-resuméer genereret fra indholdsstrukturen på WikiHow-webstedet, hvor rigtige mennesker ofte udnytter populære instruktionsvideoer til en fladere, tekstbaseret multimedieform, ofte ved hjælp af korte klip og animerede GIF'er taget fra kildeinstruktionsvideoer.

Forfatterne diskuterer projektets brug af WikiHow-resuméer som en kilde til grundsandhedsdata for systemet:

'Hver artikel om WikiHow-videoer hjemmesiden består af en hovedinstruktionsvideo, der demonstrerer en opgave, der ofte omfatter salgsfremmende indhold, klip af instruktøren, der taler til kameraet uden visuel information om opgaven, og trin, der ikke er afgørende for at udføre opgaven.

'Seere, der ønsker et overblik over opgaven, vil foretrække en kortere video uden alle de førnævnte irrelevante oplysninger. WikiHow-artiklerne (se f.eks Sådan laver du sushiris) indeholder præcis dette: tilsvarende tekst, der indeholder alle de vigtige trin i videoen med tilhørende billeder/klip, der illustrerer de forskellige trin i opgaven.'

Den resulterende database fra denne web-scraping kaldes WikiHow-resuméer. Databasen består af 2,106 inputvideoer og deres relaterede resuméer. Dette er en betydelig større datasætstørrelse, end der er almindeligt tilgængelig for videoresuméprojekter, som normalt kræver dyre og arbejdskrævende manuel mærkning og annotering – en proces, der i vid udstrækning er blevet automatiseret i det nye arbejde, takket være det mere begrænsede omfang af opsummering instruktionsvideoer (i stedet for generelle).

IV-Sum udnytter tidsmæssige 3D-konvolutionelle neurale netværksrepræsentationer snarere end de rammebaserede repræsentationer, der kendetegner tidligere lignende værker, og en ablationsundersøgelse beskrevet i papiret bekræfter, at alle komponenterne i denne tilgang er afgørende for systemets funktionalitet.

IV-Sum testet positivt mod forskellige sammenlignelige rammer, bl.a CLIP-It (som flere af avisens forfattere også arbejdede på).

IV-Sum scorer godt i forhold til sammenlignelige metoder, muligvis på grund af dets mere begrænsede anvendelsesområde, sammenlignet med den generelle række af videoopsummeringsinitiativer. Detaljer om målinger og scoringsmetoder længere nede i denne artikel.

Metode

Det første trin i opsummeringsprocessen involverer brug af en relativt lav indsats, svagt overvåget algoritme til at skabe pseudo-resuméer og rammemæssig betydningsscore for et stort antal web-skrabede instruktionsvideoer, med kun en enkelt opgavelabel i hver video.

Dernæst trænes et instruktions-opsummeringsnetværk på disse data. Systemet tager automatisk transskriberet tale (for eksempel YouTubes egne AI-genererede undertekster til videoen) og kildevideoen som input.

Netværket omfatter en video-encoder og en segment scoring transformer (SST), og træningen er styret af de vigtighedsscorer, der er tildelt i pseudo-resuméerne. Den ultimative oversigt er skabt ved at sammenkæde segmenter, der opnåede en høj vigtighedsscore.

Fra papiret:

'Hovedintuitionen bag vores pseudo-resumégenereringspipeline er, at givet mange videoer af en opgave, vil trin, der er afgørende for opgaven, sandsynligvis vises på tværs af flere videoer (opgaverelevans).

"Hvis et trin er vigtigt, er det desuden typisk for demonstranten at tale om dette trin enten før, under eller efter at have udført det. Derfor vil underteksterne til videoen opnået ved hjælp af Automatic Speech Recognition (ASR) sandsynligvis referere til disse nøgletrin (cross-modal saliency).'

For at generere pseudo-resuméet opdeles videoen først ensartet i segmenter, og segmenterne grupperes baseret på deres visuelle lighed i 'trin' (forskellige farver i billedet ovenfor). Disse trin tildeles derefter vigtighedsscore baseret på 'opgaverelevans' og 'cross-modal saliency' (dvs. sammenhængen mellem ASR-tekst og billeder). Trin med høj score vælges derefter til at repræsentere stadier i pseudo-resuméet.

Systemet bruger Cross-Modal Saliency at hjælpe med at fastslå relevansen af hvert trin ved at sammenligne den fortolkede tale med billederne og handlingerne i videoen. Dette opnås ved brug af en forudtrænet video-tekstmodel, hvor hvert element trænes i fællesskab under MIL-NCE-tab ved hjælp af en 3D CNN video encoder udviklet af blandt andet DeepMind.

En generel vigtighedsscore opnås derefter ud fra et beregnet gennemsnit af disse opgaverelevans og tværmodale analysefaser.

data

Et indledende pseudo-resumédatasæt blev genereret til processen, omfattende det meste af indholdet af to tidligere datasæt – COIN, et sæt fra 2019, der indeholder 11,000 videoer relateret til 180 opgaver; og Tvær-opgave, som indeholder 4,700 instruktionsvideoer, hvoraf 3,675 blev brugt i forskningen. Cross-Task indeholder 83 forskellige opgaver.

Ovenfor, eksempler fra COIN; nedenfor, fra Cross-Task. Kilder henholdsvis: https://arxiv.org/pdf/1903.02874.pdf og https://openaccess.thecvf.com/content_CVPR_2019/papers/Zhukov_Cross-Task_Weakly_Supervised_Learning_From_CVpaPR2019_XNUMX

Ved at bruge videoer, der kun var med i begge datasæt én gang, var forskerne således i stand til at opnå 12,160 videoer, der spænder over 263 forskellige opgaver og 628.53 timers indhold til deres datasæt.

For at udfylde det WikiHow-baserede datasæt og for at give grundlaget for systemet, skrabede forfatterne WikiHow-videoer til alle lange instruktionsvideoer, sammen med deres billeder og videoklip (dvs. GIF'er) tilknyttet hvert trin. Strukturen af WikiHows afledte indhold skulle således tjene som en skabelon for individuering af trin i det nye system.

Funktioner udtrukket via ResNet50 blev brugt til at krydsmatche de kirsebærplukkede sektioner af video i WikiHow-billeder og udføre lokalisering af trinene. Det mest lignende opnåede billede inden for et 5-sekunders videovindue blev brugt som ankerpunkt.

Disse kortere klip blev derefter sat sammen til videoer, der ville udgøre grundsandheden for træningen af modellen.

Etiketter blev tildelt hvert billede i inputvideoen for at erklære, om de tilhørte inputresuméet eller ej, idet hver video fra forskerne modtog en binær etiket på rammeniveau og en gennemsnitlig opsummeringsscore opnået via vigtighedsscorerne for alle billeder i segmentet.

På dette trin var 'trinene' i hver instruktionsvideo nu forbundet med tekstbaserede data og mærket.

Træning, tests og målinger

Det endelige WikiHow-datasæt blev opdelt i 1,339 testvideoer og 768 valideringsvideoer – en bemærkelsesværdig stigning i forhold til den gennemsnitlige størrelse af ikke-rå datasæt dedikeret til videoanalyse.

Video- og tekstkoderne i det nye netværk blev i fællesskab trænet på en S3D netværk med vægte læsset fra en fortrænet Sådan 100 mio model under MIL-NCE tab.

Modellen blev trænet med Adam optimizer med en indlæringshastighed på 0.01 ved en batchstørrelse på 24, med Distributed Data Parallel-linking, der spredte træningen på tværs af otte NVIDIA RTX 2080 GPU'er, til i alt 24 GB distribueret VRAM.

IV-Sum blev derefter sammenlignet med forskellige scenarier for CLIP-It i overensstemmelse med lignende forudgående værker, herunder en undersøgelse om CLIP-It. De anvendte målinger var værdier for præcision, tilbagekaldelse og F-score på tværs af tre uovervågede basislinjer (se papiret for detaljer).

Resultaterne er angivet i det tidligere billede, men forskerne bemærker desuden, at CLIP-It går glip af en række mulige trin på forskellige stadier i testene, hvilket IV-Sum ikke gør. De tilskriver dette, at CLIP-It er blevet trænet og udviklet ved brug af væsentligt mindre datasæt end det nye WikiHow-korpus.

Konsekvenser

Den langsigtede værdi af denne forskningsstreng (som IV-Sum deler med den bredere udfordring ved videoanalyse) kunne være at gøre instruktionsvideoklip mere tilgængelige for konventionel søgemaskineindeksering og at muliggøre den slags reduktive 'uddrag' i resultater for videoer, som Google så ofte vil uddrage fra en længere konventionel artikel.

Det er klart, at udviklingen af enhver AI-støttet proces, der reducerer vores forpligtelse til at anvende lineær og eksklusiv opmærksomhed på videoindhold, kunne have konsekvenser for mediets appel til en generation af marketingfolk, for hvem videoens uigennemsigtighed måske var den eneste måde, de følte, at de udelukkende kunne engagere os på.

Med placeringen af det 'værdifulde' indhold, der er svært at fastlægge, har brugerbidraget video nydt en bred (hvis modvillig) overbærenhed fra medieforbrugere med hensyn til produktplacering, sponsorpladser og den generelle selvforhøjelse, hvor en videos værdiforslag er så ofte couched. Projekter som IV-Sum holder løftet om, at underfacetter af videoindhold i sidste ende vil blive granulære og adskillelige fra, hvad mange anser for at være 'ballasten' af in-content-reklamer og ikke-indholds-ekstemporisering.

Først offentliggjort den 16. august 2022. Opdateret kl. 2.52 den 16. august, fjernet dubletsætning.