Tehisintellekt

AI kasutamine pikkade "Kuidas" videote kokkuvõtte tegemiseks

Ajakohastatud on Detsember 9, 2022

Põhipilt: DALL-E 2

Kui olete selline, et kiirendate YouTube'i õpetusvideo kiirust, et jõuda tegelikult soovitud teabeni; tutvuge video transkriptsiooniga, et koguda pika ja sageli sponsorirohke käitusaja jooksul peidetud olulist teavet; või loodan, et WikiHow jõudis õppevideos oleva teabe vähem aeganõudva versiooni loomiseni; siis võib UC Berkeley, Google Researchi ja Browni ülikooli uus projekt teile huvi pakkuda.

pealkirjaga TL;DW? Õppevideote kokkuvõte ülesande asjakohasuse ja erinevate transpordiliikide vahel, uus paber kirjeldab üksikasjalikult tehisintellektiga toetatud video kokkuvõtete süsteemi loomist, mis suudab tuvastada videost asjakohased sammud ja visata kõrvale kõik muu, mille tulemuseks on lühikesed kokkuvõtted, mis lähevad kiiresti jahti.

Projektis IV-Sum kasutab WikiHow olemasolevate pikkade videoklippide kasutamist nii teksti kui ka videoteabe jaoks, et luua võltskokkuvõtteid, mis pakuvad süsteemi koolitamiseks põhjalikku tõde. Allikas: https://arxiv.org/pdf/2208.06773.pdf

Saadud kokkuvõtetel on murdosa algse video käitusajast, samas kui protsessi käigus salvestatakse ka multimodaalne (st tekstipõhine) teave, et tulevased süsteemid saaksid potentsiaalselt automatiseerida WikiHow-stiilis ajaveebipostituste loomist, mida on võimalik automaatselt sõeluda. laiaulatuslik juhendvideo kokkuvõtlikuks ja otsitavaks lühikeseks artikliks koos illustratsioonidega, mis võib säästa aega ja pettumust.

Uut süsteemi nimetatakse IV-Sum ('Instructional Video Summarizer') ja kasutab avatud lähtekoodi ResNet-50 arvutinägemise tuvastamise algoritm mitmete muude tehnikate hulgas, et eraldada pikast lähtevideost asjakohased kaadrid ja lõigud.

IV-Summi kontseptuaalne töövoog.

Süsteemi koolitatakse pseudokokkuvõtete põhjal, mis on genereeritud WikiHow veebisaidi sisustruktuurist, kus tõelised inimesed kasutavad sageli populaarseid õppevideoid lamedamateks tekstipõhiseks multimeediumivormiks, kasutades sageli lühikesi klippe ja animeeritud GIF-e, mis on võetud allika õppevideotest.

Arutades projekti WikiHow kokkuvõtete kasutamist süsteemi põhitõeandmete allikana, väidavad autorid:

"Iga artikkel teemal WikiHow videod veebisait koosneb peamisest õppevideost, mis demonstreerib ülesannet, mis sisaldab sageli reklaamsisu, klippe juhendajast, kes räägib kaamerale ilma ülesande visuaalse teabeta, ja samme, mis ei ole ülesande täitmiseks üliolulised.

„Vaatajad, kes soovivad ülesandest ülevaadet, eelistaksid lühemat videot ilma kogu eelnimetatud ebaolulise teabeta. WikiHow artiklid (nt vt Kuidas teha sushi riisi) sisaldama täpselt seda: vastavat teksti, mis sisaldab kõiki olulisi samme videos koos lisatud piltidega/klippidega, mis illustreerivad ülesande erinevaid samme.'

Sellest veebikraapimisest saadud andmebaasi nimetatakse WikiHow kokkuvõtted. Andmebaas koosneb 2,106 sisendvideost ja nendega seotud kokkuvõtetest. See on märkimisväärselt suurem andmekogum, kui see on tavaliselt saadaval videokokkuvõtete projektide jaoks, mis tavaliselt nõuavad kallist ja töömahukat käsitsi märgistamist ja märkuste lisamist – protsess, mis on uues töös suures osas automatiseeritud, kuna kokkuvõtete tegemise ulatus on piiratum. õppevideod (mitte üldised).

IV-Sum kasutab pigem ajalisi 3D konvolutsioonilise närvivõrgu esitusi, mitte kaadripõhiseid esitusi, mis iseloomustavad varasemaid sarnaseid töid, ja dokumendis üksikasjalikult kirjeldatud ablatsiooniuuring kinnitab, et kõik selle lähenemisviisi komponendid on süsteemi funktsionaalsuse jaoks olulised.

IV-Sum testiti positiivselt erinevate võrreldavate raamistike, sealhulgas CLIP-It (mille kallal töötasid ka mitmed paberi autorid).

IV-Sum annab võrreldavate meetoditega võrreldes häid tulemusi, võib-olla selle piiratuma rakendusala tõttu, võrreldes videokokkuvõtete tegemise algatustega. Mõõdikute ja hindamismeetodite üksikasjad leiate sellest artiklist allpool.

Meetod

Kokkuvõtte tegemise protsessi esimene etapp hõlmab pseudokokkuvõtete loomiseks ja vähese järelevalvega algoritmi kasutamist suhteliselt vähe. raamipõhised tähtsuse hinded suure hulga veebis kokkukraabitud õppevideote jaoks, kusjuures igas videos on ainult üks ülesande silt.

Järgmisena koolitatakse nende andmete põhjal välja juhiste kokkuvõtete võrgustik. Süsteem võtab sisendiks automaatselt transkribeeritud kõne (nt YouTube'i enda loodud tehisintellekti subtiitrid video jaoks) ja lähtevideo.

Võrk koosneb videokodeerijast ja segmendi hindamistrafost (SST) ning koolitust juhivad pseudokokkuvõtetes määratud olulisuse skoorid. Lõplik kokkuvõte luuakse kõrge olulisuse hinde saavutanud segmentide ühendamisel.

Paberist:

"Meie pseudokokkuvõtte genereerimise konveieri peamine intuitsioon seisneb selles, et paljude ülesande videote korral ilmuvad ülesande jaoks olulised sammud tõenäoliselt mitmes videos (ülesande asjakohasus).

'Lisaks, kui mõni samm on oluline, on demonstreerijale tüüpiline, et ta räägib sellest sammust kas enne, selle ajal või pärast selle sooritamist. Seetõttu viitavad automaatse kõnetuvastuse (ASR) abil saadud video subtiitrid tõenäoliselt nendele põhisammudele (transmodaalne silmapaistvus).

Pseudokokkuvõtte loomiseks jaotatakse video esmalt ühtlaselt segmentideks ja segmendid rühmitatakse nende visuaalse sarnasuse alusel "sammudeks" (erinevad värvid ülaloleval pildil). Nendele etappidele määratakse seejärel tähtsuse hinded, mis põhinevad „ülesande asjakohasusel” ja „transpordiliikidevahelisel silmapaistvusel” (st korrelatsioonil ASR-teksti ja piltide vahel). Seejärel valitakse pseudokokkuvõtte etappide esitamiseks kõrge punktisummaga sammud.

Süsteem kasutab Transmodaalne silmapaistvus et aidata kindlaks teha iga sammu asjakohasust, võrreldes tõlgendatud kõnet videos olevate piltide ja tegevustega. See saavutatakse eelkoolitatud videoteksti mudeli kasutamisega, kus iga elementi treenitakse ühiselt MIL-NCE kadu all, kasutades 3D CNN video kodeerija mille on välja töötanud muu hulgas DeepMind.

Üldine tähtsuse skoor saadakse seejärel nende ülesannete asjakohasuse ja ristmodaalse analüüsi etappide arvutatud keskmisest.

kuupäev

Protsessi jaoks loodi esialgne pseudokokkuvõtete andmestik, mis hõlmas suuremat osa kahe varasema andmekogumi sisust – MÜND2019. aasta komplekt, mis sisaldab 11,000 180 videot, mis on seotud XNUMX ülesandega; ja Ristülesanne, mis sisaldab 4,700 õppevideot, millest 3,675 kasutati uurimistöös. Cross-Task sisaldab 83 erinevat ülesannet.

Eespool näited COINist; allpool, Cross-Taskist. Allikad vastavalt: https://arxiv.org/pdf/1903.02874.pdf ja https://openaccess.thecvf.com/content_CVPR_2019/papers/Zhukov_Cross-Task_Weakly_Supervised_Learning_From_Instructional_PRpa2019.pdf.

Kasutades videoid, mis olid mõlemas andmekogumis ainult üks kord, suutsid teadlased seega hankida 12,160 263 videot, mis hõlmavad 628.53 erinevat ülesannet, ja XNUMX tundi sisu nende andmestiku jaoks.

WikiHow-põhise andmestiku täitmiseks ja süsteemi jaoks põhjaliku tõe pakkumiseks kraapisid autorid kõigi pikkade õppevideote jaoks WikiHow videod koos nende piltide ja videoklippide (st GIF-idega), mis on seotud iga sammuga. Seega pidi WikiHow tuletatud sisu struktuur olema malliks uues süsteemis sammude individualiseerimiseks.

ResNet50 kaudu ekstraheeritud funktsioone kasutati WikiHow piltidel kirssidega valitud videolõikude ristsobitamiseks ja sammude lokaliseerimiseks. Ankrupunktina kasutati kõige sarnasemat saadud pilti 5-sekundilises videoaknas.

Need lühemad klipid õmmeldi seejärel kokku videoteks, mis sisaldasid modelli koolituse põhitõde.

Sisendvideo igale kaadrile määrati sildid, et deklareerida, kas need kuulusid sisendkokkuvõttesse või mitte, kusjuures iga video sai uurijatelt kaadritaseme binaarse sildi ja kõigi kaadri tähtsusskooride kaudu saadud keskmise kokkuvõtliku skoori. segmendis.

Selles etapis seostati iga õppevideo "sammud" tekstipõhiste andmetega ja märgistati.

Koolitus, testid ja mõõdikud

Lõplik WikiHow andmestik jagati 1,339 testvideoks ja 768 valideerimisvideoks – see on märkimisväärne kasv videoanalüüsile pühendatud mittetoores andmekogumite keskmises suuruses.

Uue võrgu video- ja tekstikodeerijaid koolitati ühiselt S3D võrk raskustega, mis on laaditud eelnevalt treenitud seadmest Kuidas 100 miljonit mudel MIL-NCE kaotuse all.

Mudelit koolitati Adam optimeerijaga õppimiskiirusega 0.01 partii suurusel 24 koos Distributed Data Parallel linkiga, mis jagas koolituse kaheksa NVIDIA RTX 2080 GPU vahel, kokku 24 GB hajutatud VRAM-i.

Seejärel võrreldi IV-Summi CLIP-It erinevate stsenaariumitega vastavalt sarnane eelnev teoseid, sealhulgas uuringut CLIP-It kohta. Kasutatud mõõdikud olid täpsuse, tagasikutsumise ja F-skoori väärtused kolmel järelevalveta baasjoonel (üksikasju vt paberist).

Tulemused on loetletud varasemal pildil, kuid teadlased märgivad lisaks, et CLIP-It jätab testide eri etappides vahele mitmeid võimalikke samme, mida IV-Sum ei tee. Nad omistavad selle CLIP-Itile, mis on koolitatud ja välja töötatud, kasutades oluliselt väiksemaid andmekogumeid kui uus WikiHow korpus.

Mõju

Selle uurimissuuna vaieldav pikaajaline väärtus (mida IV-Sum jagab videoanalüüsi laiema väljakutsega) võib olla õppevideote tavapäraste otsingumootorite indekseerimise jaoks kättesaadavamaks muutmine ja redutseerivate vahendite võimaldamine. tulemustes "lõik" videote jaoks, mida Google nii sageli pikemast tavapärasest artiklist välja võtab.

Ilmselgelt arendamine mistahes Tehisintellektiga toetatud protsess, mis vähendab meie kohustust pöörata videosisule lineaarset ja eksklusiivset tähelepanu, võib mõjutada meediumi ligitõmbamist turundajate põlvkonnale, kelle jaoks oli video läbipaistmatus ehk ainus viis, kuidas nad tundsid, et suudavad meid eranditult kaasata.

Kuna „väärtusliku” sisu asukohta on raske kindlaks teha, on kasutajate panustatud video meediatarbijad nautinud laialdast (kui see on vastumeelsus) järeleandmist tooteasetuse, sponsori teenindusaegade ja üldise eneseületamise osas, milles video väärtuspakkumine. on nii sageli diivanil. Projektid, nagu IV-Sum, lubavad, et lõpuks muutuvad videosisu alamnäidud granuleeritud ja eraldatavad sellest, mida paljud peavad sisusisese reklaami ja mittesisu ekstemporiseerimise "ballastiks".

Esmakordselt avaldati 16. augustil 2022. Värskendatud 2.52. augustil kell 16, duplikaatfraas on eemaldatud.