ciot Folosind AI pentru a rezuma videoclipuri lungi „Cum se face” - Unite.AI
Conectează-te cu noi

Inteligenta Artificiala

Folosind AI pentru a rezuma videoclipuri lungi „Cum se face”.

mm
Actualizat on
Imaginea principală: DALL-E 2

Dacă sunteți genul care crește viteza unui videoclip YouTube pentru a ajunge la informațiile pe care le doriți cu adevărat; consultați transcrierea videoclipului pentru a culege informațiile esențiale ascunse în perioadele lungi și adesea încărcate de sponsori; sau altfel sperăm că WikiHow a ajuns să creeze o versiune mai puțin consumatoare de timp a informațiilor din videoclipul cu instrucțiuni; atunci un nou proiect de la UC Berkeley, Google Research și Brown University poate fi de interes pentru tine.

intitulat TL;DW? Rezumarea videoclipurilor didactice cu relevanță pentru sarcini și importanță intermodală, hârtie nouă detaliază crearea unui sistem de rezumat video asistat de inteligență artificială care poate identifica pașii pertinenti din videoclip și poate elimina orice altceva, rezultând rezumate scurte care trec rapid la urmărire.

Exploatarea de către WikiHow a clipurilor video lungi existente atât pentru text, cât și pentru informații video este utilizată de proiectul IV-Sum pentru a genera rezumate false care oferă adevărul de bază pentru a antrena sistemul. Sursa: https://arxiv.org/pdf/2208.06773.pdf

Exploatarea de către WikiHow a clipurilor video lungi existente atât pentru text, cât și pentru informații video este folosită de proiectul IV-Sum pentru a genera rezumate false care oferă adevărul de bază pentru a antrena sistemul. Sursă: https://arxiv.org/pdf/2208.06773.pdf

Rezumatele rezultate au o fracțiune din timpul de rulare al videoclipului original, în timp ce informațiile multimodale (adică bazate pe text) sunt, de asemenea, înregistrate în timpul procesului, astfel încât sistemele viitoare ar putea automatiza crearea de postări de blog în stil WikiHow care sunt capabile să analizeze automat. un videoclip prolix de instrucțiuni într-un articol scurt, succint și care poate fi căutat, complet cu ilustrații, care poate economisi timp și frustrare.

Noul sistem este numit IV-Suma („Rezumat video instrucțional”) și utilizează sursa deschisă ResNet-50 algoritm de recunoaștere a vederii computerizate, printre alte câteva tehnici, pentru a individualiza cadrele și segmentele pertinente ale unui videoclip sursă lung.

Fluxul de lucru conceptual pentru IV-Sum.

Fluxul de lucru conceptual pentru IV-Sum.

Sistemul este antrenat pe pseudo-rezumate generate din structura de conținut a site-ului WikiHow, unde oamenii reali folosesc adesea videoclipuri de instruire populare într-o formă multimedia mai plată, bazată pe text, folosind frecvent clipuri scurte și GIF-uri animate preluate din videoclipurile instructive surse.

Discută despre utilizarea de către proiect a rezumatelor WikiHow ca sursă de date de adevăr de bază pentru sistem, autorii afirmă:

„Fiecare articol despre Videoclipuri WikiHow site-ul web constă dintr-un videoclip cu instrucțiuni principale care demonstrează o sarcină care include adesea conținut promoțional, clipuri ale instructorului vorbind cu camera, fără informații vizuale despre sarcină și pași care nu sunt cruciali pentru îndeplinirea sarcinii.

„Telespectatorii care doresc o prezentare generală a sarcinii ar prefera un videoclip mai scurt, fără toate informațiile irelevante menționate mai sus. Articolele WikiHow (de exemplu, vezi Cum să faci orez pentru sushi) conțin exact acesta: text corespunzător care conține toți pașii importanți din videoclipul listat cu imagini/clipuri însoțitoare care ilustrează diferiții pași ai sarcinii.'

Baza de date rezultată din acest web-scraping este numită Rezumate WikiHow. Baza de date constă din 2,106 videoclipuri de intrare și rezumatele acestora. Aceasta este o dimensiune semnificativ mai mare a setului de date decât este disponibilă în mod obișnuit pentru proiectele de rezumare video, care necesită în mod normal etichetare și adnotare manuale costisitoare și care necesită multă muncă - un proces care a fost în mare măsură automatizat în noua lucrare, datorită domeniului mai restrâns de rezumare. videoclipuri instructive (mai degrabă decât generale).

IV-Sum folosește reprezentările temporale ale rețelei neuronale convoluționale 3D, mai degrabă decât reprezentările bazate pe cadru care caracterizează lucrări similare anterioare, iar un studiu de ablație detaliat în lucrare confirmă că toate componentele acestei abordări sunt esențiale pentru funcționalitatea sistemului.

IV-Sum a fost testat favorabil față de diferite cadre comparabile, inclusiv CLIP-It (la care au lucrat și mai mulți dintre autorii lucrării).

IV-Sum are scoruri bune în comparație cu metode comparabile, posibil datorită domeniului său de aplicare mai restrâns, în comparație cu rularea generală a inițiativelor de rezumare video. Detalii despre valorile și metodele de notare mai jos în acest articol.

IV-Sum are scoruri bune în comparație cu metode comparabile, posibil datorită domeniului său de aplicare mai restrâns, în comparație cu rularea generală a inițiativelor de rezumare video. Detalii despre valorile și metodele de notare mai jos în acest articol.

Metodă

Prima etapă a procesului de rezumare implică utilizarea unui algoritm de efort relativ scăzut, slab supravegheat pentru a crea pseudo-rezumate și scoruri de importanță în funcție de cadru pentru un număr mare de videoclipuri cu instrucțiuni realizate pe web, cu o singură etichetă de sarcină în fiecare videoclip.

În continuare, o rețea de rezumare a instrucțiunilor este antrenată pe aceste date. Sistemul preia vorbirea transcrisă automat (de exemplu, subtitrările proprii YouTube generate de AI pentru videoclip) și videoclipul sursă ca intrare.

Rețeaua cuprinde un codificator video și un transformator de punctare a segmentelor (SST), iar antrenamentul este ghidat de scorurile de importanță atribuite în pseudo-rezumate. Rezumatul final este creat prin concatenarea segmentelor care au obținut un scor de importanță ridicat.

Din hârtie:

„Intuiția principală din spatele canalului nostru de generare de pseudo-rezumate este că, având în vedere multe videoclipuri ale unei sarcini, pașii care sunt cruciali pentru sarcină sunt probabil să apară în mai multe videoclipuri (relevanța sarcinii).

„În plus, dacă un pas este important, este tipic ca demonstrantul să vorbească despre acest pas înainte, în timpul sau după efectuarea acestuia. Prin urmare, subtitrările pentru videoclipul obținut utilizând Recunoașterea automată a vorbirii (ASR) vor face probabil referire la acești pași cheie (selecție intermodală).'

Pentru a genera pseudo-rezumatul, videoclipul este mai întâi împărțit uniform în segmente, iar segmentele grupate în funcție de similitudinea lor vizuală în „pași” (diferite culori în imaginea de mai sus). Acestor pași li se atribuie apoi scoruri de importanță bazate pe „relevanța sarcinii” și „proeminenta intermodală” (adică corelația dintre textul ASR și imagini). Pașii cu punctaj ridicat sunt apoi aleși pentru a reprezenta etapele din pseudo-rezumat.

Pentru a genera pseudo-rezumatul, videoclipul este mai întâi împărțit uniform în segmente, iar segmentele grupate în funcție de similitudinea lor vizuală în „pași” (diferite culori în imaginea de mai sus). Acestor pași li se atribuie apoi scoruri de importanță bazate pe „relevanța sarcinii” și „proeminenta intermodală” (adică corelația dintre textul ASR și imagini). Pașii cu punctaj ridicat sunt apoi aleși pentru a reprezenta etapele din pseudo-rezumat.

Sistemul foloseste Proeminență intermodală pentru a ajuta la stabilirea relevanței fiecărui pas, prin compararea discursului interpretat cu imaginile și acțiunile din videoclip. Acest lucru se realizează prin utilizarea unui model video-text pre-antrenat în care fiecare element este antrenat în comun sub pierderea MIL-NCE, folosind un Codificator video 3D CNN dezvoltat, printre altele, de DeepMind.

Se obține apoi un scor de importanță generală dintr-o medie calculată a relevanței sarcinilor și a etapelor de analiză transmodală.

Date

A fost generat un set de date inițial pseudo-rezumate pentru proces, cuprinzând majoritatea conținutului a două seturi de date anterioare - MONEDE, un set 2019 care conține 11,000 de videoclipuri legate de 180 de sarcini; și Sarcină încrucișată, care conține 4,700 de videoclipuri cu instrucțiuni, dintre care 3,675 au fost folosite în cercetare. Cross-Task oferă 83 de sarcini diferite.

Mai sus, exemple din COIN; mai jos, din Cross-Task. Surse, respectiv: https://arxiv.org/pdf/1903.02874.pdf și https://openaccess.thecvf.com/content_CVPR_2019/papers/Zhukov_Cross-Task_Weakly_Supervised_Learning_From_Instructional_Videos_CVPR_2019_CVPR_paper.pdf

Mai sus, exemple din COIN; mai jos, din Cross-Task. Surse, respectiv: https://arxiv.org/pdf/1903.02874.pdf și https://openaccess.thecvf.com/content_CVPR_2019/papers/Zhukov_Cross-Task_Weakly_Supervised_Learning_From_Instructional_Videos_CVPR_2019_CVPR_paper.pdf

Folosind videoclipuri care au apărut în ambele seturi de date o singură dată, cercetătorii au reușit astfel să obțină 12,160 de videoclipuri care acoperă 263 de sarcini diferite și 628.53 ore de conținut pentru setul lor de date.

Pentru a popula setul de date bazat pe WikiHow și pentru a oferi adevărul de bază pentru sistem, autorii au răzuit videoclipuri WikiHow pentru toate videoclipurile cu instrucțiuni lungi, împreună cu imaginile și clipurile video (adică GIF-urile) asociate fiecărui pas. Astfel, structura conținutului derivat al WikiHow urma să servească drept șablon pentru individuarea pașilor în noul sistem.

Caracteristicile extrase prin ResNet50 au fost folosite pentru a se potrivi încrucișați secțiunile video selectate în imaginile WikiHow și pentru a realiza localizarea pașilor. Cea mai similară imagine obținută într-o fereastră video de 5 secunde a fost folosită ca punct de ancorare.

Aceste clipuri mai scurte au fost apoi legate împreună în videoclipuri care ar cuprinde adevărul de bază pentru antrenamentul modelului.

Etichete au fost atribuite fiecărui cadru din videoclipul de intrare, pentru a declara dacă aparțin rezumatului de intrare sau nu, fiecare videoclip primind de la cercetători o etichetă binară la nivel de cadru și un scor mediu rezumat obținut prin scorurile de importanță pentru toate cadrele. în segment.

În această etapă, „pașii” din fiecare videoclip cu instrucțiuni erau acum asociați cu date bazate pe text și etichetați.

Antrenament, teste și metrici

Setul de date final WikiHow a fost împărțit în 1,339 de videoclipuri de testare și 768 de videoclipuri de validare - o creștere demnă de remarcat a dimensiunii medii a seturilor de date non-raw dedicate analizei video.

Codificatorii video și text din noua rețea au fost instruiți în comun asupra unui S3D rețea cu greutăți încărcate de la un preantrenat Cum să100M model sub pierdere MIL-NCE.

Modelul a fost antrenat cu optimizatorul Adam la o rată de învățare de 0.01 la o dimensiune a lotului de 24, cu o legătură Distributed Data Parallel care a răspândit antrenamentul pe opt GPU-uri NVIDIA RTX 2080, pentru un total de 24 GB de VRAM distribuită.

IV-Sum a fost apoi comparat cu diverse scenarii pentru CLIP-It în conformitate cu asemănător anterior lucrări, inclusiv un studiu despre CLIP-It. Valorile utilizate au fost valorile Precision, Recall și F-Score, pe trei linii de bază nesupravegheate (a se vedea lucrarea pentru detalii).

Rezultatele sunt enumerate în imaginea anterioară, dar cercetătorii notează în plus că CLIP-It ratează o serie de pași posibili în diferite etape ale testelor, pe care IV-Sum nu face. Ei atribuie acest lucru faptului că CLIP-It a fost instruit și dezvoltat folosind seturi de date mult mai mici decât noul corpus WikiHow.

Implicații

Valoarea discutabilă pe termen lung a acestei componente de cercetare (pe care IV-Sum o împarte cu provocarea mai largă a analizei video) ar putea fi aceea de a face clipurile video instructive mai accesibile pentru indexarea convențională a motoarelor de căutare și de a permite tipul de reducere. „fragment” din rezultate pentru videoclipuri pe care Google le va extrage atât de des dintr-un articol convențional mai lung.

Evident, dezvoltarea Orice Procesul asistat de inteligența artificială care reduce obligația noastră de a acorda atenție liniară și exclusivă conținutului video ar putea avea ramificații pentru atractivitatea mediului pentru o generație de marketeri pentru care opacitatea videoclipurilor a fost poate singura modalitate prin care au simțit că ne pot implica exclusiv.

Având în vedere locația conținutului „valoros” greu de identificat, videoclipurile contribuite de utilizatori s-au bucurat de o largă (dacă reticentă) îngăduință din partea consumatorilor media în ceea ce privește plasarea produselor, sloturile sponsorilor și auto-mărirea generală în care propunerea de valoare a unui videoclip. este atât de des formulată. Proiecte precum IV-Sum dețin promisiunea că, în cele din urmă, sub-fațetele conținutului video vor deveni granulare și separabile de ceea ce mulți consideră a fi „balastul” publicității în conținut și extemporizării non-conținut.

 

Prima dată publicată pe 16 august 2022. Actualizată la ora 2.52, 16 august, fraza duplicată a fost eliminată.

Scriitor despre învățare automată, inteligență artificială și date mari.
Site personal: martinanderson.ai
Contact: [e-mail protejat]
Twitter: @manders_ai