Umelá inteligencia

Použitie AI na zhrnutie zdĺhavých videí „ako na to“

Aktualizované on Decembra 9, 2022

Hlavný obrázok: DALL-E 2

Ak ste ten typ, ktorý zvýši rýchlosť videa s návodom na YouTube, aby ste sa dostali k informáciám, ktoré skutočne chcete; nahliadnite do prepisu videa, aby ste získali základné informácie skryté v dlhých a často sponzormi zaťažených runtime; alebo dúfam, že WikiHow sa dostala k vytvoreniu menej časovo náročnej verzie informácií v inštruktážnom videu; potom by vás mohol zaujímať nový projekt z UC Berkeley, Google Research a Brown University.

s názvom TL; DW? Zhrnutie inštruktážnych videí s relevantnosťou úloh a vhodnosťou pre rôzne druhy dopravysa nového papiera podrobne popisuje vytvorenie systému sumarizácie videa pomocou AI, ktorý dokáže identifikovať príslušné kroky z videa a zahodiť všetko ostatné, výsledkom čoho sú stručné súhrny, ktoré sa rýchlo preberú.

Využitie existujúcich dlhých videoklipov WikiHow pre textové aj video informácie využíva projekt IV-Sum na generovanie falošných súhrnov, ktoré poskytujú základnú pravdu na trénovanie systému. Zdroj: https://arxiv.org/pdf/2208.06773.pdf

Výsledné súhrny majú zlomok času spustenia pôvodného videa, zatiaľ čo multimodálne (tj textové) informácie sa zaznamenávajú aj počas procesu, takže budúce systémy by mohli potenciálne automatizovať vytváranie blogových príspevkov v štýle WikiHow, ktoré sú schopné automaticky analyzovať rozsiahle video s návodom na stručný a prehľadný krátky článok, doplnený ilustráciami, čo môže ušetriť čas a frustráciu.

Nový systém je tzv IV-Sum ('Instructional Video Summarizer') a používa open source ResNet-50 algoritmus rozpoznávania počítačového videnia, okrem niekoľkých ďalších techník, na individualizáciu príslušných snímok a segmentov dlhého zdrojového videa.

Koncepčný pracovný postup pre IV-Sum.

Systém je trénovaný na pseudosúhrnoch generovaných z obsahovej štruktúry webovej stránky WikiHow, kde skutoční ľudia často využívajú populárne inštruktážne videá do plochejšej textovej multimediálnej formy, pričom často používajú krátke klipy a animované GIFy prevzaté zo zdrojových inštruktážnych videí.

Pri diskusii o použití súhrnov WikiHow v rámci projektu ako zdroja základných pravdivých údajov pre systém autori uvádzajú:

'Každý článok na Videá WikiHow webová stránka pozostáva z hlavného inštruktážneho videa, ktoré ukazuje úlohu, ktorá často zahŕňa propagačný obsah, klipy inštruktora, ktorý hovorí na kameru bez vizuálnych informácií o úlohe, a kroky, ktoré nie sú rozhodujúce pre vykonanie úlohy.

„Diváci, ktorí chcú mať prehľad o úlohe, by uprednostnili kratšie video bez všetkých vyššie uvedených irelevantných informácií. Články WikiHow (napr Ako pripraviť sushi ryžu) obsahujú presne tento: zodpovedajúci text, ktorý obsahuje všetky dôležité kroky vo videu uvedené spolu so sprievodnými obrázkami/klipy ilustrujúcimi rôzne kroky v úlohe.'

Výsledná databáza z tohto web-scrapingu sa nazýva tzv Súhrny WikiHow. Databáza pozostáva z 2,106 XNUMX vstupných videí a ich súvisiacich súhrnov. Ide o výrazne väčšiu veľkosť súboru údajov, než je bežne dostupné pre projekty na zhrnutie videa, ktoré si bežne vyžadujú nákladné a prácne manuálne označovanie a anotáciu – proces, ktorý je v novom diele do značnej miery automatizovaný vďaka obmedzenejšiemu okruhu sumarizácie. inštruktážne (nie všeobecné) videá.

IV-Sum využíva skôr dočasné 3D reprezentácie konvolučných neurónových sietí než reprezentácie založené na rámcoch, ktoré charakterizujú predchádzajúce podobné práce, a ablačná štúdia podrobne uvedená v článku potvrdzuje, že všetky komponenty tohto prístupu sú nevyhnutné pre funkčnosť systému.

IV-Sum testované priaznivo proti rôznym porovnateľným rámcom, vrátane CLIP-It (na ktorej pracovali aj viacerí autori príspevku).

IV-Sum dosahuje dobré výsledky v porovnaní s porovnateľnými metódami, pravdepodobne kvôli obmedzenejšiemu rozsahu použitia v porovnaní so všeobecným priebehom iniciatív na zhrnutie videa. Podrobnosti o metrikách a metódach bodovania ďalej v tomto článku.

Metóda

Prvá fáza procesu sumarizácie zahŕňa použitie relatívne malého úsilia, slabo kontrolovaného algoritmu na vytváranie pseudosúhrnov a rámcové skóre dôležitosti pre veľký počet inštruktážnych videí zoškrabaných z webu, pričom v každom videu je len jeden štítok úlohy.

Ďalej sa na týchto údajoch trénuje inštruktážna sumarizačná sieť. Systém berie ako vstup automaticky prepísanú reč (napríklad titulky videa vytvorené vlastnou AI) a zdrojové video.

Sieť obsahuje kódovač videa a transformátor hodnotenia segmentov (SST) a školenie sa riadi skóre dôležitosti priradenými v pseudosúhrnoch. Konečný súhrn je vytvorený zreťazením segmentov, ktoré dosiahli vysoké skóre dôležitosti.

Z papiera:

„Hlavnou intuíciou nášho postupu na generovanie pseudozhrnutí je, že vzhľadom na množstvo videí s úlohou sa kroky, ktoré sú pre danú úlohu kľúčové, pravdepodobne objavia vo viacerých videách (relevantnosť úlohy).

„Navyše, ak je nejaký krok dôležitý, je typické, že demonštrant o tomto kroku hovorí buď pred, počas alebo po jeho vykonaní. Preto titulky pre video získané pomocou automatického rozpoznávania reči (ASR) budú pravdepodobne odkazovať na tieto kľúčové kroky (výraznosť medzi jednotlivými režimami).'

Na vytvorenie pseudosúhrnu sa video najprv rovnomerne rozdelí na segmenty a segmenty sa zoskupia na základe ich vizuálnej podobnosti do „krokov“ (rôzne farby na obrázku vyššie). Týmto krokom sa potom pridelí skóre dôležitosti na základe „relevancie úlohy“ a „významnosti medzi rôznymi druhmi dopravy“ (tj korelácia medzi textom ASR a obrázkami). Potom sa vyberú kroky s vysokým skóre, ktoré reprezentujú štádiá v pseudosúhrne.

Systém využíva Cross-Modal Saliency pomôcť určiť relevantnosť každého kroku porovnaním tlmočenej reči s obrázkami a akciami vo videu. Toto je dosiahnuté použitím vopred trénovaného video-textového modelu, kde je každý prvok spoločne trénovaný v rámci straty MIL-NCE pomocou 3D CNN video kodér vyvinuté, okrem iného, DeepMind.

Skóre všeobecnej dôležitosti sa potom získa z vypočítaného priemeru týchto fáz relevantnosti úloh a krížovej analýzy.

dátum

Pre proces bol vygenerovaný počiatočný súbor pseudosúhrnných údajov, ktorý obsahuje väčšinu obsahu dvoch predchádzajúcich súborov údajov – COIN, súbor z roku 2019 obsahujúci 11,000 180 videí súvisiacich so XNUMX úlohami; a Krížová úloha, ktorá obsahuje 4,700 3,675 inštruktážnych videí, z ktorých 83 XNUMX bolo použitých vo výskume. Cross-Task obsahuje XNUMX rôznych úloh.

Vyššie uvedené príklady z COIN; nižšie, z Cross-Task. Zdroje: https://arxiv.org/pdf/1903.02874.pdf a https://openaccess.thecvf.com/content_CVPR_2019/papers/Zhukov_Cross-Task_Weakly_Supervised_Learning_From_Instructional_Videos_CVPR_2019

Pomocou videí, ktoré sa v oboch súboroch údajov objavili iba raz, boli vedci schopní získať 12,160 263 videí zahŕňajúcich 628.53 rôznych úloh a XNUMX hodín obsahu pre ich súbor údajov.

Na naplnenie súboru údajov založených na WikiHow a na poskytnutie základnej pravdy pre systém autori zoškrabali videá WikiHow pre všetky dlhé inštruktážne videá spolu s ich obrázkami a videoklipmi (tj GIF) spojenými s každým krokom. Štruktúra odvodeného obsahu WikiHow teda mala slúžiť ako šablóna pre individuáciu krokov v novom systéme.

Funkcie extrahované cez ResNet50 boli použité na krížové porovnanie vybraných častí videa v obrázkoch WikiHow a na vykonanie lokalizácie krokov. Ako kotviaci bod sa použil najpodobnejší získaný obrázok v rámci 5-sekundového video okna.

Tieto kratšie klipy boli potom spojené do videí, ktoré by obsahovali základnú pravdu pre výcvik modelu.

Každému snímku vo vstupnom videu boli priradené štítky, aby sa deklarovalo, či patria do súhrnu vstupu alebo nie, pričom každé video dostalo od výskumníkov binárne označenie na úrovni snímky a priemerné súhrnné skóre získané prostredníctvom skóre dôležitosti pre všetky snímky. v segmente.

V tomto štádiu boli „kroky“ v každom inštruktážnom videu spojené s textovými údajmi a označené.

Školenia, testy a metriky

Konečný súbor údajov WikiHow bol rozdelený na 1,339 768 testovacích videí a XNUMX overovacích videí – čo je pozoruhodný nárast priemernej veľkosti nespracovaných súborov údajov určených na analýzu videa.

Kódovače videa a textu v novej sieti boli spoločne vyškolené na S3D sieť so závažiami naloženými z predtrénovaného Ako na to 100 mil model podľa MIL-NCE straty.

Model bol trénovaný pomocou optimalizátora Adam s rýchlosťou učenia 0.01 pri veľkosti dávky 24, s paralelným prepojením distribuovaných dát, ktoré rozložilo trénovanie na osem GPU NVIDIA RTX 2080, celkovo 24 GB distribuovanej VRAM.

IV-Sum sa potom porovnal s rôznymi scenármi pre CLIP-It v súlade s podobný prior diela, vrátane štúdie o CLIP-It. Použité metriky boli hodnoty Precision, Recall a F-Score v troch základných líniách bez dozoru (podrobnosti nájdete v článku).

Výsledky sú uvedené na predchádzajúcom obrázku, ale výskumníci navyše poznamenávajú, že CLIP-It vynecháva množstvo možných krokov v rôznych fázach testov, ktoré IV-Sum neobsahuje. Pripisujú to CLIP-It, ktorý bol trénovaný a vyvinutý s použitím výrazne menších súborov údajov ako nový korpus WikiHow.

Dôsledky

Preukázateľná dlhodobá hodnota tohto smeru výskumu (ktorý IV-Sum zdieľa so širšou výzvou videoanalýzy) by mohla spočívať v tom, že by inštruktážne videoklipy boli prístupnejšie pre konvenčné indexovanie vyhľadávacích nástrojov a umožnili by druh reduktívneho 'úryvok' vo výsledkoch pre videá, ktoré Google tak často extrahuje z dlhšieho konvenčného článku.

Je zrejmé, že vývoj akékoľvek Proces podporovaný umelou inteligenciou, ktorý znižuje našu povinnosť uplatňovať lineárnu a exkluzívnu pozornosť na videoobsah, by mohol mať dôsledky na príťažlivosť média pre generáciu obchodníkov, pre ktorých bola nepriehľadnosť videa snáď jediným spôsobom, ako si mysleli, že by nás mohli výlučne zaujať.

S umiestnením „hodnotného“ obsahu, ktorý je ťažké určiť, sa video pridané používateľmi tešilo veľkej (ak sa zdráhajúcej) zhovievavosti zo strany spotrebiteľov médií, pokiaľ ide o umiestňovanie produktov, sponzorské sloty a všeobecnú chválu, v ktorej je hodnotová ponuka videa je tak často kašírovaný. Projekty ako IV-Sum sú prísľubom, že v konečnom dôsledku sa čiastkové aspekty video obsahu stanú granulovanými a oddeliteľnými od toho, čo mnohí považujú za „balast“ reklamy v rámci obsahu a extemporizácie bez obsahu.

Prvýkrát zverejnené 16. augusta 2022. Aktualizované 2.52. augusta o 16:XNUMX, odstránená duplicitná fráza.