քոթուկ Օգտագործելով AI-ն՝ երկար «Ինչպես» տեսանյութերը ամփոփելու համար - Unite.AI
Միացեք մեզ

Արհեստական ​​բանականություն

Օգտագործելով AI-ն՝ երկար «Ինչպես անել» տեսանյութերը ամփոփելու համար

mm
Թարմացվել է on
Հիմնական պատկերը՝ DALL-E 2

Եթե ​​դուք այնպիսին եք, որ բարձրացնեք YouTube-ի տեսանյութի արագությունը, որպեսզի հասնեք ձեր իրական ուզած տեղեկատվությանը. խորհրդակցեք տեսանյութի սղագրության վրա՝ երկար և հաճախ հովանավորներով ծանրաբեռնված գործարկման ժամանակներում թաքնված հիմնական տեղեկությունները հավաքելու համար. կամ հուսալ, որ WikiHow-ին հաջողվել է ստեղծել ուսումնական տեսանյութի տեղեկատվության ավելի քիչ ժամանակատար տարբերակ. ապա UC Berkeley-ի, Google Research-ի և Brown University-ի նոր նախագիծը կարող է ձեզ հետաքրքրել:

վերնագրված TL;DW? Ուսումնական տեսանյութերի ամփոփում՝ առաջադրանքների համապատասխանությամբ և խաչաձեւ մոդալային ընդգծվածությամբԷ, նոր թուղթ մանրամասնում է AI-ի օգնությամբ տեսանյութերի ամփոփման համակարգի ստեղծումը, որը կարող է բացահայտել համապատասխան քայլերը տեսանյութից և հրաժարվել մնացած ամեն ինչից, ինչը հանգեցնում է կարճ ամփոփումների, որոնք արագորեն ավարտվում են:

WikiHow-ի կողմից գոյություն ունեցող երկար տեսահոլովակների օգտագործումը և՛ տեքստային, և՛ վիդեո տեղեկատվության համար օգտագործվում է IV-Sum նախագծի կողմից՝ կեղծ ամփոփագրեր ստեղծելու համար, որոնք ապահովում են հիմնական ճշմարտությունը՝ համակարգը վարժեցնելու համար: Աղբյուր՝ https://arxiv.org/pdf/2208.06773.pdf

WikiHow-ի կողմից գոյություն ունեցող երկար տեսահոլովակների օգտագործումը և՛ տեքստային, և՛ վիդեո տեղեկատվության համար օգտագործվում է IV-Sum նախագծի կողմից՝ կեղծ ամփոփագրեր ստեղծելու համար, որոնք ապահովում են հիմնական ճշմարտությունը համակարգը վարժեցնելու համար: Աղբյուր՝ https://arxiv.org/pdf/2208.06773.pdf

Ստացված ամփոփագրերն ունեն բնօրինակ տեսանյութի գործարկման ժամանակի մի մասը, մինչդեռ բազմամոդալ (այսինքն՝ տեքստի վրա հիմնված) տեղեկատվությունը նույնպես գրանցվում է գործընթացի ընթացքում, որպեսզի ապագա համակարգերը կարող են ավտոմատացնել WikiHow-ի ոճով բլոգային գրառումների ստեղծումը, որոնք կարող են ավտոմատ կերպով վերլուծել։ prolix, թե ինչպես կարելի է տեսահոլովակ դարձնել հակիրճ և որոնելի կարճ հոդված, որը լրացվում է նկարազարդումներով, ինչը կարող է խնայել ժամանակն ու հիասթափությունը:

Նոր համակարգը կոչվում է IV-Գումար ('Instructional Video Summarizer'), և օգտագործում է բաց կոդով ResNet-50 Համակարգչային տեսողության ճանաչման ալգորիթմ, ի թիվս մի քանի այլ տեխնիկայի, երկարատև աղբյուրի տեսանյութի համապատասխան շրջանակներն ու հատվածները առանձնացնելու համար:

IV-Sum-ի հայեցակարգային աշխատանքային հոսքը:

IV-Sum-ի հայեցակարգային աշխատանքային հոսքը:

Համակարգը վերապատրաստվում է WikiHow կայքի բովանդակության կառուցվածքից ստացված կեղծ ամփոփագրերի վրա, որտեղ իրական մարդիկ հաճախ օգտագործում են հանրաճանաչ ուսուցողական տեսանյութերը ավելի հարթ, տեքստի վրա հիմնված մուլտիմեդիա ձևի մեջ՝ հաճախ օգտագործելով կարճ հոլովակներ և անիմացիոն GIF-ներ, որոնք վերցված են սկզբնաղբյուր ուսուցողական տեսանյութերից:

Քննարկելով նախագծի կողմից WikiHow ամփոփագրերի օգտագործումը որպես համակարգի համար հիմնավոր ճշմարտության տվյալների աղբյուր՝ հեղինակները նշում են.

«Յուրաքանչյուր հոդված WikiHow տեսանյութեր կայքը բաղկացած է հիմնական ուսուցողական տեսանյութից, որը ցույց է տալիս առաջադրանքը, որը հաճախ ներառում է գովազդային բովանդակություն, տեսախցիկի հետ խոսող ուսուցչի հոլովակներ՝ առանց առաջադրանքի տեսողական տեղեկատվության, և քայլեր, որոնք կարևոր չեն առաջադրանքը կատարելու համար:

«Դիտողները, ովքեր ցանկանում են ընդհանուր պատկերացում կազմել առաջադրանքի մասին, կնախընտրեն ավելի կարճ տեսանյութ՝ առանց վերը նշված բոլոր անհամապատասխան տեղեկատվության: WikiHow հոդվածները (օրինակ՝ տե՛ս Ինչպես պատրաստել սուշի բրինձ) պարունակում է հենց սա. համապատասխան տեքստ, որը պարունակում է տեսանյութի բոլոր կարևոր քայլերը, որոնք նշված են ուղեկցող պատկերներով/հոլովակներով, որոնք ցույց են տալիս առաջադրանքի տարբեր քայլերը։'

Այս վեբ-քերծվածքից ստացված տվյալների բազան կոչվում է WikiHow Ամփոփումներ. Տվյալների բազան բաղկացած է 2,106 մուտքային տեսանյութերից և դրանց առնչվող ամփոփագրերից: Սա զգալիորեն ավելի մեծ տվյալների հավաքածու է, քան սովորաբար հասանելի է վիդեո ամփոփման նախագծերի համար, որոնք սովորաբար պահանջում են թանկարժեք և աշխատատար ձեռքով պիտակավորում և ծանոթագրություն. մի գործընթաց, որը հիմնականում ավտոմատացվել է նոր աշխատանքում, ամփոփման ավելի սահմանափակ շրջանակի շնորհիվ: ուսուցողական (այլ ոչ թե ընդհանուր) տեսանյութեր։

IV-Sum-ն օգտագործում է ժամանակավոր 3D կոնվոլյուցիոն նեյրոնային ցանցի ներկայացումները, այլ ոչ թե շրջանակի վրա հիմնված ներկայացումները, որոնք բնութագրում են նախորդ նմանատիպ աշխատանքները, և փաստաթղթում մանրամասնված աբլացիոն ուսումնասիրությունը հաստատում է, որ այս մոտեցման բոլոր բաղադրիչները էական են համակարգի ֆունկցիոնալության համար:

IV-Sum-ը բարենպաստ փորձարկվել է տարբեր համադրելի շրջանակների նկատմամբ, այդ թվում ԿԼԻՊ-Այն (որի վրա աշխատել են նաև թերթի մի քանի հեղինակներ):

IV-Sum-ը լավ գնահատականներ է ստանում համեմատելի մեթոդների նկատմամբ, հնարավոր է, որ իր կիրառման ավելի սահմանափակ շրջանակի պատճառով՝ համեմատած տեսանյութերի ամփոփման նախաձեռնությունների ընդհանուր շարքի հետ: Չափումների և գնահատման մեթոդների մանրամասները այս հոդվածում:

IV-Sum-ը լավ գնահատականներ է ստանում համեմատելի մեթոդների նկատմամբ, հնարավոր է, որ իր կիրառման ավելի սահմանափակ շրջանակի պատճառով՝ համեմատած տեսանյութերի ամփոփման նախաձեռնությունների ընդհանուր շարքի հետ: Չափումների և գնահատման մեթոդների մանրամասները այս հոդվածում:

Մեթոդ

Ամփոփման գործընթացի առաջին փուլը ներառում է համեմատաբար ցածր ջանքերի, թույլ վերահսկվող ալգորիթմի օգտագործումը կեղծ ամփոփագրեր ստեղծելու համար և շրջանակային կարևորության միավորներ մեծ թվով վեբ-քերծված ուսուցողական տեսանյութերի համար՝ յուրաքանչյուր տեսանյութում միայն մեկ առաջադրանքի պիտակով:

Հաջորդը, այս տվյալների վրա վերապատրաստվում է ուսուցողական ամփոփման ցանց: Համակարգն ընդունում է ավտոմատ տառադարձված խոսքը (օրինակ՝ YouTube-ի սեփական AI-ի կողմից ստեղծված ենթագրերը տեսանյութի համար) և աղբյուրի տեսանյութը որպես մուտքագրում:

Ցանցը ներառում է վիդեո կոդավորիչ և հատվածի գնահատման տրանսֆորմատոր (SST), և ուսուցումն առաջնորդվում է կեղծ ամփոփագրերում նշանակված կարևոր միավորներով: Վերջնական ամփոփումը ստեղծվում է միացնելով հատվածները, որոնք ստացել են բարձր կարևոր միավոր:

Թղթից.

«Մեր կեղծ ամփոփագրերի ստեղծման հիմնական ինտուիցիան այն է, որ հաշվի առնելով առաջադրանքի բազմաթիվ տեսանյութերը, առաջադրանքի համար կարևոր քայլերը, հավանաբար, կհայտնվեն բազմաթիվ տեսանյութերում (առաջադրանքի համապատասխանությունը):

«Բացի այդ, եթե քայլը կարևոր է, ապա ցուցարարին բնորոշ է այդ քայլի մասին խոսելը կամ այն ​​կատարելուց առաջ, ընթացքում կամ հետո։ Հետևաբար, խոսքի ավտոմատ ճանաչման (ASR) միջոցով ստացված տեսանյութի ենթագրերը, հավանաբար, կմատնանշեն այս հիմնական քայլերը (միջմոդալ կարևորություն):'

Կեղծ ամփոփագիր ստեղծելու համար տեսանյութը սկզբում միատեսակ բաժանվում է հատվածների, իսկ հատվածները՝ ելնելով իրենց տեսողական նմանությունից, խմբավորվում են «քայլերի» մեջ (տարբեր գույներ վերևի նկարում): Այս քայլերին այնուհետև նշանակվում են կարևորության միավորներ՝ հիմնվելով «առաջադրանքի համապատասխանության» և «միջմոդալային կարևորության» վրա (այսինքն՝ ASR տեքստի և պատկերների միջև հարաբերակցությունը): Այնուհետև ընտրվում են բարձր միավորներով քայլեր՝ կեղծ ամփոփման փուլերը ներկայացնելու համար:

Կեղծ ամփոփագիր ստեղծելու համար տեսանյութը սկզբում միատեսակ բաժանվում է հատվածների, իսկ հատվածները՝ ելնելով իրենց տեսողական նմանությունից, խմբավորվում են «քայլերի» մեջ (տարբեր գույներ վերևի նկարում): Այս քայլերին այնուհետև նշանակվում են կարևորության միավորներ՝ հիմնվելով «առաջադրանքի համապատասխանության» և «միջմոդալային կարևորության» վրա (այսինքն՝ ASR տեքստի և պատկերների միջև հարաբերակցությունը): Այնուհետև ընտրվում են բարձր միավորներով քայլեր՝ կեղծ ամփոփման փուլերը ներկայացնելու համար:

Համակարգն օգտագործում է Cross-Modal Saliency օգնել պարզել յուրաքանչյուր քայլի համապատասխանությունը՝ համեմատելով մեկնաբանված խոսքը տեսանյութի պատկերների և գործողությունների հետ: Սա իրականացվում է նախապես պատրաստված տեսատեքստային մոդելի օգտագործմամբ, որտեղ յուրաքանչյուր տարր համատեղ վերապատրաստվում է MIL-NCE կորստի դեպքում՝ օգտագործելով 3D CNN վիդեո կոդավորիչ մշակվել է, ի թիվս այլոց, DeepMind-ի կողմից:

Այնուհետև ստացվում է ընդհանուր կարևորության միավոր այս առաջադրանքի համապատասխանության և միջմոդալ վերլուծության փուլերի հաշվարկված միջինից:

Ամսաթիվ

Գործընթացի համար ստեղծվել է կեղծ ամփոփագրերի սկզբնական տվյալների բազա, որը ներառում է երկու նախորդ տվյալների հավաքածուների բովանդակության մեծ մասը. INԻՆ, 2019 թվականի հավաքածու, որը պարունակում է 11,000 տեսանյութ՝ կապված 180 առաջադրանքների հետ. և Cross-Task, որը պարունակում է 4,700 ուսուցողական տեսանյութ, որից 3,675-ն օգտագործվել է հետազոտության մեջ։ Cross-Task-ն ունի 83 տարբեր առաջադրանքներ:

Վերևում օրինակներ COIN-ից; ստորև՝ Cross-Task-ից։ Աղբյուրները, համապատասխանաբար՝ https://arxiv.org/pdf/1903.02874.pdf և https://openaccess.thecvf.com/content_CVPR_2019/papers/Zhukov_Cross-Task_Weakly_Supervised_Learning_From_Instructional_P_paperos.

Վերևում օրինակներ COIN-ից; ստորև՝ Cross-Task-ից։ Աղբյուրները, համապատասխանաբար՝ https://arxiv.org/pdf/1903.02874.pdf և https://openaccess.thecvf.com/content_CVPR_2019/papers/Zhukov_Cross-Task_Weakly_Supervised_Learning_From_Instructional_P_paperos.

Օգտագործելով տեսանյութեր, որոնք ներկայացված են երկու տվյալների հավաքածուներում միայն մեկ անգամ, հետազոտողները կարողացել են ստանալ 12,160 տեսանյութ, որոնք ընդգրկում են 263 տարբեր առաջադրանքներ և 628.53 ժամ բովանդակություն իրենց տվյալների հավաքածուի համար:

WikiHow-ի վրա հիմնված տվյալների բազան համալրելու և համակարգի համար հիմնավոր ճշմարտությունն ապահովելու համար հեղինակները քերել են WikiHow տեսանյութերը բոլոր երկար ուսումնական տեսանյութերի համար՝ յուրաքանչյուր քայլի հետ կապված նրանց պատկերների և տեսահոլովակների հետ միասին: Այսպիսով, WikiHow-ի ածանցյալ բովանդակության կառուցվածքը պետք է ծառայեր որպես նոր համակարգում քայլերի անհատականացման ձևանմուշ։

ResNet50-ի միջոցով արդյունահանված գործառույթներն օգտագործվել են WikiHow-ի պատկերներում տեսանյութի ընտրված հատվածները խաչաձև համապատասխանեցնելու և քայլերի տեղայնացման համար: Որպես խարիսխի կետ օգտագործվել է 5 վայրկյան տևողությամբ տեսանյութի պատուհանում ստացված ամենանման պատկերը:

Այս կարճ հոլովակները այնուհետև միացվեցին տեսահոլովակների մեջ, որոնք կներկայացնեին մոդելի ուսուցման հիմնական ճշմարտությունը:

Մուտքային տեսանյութի յուրաքանչյուր կադրին հատկացվել են պիտակներ՝ պարզելու համար, թե արդյոք դրանք պատկանում են մուտքագրման ամփոփագրին, թե ոչ, յուրաքանչյուր տեսանյութ հետազոտողներից ստանում է կադրի մակարդակի երկուական պիտակ և միջին ամփոփ միավոր՝ ստացված բոլոր կադրերի կարևորության միավորների միջոցով։ հատվածում։

Այս փուլում յուրաքանչյուր ուսումնական տեսանյութի «քայլերը» այժմ կապված էին տեքստի վրա հիմնված տվյալների հետ և պիտակավորված:

Ուսուցում, թեստեր և չափումներ

WikiHow-ի վերջնական տվյալների բազան բաժանվել է 1,339 թեստային տեսանյութերի և 768 վավերացման տեսանյութերի՝ տեսավերլուծությանը նվիրված ոչ հում տվյալների հավաքածուների միջին չափի ուշագրավ աճ:

Նոր ցանցում վիդեո և տեքստային կոդավորիչները համատեղ վերապատրաստվել են ան S3D ցանց կշիռներով, որոնք բեռնված են նախապես պատրաստվածից HowTo 100M մոդելը MIL-NCE կորստի տակ:

Մոդելը վերապատրաստվել է Adam-ի օպտիմիզատորով 0.01 ուսուցման արագությամբ 24 խմբաքանակի չափով, բաշխված տվյալների զուգահեռ կապելով ուսուցումը տարածելով ութ NVIDIA RTX 2080 GPU-ների վրա՝ ընդհանուր 24 ԳԲ բաշխված VRAM-ի համար:

Այնուհետև IV-Sum-ը համեմատվել է CLIP-I-ի տարբեր սցենարների հետ՝ համաձայն նման նախորդող աշխատանքները, ներառյալ CLIP-It-ի վերաբերյալ ուսումնասիրությունը: Օգտագործված չափորոշիչներն էին Precision, Recall և F-Score արժեքները երեք չվերահսկվող բազային գծերի համար (մանրամասների համար տե՛ս թուղթ):

Արդյունքները թվարկված են ավելի վաղ նկարում, սակայն հետազոտողները լրացուցիչ նշում են, որ CLIP-It թեստերի տարբեր փուլերում բաց է թողնում մի շարք հնարավոր քայլեր, որոնք IV-Sum-ը չի անում: Նրանք դա վերագրում են նրան, որ CLIP-It վերապատրաստվել և մշակվել է՝ օգտագործելով զգալիորեն ավելի փոքր տվյալների հավաքածուներ, քան նոր WikiHow կորպուսը:

Հետեւանքները

Հետազոտության այս հատվածի երկարաժամկետ արժեքը (որը IV-Sum-ը կիսում է տեսավերլուծության ավելի լայն մարտահրավերը) կարող է լինել ուսուցողական տեսահոլովակները սովորական որոնման ինդեքսավորման համար ավելի մատչելի դարձնելը և նվազեցնելու տեսակը: արդյունքների «հատված» տեսանյութերի համար, որոնք Google-ը հաճախ է հանում ավելի երկար սովորական հոդվածից:

Ակնհայտ է, որ զարգացումը ցանկացած AI-ի օգնությամբ գործընթացը, որը նվազեցնում է տեսաբովանդակության վրա գծային և բացառիկ ուշադրություն դարձնելու մեր պարտավորությունը, կարող է հետևանքներ ունենալ մեդիայի գրավչության համար շուկայավարների մի սերնդի համար, որոնց համար տեսանյութի անթափանցիկությունը, հավանաբար, միակ միջոցն էր, որը նրանք կարծում էին, որ կարող են բացառապես ներգրավել մեզ:

Քանի որ «արժեքավոր» բովանդակության գտնվելու վայրը դժվար է որոշել, օգտատերերի կողմից տրամադրված տեսանյութը արժանացել է մեդիա սպառողների լայն (եթե դժկամությամբ) ներողամտությանը արտադրանքի տեղաբաշխման, հովանավորների տեղաբաշխման և ընդհանուր ինքնահռչակման, որում տեսանյութի արժեքային առաջարկը: այնքան հաճախ է պառկած: Նախագծերը, ինչպիսին է IV-Sum-ը, խոստանում են, որ ի վերջո վիդեո բովանդակության ենթաբաժինները կդառնան հատիկավոր և բաժանելի այն բանից, ինչը շատերը համարում են բովանդակային գովազդի և ոչ բովանդակության արտահանման «բալաստ»:

 

Առաջին անգամ հրապարակվել է 16 թվականի օգոստոսի 2022-ին: Թարմացվել է օգոստոսի 2.52-ին, ժամը 16-ին, հեռացվել է կրկնօրինակ արտահայտությունը: