Արհեստական բանականություն
Օգտագործելով AI-ն՝ երկար «Ինչպես անել» տեսանյութերը ամփոփելու համար
Եթե դուք այնպիսին եք, որ բարձրացնեք YouTube-ի տեսանյութի արագությունը, որպեսզի հասնեք ձեր իրական ուզած տեղեկատվությանը. խորհրդակցեք տեսանյութի սղագրության վրա՝ երկար և հաճախ հովանավորներով ծանրաբեռնված գործարկման ժամանակներում թաքնված հիմնական տեղեկությունները հավաքելու համար. կամ հուսալ, որ WikiHow-ին հաջողվել է ստեղծել ուսումնական տեսանյութի տեղեկատվության ավելի քիչ ժամանակատար տարբերակ. ապա UC Berkeley-ի, Google Research-ի և Brown University-ի նոր նախագիծը կարող է ձեզ հետաքրքրել:
վերնագրված TL;DW? Ուսումնական տեսանյութերի ամփոփում՝ առաջադրանքների համապատասխանությամբ և խաչաձեւ մոդալային ընդգծվածությամբԷ, նոր թուղթ մանրամասնում է AI-ի օգնությամբ տեսանյութերի ամփոփման համակարգի ստեղծումը, որը կարող է բացահայտել համապատասխան քայլերը տեսանյութից և հրաժարվել մնացած ամեն ինչից, ինչը հանգեցնում է կարճ ամփոփումների, որոնք արագորեն ավարտվում են:
Ստացված ամփոփագրերն ունեն բնօրինակ տեսանյութի գործարկման ժամանակի մի մասը, մինչդեռ բազմամոդալ (այսինքն՝ տեքստի վրա հիմնված) տեղեկատվությունը նույնպես գրանցվում է գործընթացի ընթացքում, որպեսզի ապագա համակարգերը կարող են ավտոմատացնել WikiHow-ի ոճով բլոգային գրառումների ստեղծումը, որոնք կարող են ավտոմատ կերպով վերլուծել։ prolix, թե ինչպես կարելի է տեսահոլովակ դարձնել հակիրճ և որոնելի կարճ հոդված, որը լրացվում է նկարազարդումներով, ինչը կարող է խնայել ժամանակն ու հիասթափությունը:
Նոր համակարգը կոչվում է IV-Գումար ('Instructional Video Summarizer'), և օգտագործում է բաց կոդով ResNet-50 Համակարգչային տեսողության ճանաչման ալգորիթմ, ի թիվս մի քանի այլ տեխնիկայի, երկարատև աղբյուրի տեսանյութի համապատասխան շրջանակներն ու հատվածները առանձնացնելու համար:
Համակարգը վերապատրաստվում է WikiHow կայքի բովանդակության կառուցվածքից ստացված կեղծ ամփոփագրերի վրա, որտեղ իրական մարդիկ հաճախ օգտագործում են հանրաճանաչ ուսուցողական տեսանյութերը ավելի հարթ, տեքստի վրա հիմնված մուլտիմեդիա ձևի մեջ՝ հաճախ օգտագործելով կարճ հոլովակներ և անիմացիոն GIF-ներ, որոնք վերցված են սկզբնաղբյուր ուսուցողական տեսանյութերից:
Քննարկելով նախագծի կողմից WikiHow ամփոփագրերի օգտագործումը որպես համակարգի համար հիմնավոր ճշմարտության տվյալների աղբյուր՝ հեղինակները նշում են.
«Յուրաքանչյուր հոդված WikiHow տեսանյութեր կայքը բաղկացած է հիմնական ուսուցողական տեսանյութից, որը ցույց է տալիս առաջադրանքը, որը հաճախ ներառում է գովազդային բովանդակություն, տեսախցիկի հետ խոսող ուսուցչի հոլովակներ՝ առանց առաջադրանքի տեսողական տեղեկատվության, և քայլեր, որոնք կարևոր չեն առաջադրանքը կատարելու համար:
«Դիտողները, ովքեր ցանկանում են ընդհանուր պատկերացում կազմել առաջադրանքի մասին, կնախընտրեն ավելի կարճ տեսանյութ՝ առանց վերը նշված բոլոր անհամապատասխան տեղեկատվության: WikiHow հոդվածները (օրինակ՝ տե՛ս Ինչպես պատրաստել սուշի բրինձ) պարունակում է հենց սա. համապատասխան տեքստ, որը պարունակում է տեսանյութի բոլոր կարևոր քայլերը, որոնք նշված են ուղեկցող պատկերներով/հոլովակներով, որոնք ցույց են տալիս առաջադրանքի տարբեր քայլերը։'
Այս վեբ-քերծվածքից ստացված տվյալների բազան կոչվում է WikiHow Ամփոփումներ. Տվյալների բազան բաղկացած է 2,106 մուտքային տեսանյութերից և դրանց առնչվող ամփոփագրերից: Սա զգալիորեն ավելի մեծ տվյալների հավաքածու է, քան սովորաբար հասանելի է վիդեո ամփոփման նախագծերի համար, որոնք սովորաբար պահանջում են թանկարժեք և աշխատատար ձեռքով պիտակավորում և ծանոթագրություն. մի գործընթաց, որը հիմնականում ավտոմատացվել է նոր աշխատանքում, ամփոփման ավելի սահմանափակ շրջանակի շնորհիվ: ուսուցողական (այլ ոչ թե ընդհանուր) տեսանյութեր։
IV-Sum-ն օգտագործում է ժամանակավոր 3D կոնվոլյուցիոն նեյրոնային ցանցի ներկայացումները, այլ ոչ թե շրջանակի վրա հիմնված ներկայացումները, որոնք բնութագրում են նախորդ նմանատիպ աշխատանքները, և փաստաթղթում մանրամասնված աբլացիոն ուսումնասիրությունը հաստատում է, որ այս մոտեցման բոլոր բաղադրիչները էական են համակարգի ֆունկցիոնալության համար:
IV-Sum-ը բարենպաստ փորձարկվել է տարբեր համադրելի շրջանակների նկատմամբ, այդ թվում ԿԼԻՊ-Այն (որի վրա աշխատել են նաև թերթի մի քանի հեղինակներ):
Մեթոդ
Ամփոփման գործընթացի առաջին փուլը ներառում է համեմատաբար ցածր ջանքերի, թույլ վերահսկվող ալգորիթմի օգտագործումը կեղծ ամփոփագրեր ստեղծելու համար և շրջանակային կարևորության միավորներ մեծ թվով վեբ-քերծված ուսուցողական տեսանյութերի համար՝ յուրաքանչյուր տեսանյութում միայն մեկ առաջադրանքի պիտակով:
Հաջորդը, այս տվյալների վրա վերապատրաստվում է ուսուցողական ամփոփման ցանց: Համակարգն ընդունում է ավտոմատ տառադարձված խոսքը (օրինակ՝ YouTube-ի սեփական AI-ի կողմից ստեղծված ենթագրերը տեսանյութի համար) և աղբյուրի տեսանյութը որպես մուտքագրում:
Ցանցը ներառում է վիդեո կոդավորիչ և հատվածի գնահատման տրանսֆորմատոր (SST), և ուսուցումն առաջնորդվում է կեղծ ամփոփագրերում նշանակված կարևոր միավորներով: Վերջնական ամփոփումը ստեղծվում է միացնելով հատվածները, որոնք ստացել են բարձր կարևոր միավոր:
Թղթից.
«Մեր կեղծ ամփոփագրերի ստեղծման հիմնական ինտուիցիան այն է, որ հաշվի առնելով առաջադրանքի բազմաթիվ տեսանյութերը, առաջադրանքի համար կարևոր քայլերը, հավանաբար, կհայտնվեն բազմաթիվ տեսանյութերում (առաջադրանքի համապատասխանությունը):
«Բացի այդ, եթե քայլը կարևոր է, ապա ցուցարարին բնորոշ է այդ քայլի մասին խոսելը կամ այն կատարելուց առաջ, ընթացքում կամ հետո։ Հետևաբար, խոսքի ավտոմատ ճանաչման (ASR) միջոցով ստացված տեսանյութի ենթագրերը, հավանաբար, կմատնանշեն այս հիմնական քայլերը (միջմոդալ կարևորություն):'
Համակարգն օգտագործում է Cross-Modal Saliency օգնել պարզել յուրաքանչյուր քայլի համապատասխանությունը՝ համեմատելով մեկնաբանված խոսքը տեսանյութի պատկերների և գործողությունների հետ: Սա իրականացվում է նախապես պատրաստված տեսատեքստային մոդելի օգտագործմամբ, որտեղ յուրաքանչյուր տարր համատեղ վերապատրաստվում է MIL-NCE կորստի դեպքում՝ օգտագործելով 3D CNN վիդեո կոդավորիչ մշակվել է, ի թիվս այլոց, DeepMind-ի կողմից:
Այնուհետև ստացվում է ընդհանուր կարևորության միավոր այս առաջադրանքի համապատասխանության և միջմոդալ վերլուծության փուլերի հաշվարկված միջինից:
Ամսաթիվ
Գործընթացի համար ստեղծվել է կեղծ ամփոփագրերի սկզբնական տվյալների բազա, որը ներառում է երկու նախորդ տվյալների հավաքածուների բովանդակության մեծ մասը. INԻՆ, 2019 թվականի հավաքածու, որը պարունակում է 11,000 տեսանյութ՝ կապված 180 առաջադրանքների հետ. և Cross-Task, որը պարունակում է 4,700 ուսուցողական տեսանյութ, որից 3,675-ն օգտագործվել է հետազոտության մեջ։ Cross-Task-ն ունի 83 տարբեր առաջադրանքներ:
Օգտագործելով տեսանյութեր, որոնք ներկայացված են երկու տվյալների հավաքածուներում միայն մեկ անգամ, հետազոտողները կարողացել են ստանալ 12,160 տեսանյութ, որոնք ընդգրկում են 263 տարբեր առաջադրանքներ և 628.53 ժամ բովանդակություն իրենց տվյալների հավաքածուի համար:
WikiHow-ի վրա հիմնված տվյալների բազան համալրելու և համակարգի համար հիմնավոր ճշմարտությունն ապահովելու համար հեղինակները քերել են WikiHow տեսանյութերը բոլոր երկար ուսումնական տեսանյութերի համար՝ յուրաքանչյուր քայլի հետ կապված նրանց պատկերների և տեսահոլովակների հետ միասին: Այսպիսով, WikiHow-ի ածանցյալ բովանդակության կառուցվածքը պետք է ծառայեր որպես նոր համակարգում քայլերի անհատականացման ձևանմուշ։
ResNet50-ի միջոցով արդյունահանված գործառույթներն օգտագործվել են WikiHow-ի պատկերներում տեսանյութի ընտրված հատվածները խաչաձև համապատասխանեցնելու և քայլերի տեղայնացման համար: Որպես խարիսխի կետ օգտագործվել է 5 վայրկյան տևողությամբ տեսանյութի պատուհանում ստացված ամենանման պատկերը:
Այս կարճ հոլովակները այնուհետև միացվեցին տեսահոլովակների մեջ, որոնք կներկայացնեին մոդելի ուսուցման հիմնական ճշմարտությունը:
Մուտքային տեսանյութի յուրաքանչյուր կադրին հատկացվել են պիտակներ՝ պարզելու համար, թե արդյոք դրանք պատկանում են մուտքագրման ամփոփագրին, թե ոչ, յուրաքանչյուր տեսանյութ հետազոտողներից ստանում է կադրի մակարդակի երկուական պիտակ և միջին ամփոփ միավոր՝ ստացված բոլոր կադրերի կարևորության միավորների միջոցով։ հատվածում։
Այս փուլում յուրաքանչյուր ուսումնական տեսանյութի «քայլերը» այժմ կապված էին տեքստի վրա հիմնված տվյալների հետ և պիտակավորված:
Ուսուցում, թեստեր և չափումներ
WikiHow-ի վերջնական տվյալների բազան բաժանվել է 1,339 թեստային տեսանյութերի և 768 վավերացման տեսանյութերի՝ տեսավերլուծությանը նվիրված ոչ հում տվյալների հավաքածուների միջին չափի ուշագրավ աճ:
Նոր ցանցում վիդեո և տեքստային կոդավորիչները համատեղ վերապատրաստվել են ան S3D ցանց կշիռներով, որոնք բեռնված են նախապես պատրաստվածից HowTo 100M մոդելը MIL-NCE կորստի տակ:
Մոդելը վերապատրաստվել է Adam-ի օպտիմիզատորով 0.01 ուսուցման արագությամբ 24 խմբաքանակի չափով, բաշխված տվյալների զուգահեռ կապելով ուսուցումը տարածելով ութ NVIDIA RTX 2080 GPU-ների վրա՝ ընդհանուր 24 ԳԲ բաշխված VRAM-ի համար:
Այնուհետև IV-Sum-ը համեմատվել է CLIP-I-ի տարբեր սցենարների հետ՝ համաձայն նման նախորդող աշխատանքները, ներառյալ CLIP-It-ի վերաբերյալ ուսումնասիրությունը: Օգտագործված չափորոշիչներն էին Precision, Recall և F-Score արժեքները երեք չվերահսկվող բազային գծերի համար (մանրամասների համար տե՛ս թուղթ):
Արդյունքները թվարկված են ավելի վաղ նկարում, սակայն հետազոտողները լրացուցիչ նշում են, որ CLIP-It թեստերի տարբեր փուլերում բաց է թողնում մի շարք հնարավոր քայլեր, որոնք IV-Sum-ը չի անում: Նրանք դա վերագրում են նրան, որ CLIP-It վերապատրաստվել և մշակվել է՝ օգտագործելով զգալիորեն ավելի փոքր տվյալների հավաքածուներ, քան նոր WikiHow կորպուսը:
Հետեւանքները
Հետազոտության այս հատվածի երկարաժամկետ արժեքը (որը IV-Sum-ը կիսում է տեսավերլուծության ավելի լայն մարտահրավերը) կարող է լինել ուսուցողական տեսահոլովակները սովորական որոնման ինդեքսավորման համար ավելի մատչելի դարձնելը և նվազեցնելու տեսակը: արդյունքների «հատված» տեսանյութերի համար, որոնք Google-ը հաճախ է հանում ավելի երկար սովորական հոդվածից:
Ակնհայտ է, որ զարգացումը ցանկացած AI-ի օգնությամբ գործընթացը, որը նվազեցնում է տեսաբովանդակության վրա գծային և բացառիկ ուշադրություն դարձնելու մեր պարտավորությունը, կարող է հետևանքներ ունենալ մեդիայի գրավչության համար շուկայավարների մի սերնդի համար, որոնց համար տեսանյութի անթափանցիկությունը, հավանաբար, միակ միջոցն էր, որը նրանք կարծում էին, որ կարող են բացառապես ներգրավել մեզ:
Քանի որ «արժեքավոր» բովանդակության գտնվելու վայրը դժվար է որոշել, օգտատերերի կողմից տրամադրված տեսանյութը արժանացել է մեդիա սպառողների լայն (եթե դժկամությամբ) ներողամտությանը արտադրանքի տեղաբաշխման, հովանավորների տեղաբաշխման և ընդհանուր ինքնահռչակման, որում տեսանյութի արժեքային առաջարկը: այնքան հաճախ է պառկած: Նախագծերը, ինչպիսին է IV-Sum-ը, խոստանում են, որ ի վերջո վիդեո բովանդակության ենթաբաժինները կդառնան հատիկավոր և բաժանելի այն բանից, ինչը շատերը համարում են բովանդակային գովազդի և ոչ բովանդակության արտահանման «բալաստ»:
Առաջին անգամ հրապարակվել է 16 թվականի օգոստոսի 2022-ին: Թարմացվել է օգոստոսի 2.52-ին, ժամը 16-ին, հեռացվել է կրկնօրինակ արտահայտությունը: