Արհեստական բանականություն
Չափազանց սեղմված սոցիալական մեդիայի տեսանյութերի վերականգնում մեքենայական ուսուցման միջոցով
Չինաստանից դուրս գտնվող նոր հետազոտությունն առաջարկում է արդյունավետ և նոր մեթոդ՝ օգտատերերի կողմից վերբեռնված տեսանյութի մանրամասները և լուծումը վերականգնելու համար, որը ինքնաբերաբար սեղմված այնպիսի հարթակներում, ինչպիսիք են WeChat-ը և YouTube-ը՝ թողունակությունը և պահեստային տարածքը խնայելու համար:
Հակառակ նախկին մեթոդների, որոնք կարող են մեծացնել և մեծացնել տեսանյութերը՝ հիմնված ընդհանուր վերապատրաստման տվյալների վրա, նոր մոտեցումը, փոխարենը, բխում է. քայքայման առանձնահատկությունների քարտեզ (DFM) սեղմված տեսանյութի յուրաքանչյուր կադրի համար. արդյունավետորեն ամփոփում է կադրի առավել վնասված կամ քայքայված հատվածները, որոնք առաջացել են սեղմումից:
Վերականգնողական գործընթացը, որը կիրառում է կոնվոլյուցիոն նեյրոնային ցանցերը (CNN), ի թիվս այլ տեխնոլոգիաների, առաջնորդվում և կենտրոնանում է DFM-ի տեղեկություններով, ինչը թույլ է տալիս նոր մեթոդին գերազանցել նախորդ մոտեցումների կատարողականությունն ու ճշգրտությունը:
Գործընթացի հիմնական ճշմարտությունը ստացվել է հետազոտողների կողմից՝ վերբեռնելով բարձրորակ տեսանյութ չորս հանրաճանաչ համօգտագործման հարթակներում, ներբեռնելով սեղմված արդյունքները և մշակելով համակարգչային տեսողության խողովակաշար, որը կարող է վերացական կերպով սովորել սեղմման արտեֆակտները և մանրամասների կորուստը, որպեսզի այն կիրառվի ամբողջ տարածքում: մի շարք հարթակներ՝ տեսանյութերը գրեթե սկզբնական որակի վերականգնելու համար՝ հիմնված բոլորովին համապատասխան տվյալների վրա:
Հետազոտության մեջ օգտագործված նյութը կազմվել է HQ/LQ տվյալների շտեմարանում՝ վերնագրով Օգտատիրոջ տեսանյութերը, որոնք տարածվում են սոցիալական լրատվամիջոցներում (UVSSM), և պատրաստվել է հասանելի է ներբեռնման համար (գաղտնաբառ ՝ rsqw) Baidu-ում՝ ի շահ հետագա հետազոտական նախագծերի, որոնք ձգտում են մշակել նոր մեթոդներ՝ պլատֆորմով սեղմված տեսանյութը վերականգնելու համար:
Համակարգի կոդը, որը հայտնի է որպես Տեսանյութի վերականգնում ադապտիվ քայքայման զգայության միջոցով (ՁԱՅՆԵՐ), եղել է նաև թողարկվել է GitHub-ում, թեև դրա իրականացումը ենթադրում է ձգողականության վրա հիմնված մի շարք կախվածություններ:
The թուղթ վերնագրված է Սոցիալական մեդիայում տարածված օգտատերերի տեսանյութերի վերականգնում, և գալիս է Շենժենի համալսարանի երեք հետազոտողից և մեկից՝ Հոնկոնգի պոլիտեխնիկական համալսարանի Էլեկտրոնային և տեղեկատվական ճարտարագիտության բաժնից:
Արտեֆակտներից մինչև փաստեր
Վեբ քերծված տեսանյութերի որակը վերականգնելու հնարավորություն՝ առանց ընդհանուր, երբեմն ավելորդ Մանրամասների «հալյուցինացիան», որը տրամադրվում է այնպիսի ծրագրերի կողմից, ինչպիսին է Gigapixel-ը (և համանման շրջանակի հանրաճանաչ բաց կոդով փաթեթների մեծ մասը) կարող է հետևանքներ ունենալ համակարգչային տեսողության հետազոտության ոլորտի վրա:
Տեսանյութերի վրա հիմնված CV տեխնոլոգիաների հետազոտությունը հաճախ հիմնվում է տեսանյութերի վրա, որոնք ստացվել են այնպիսի հարթակներից, ինչպիսիք են YouTube-ը և Twitter-ը, որտեղ սեղմման մեթոդները և օգտագործվող կոդեկները խստորեն պահպանված են, չեն կարող հեշտությամբ հավաքվել՝ հիմնվելով արտեֆակտի օրինաչափությունների կամ այլ տեսողական ցուցիչների վրա, և կարող է պարբերաբար փոխվել.
Նախագծերի մեծ մասը, որոնք օգտագործում են վեբ հայտնաբերված տեսանյութը, չեն հետազոտություն սեղմում, և պետք է կատարել նպաստներ սեղմված տեսանյութի հասանելի որակի համար, որն առաջարկում են հարթակները, քանի որ նրանք մուտք չունեն օգտատերերի վերբեռնած բնօրինակ բարձրորակ տարբերակներին:
Հետևաբար, նման տեսանյութերի ավելի որակը և լուծումը հավատարմորեն վերականգնելու հնարավորությունը, առանց համակարգչային տեսողության անկապ տվյալների շտեմարանների ազդեցությունը ներդնելու, կարող է օգնել խուսափել հաճախակի լուծումներից և հարմարեցումներից, որոնք ներկայումս CV նախագծերը պետք է կատարեն դեգրադացված տեսանյութերի աղբյուրների համար:
Թեև այնպիսի հարթակներ, ինչպիսին է YouTube-ը, երբեմն շեփորում են օգտատերերի տեսանյութերը սեղմելու ձևի հիմնական փոփոխությունները (օրինակ՝ VP9), դրանցից ոչ մեկը բացահայտորեն չի բացահայտում ամբողջ գործընթացը կամ ճշգրիտ կոդեկներն ու կարգավորումները, որոնք օգտագործվում են նվազեցնելու համար օգտագործողների վերբեռնած բարձրորակ ֆայլերը:
Հետևաբար, օգտատերերի վերբեռնումների արդյունքի բարելավված որակի ձեռքբերումը դարձել է մի բան Դրուիդիկ արվեստ վերջին տասը կամ ավելի տարիների ընթացքում տարբեր (հիմնականում չհաստատված) «լուծումներ» մտնել և դուրս գալ նորաձևությունից:
Մեթոդ
Խորը ուսուցման վրա հիմնված վիդեո վերականգնման նախկին մոտեցումները ներառում էին ընդհանուր առանձնահատկությունների արդյունահանում, կա՛մ որպես մեկ կադր վերականգնման մոտեցում, կա՛մ մի քանի կադրային ճարտարապետության մեջ, որն օգտագործում է օպտիկական հոսք (այսինքն, որը հաշվի է առնում հարակից և հետագա շրջանակները ընթացիկ շրջանակը վերականգնելիս):
Այս բոլոր մոտեցումները ստիպված են եղել դիմակայել «սև արկղի» էֆեկտին. այն փաստը, որ նրանք չեն կարող ուսումնասիրել սեղմման էֆեկտները հիմնական տեխնոլոգիաներում, քանի որ հստակ չէ, թե որոնք են հիմնական տեխնոլոգիաները կամ ինչպես են դրանք կազմաձևվել որևէ կոնկրետ օգտագործողի համար: - վերբեռնված տեսանյութ:
VOTES-ը, փոխարենը, ձգտում է առանձնացնել ակնառու առանձնահատկությունները ուղղակիորեն բնօրինակ և սեղմված տեսանյութից և որոշել փոխակերպման օրինաչափությունները, որոնք ընդհանրացվելու են մի շարք հարթակների չափանիշներին:
VOTES-ը օգտագործում է հատուկ մշակված դեգրադացիայի ընկալման մոդուլ (DSM, տես վերևի նկարը)՝ կոնվոլյուցիոն բլոկների առանձնահատկությունները հանելու համար: Բազմաթիվ կադրեր այնուհետև փոխանցվում են առանձնահատկությունների արդյունահանման և հավասարեցման մոդուլին (FEAM), որոնցից հետո դրանք տեղափոխվում են դեգրադացման մոդուլյացիայի մոդուլի (DMM): Վերջապես, վերակառուցման մոդուլը թողարկում է վերականգնված տեսանյութը:
Տվյալներ և փորձեր
Նոր աշխատանքում հետազոտողները կենտրոնացրել են իրենց ջանքերը WeChat հարթակում վերբեռնված և նորից ներբեռնված տեսանյութերի վերականգնման վրա, սակայն մտահոգվել են, որ արդյունքում ստացված ալգորիթմը կարող է հարմարեցվել այլ հարթակներում:
Պարզվեց, որ երբ նրանք ստացել են WeChat տեսանյութերի վերականգնման արդյունավետ մոդել, այն հարմարեցնելով Bilibili-ին, Twitter-ին և YouTube-ին ընդամենը 90 վայրկյան մեկ դարաշրջանի համար յուրաքանչյուր հարմարեցված մոդելի համար յուրաքանչյուր հարթակի համար (4 NVIDIA Tesla P40 GPU-ով աշխատող մեքենայի վրա ընդհանուր 96 ԳԲ VRAM):
UVSSM տվյալների բազան համալրելու համար հետազոտողները հավաքել են 264-5 վայրկյան տևողությամբ 30 տեսանյութ, որոնցից յուրաքանչյուրը 30 կադր/վրկ արագությամբ, որոնք ստացվել են անմիջապես բջջային հեռախոսների տեսախցիկներից կամ ինտերնետից: Տեսանյութերը բոլորը եղել են կամ 1920 x 1080 կամ 1280 x 270 լուծաչափով:
Բովանդակությունը (տես ավելի վաղ պատկերը) ներառում էր քաղաքի տեսարաններ, լանդշաֆտներ, մարդիկ և կենդանիներ, ի թիվս այլ թեմաների, և օգտագործվում է հանրային տվյալների բազայում Creative Commons Attribution լիցենզիայի միջոցով՝ թույլ տալով կրկնակի օգտագործումը:
Հեղինակները բեռնել են 214 տեսանյութ WeChat՝ օգտագործելով հինգ տարբեր մակնիշի բջջային հեռախոսներ՝ ստանալով WeChat-ի կանխադրված 960×540 վիդեո լուծաչափը (եթե սկզբնաղբյուրի տեսանյութն արդեն փոքր է այս չափսերից), որը հայտնի հարթակներում առավել «պատժիչ» փոխարկումներից է:
Հետագայում այլ հարթակների փոխակերպման առօրյայի հետ համեմատելու համար հետազոտողները վերբեռնել են 50 տեսանյութ Նշում ներառված է բնօրինակ 214-ում Bilibili-ին, YouTube-ին և Twitter-ին: Տեսանյութերի սկզբնական լուծաչափը 1280×270 էր, իսկ ներբեռնված տարբերակները՝ 640×360:
Սա UVSSM տվյալների բազան բերում է օրիգինալ (HQ) և ընդհանուր (LQ) տեսանյութերի ընդհանուր 364 երկտողերի, որոնցից 214-ը WeChat-ում և 50-ականը՝ Bilibili-ում, YouTube-ում և Twitter-ում:
Փորձերի համար 10 պատահական տեսահոլովակներ ընտրվեցին որպես թեստային հավաքածու, չորսը՝ որպես վավերացման հավաքածու, իսկ մնացորդը՝ 200՝ որպես հիմնական ուսուցման հավաքածու: Փորձարկումներն անցկացվել են հինգ անգամ K-fold խաչաձեւ վավերացում, այս դեպքերում միջինացված արդյունքներով:
Տեսանյութի վերականգնման թեստերում VOTES-ը համեմատվել է Տարածական-Ժամանակավոր դեֆորմացվող միաձուլման հետ (STDF). Բանաձևը բարելավելու համար այն փորձարկվել է Ընդլայնված դեֆորմացվող ոլորումների դեմ (EDVR), RSDN, Video Գերբանաձև՝ ժամանակավոր խմբի ուշադրությամբ (VSR_TGA), Եւ BasicVSR. Google-ի ամուրի- փուլային մեթոդ ԿՈՄԻՍՐ ներառված էր նաև, թեև այն չի համապատասխանում մյուս նախորդ աշխատանքների ճարտարապետական տիպին:
Մեթոդները փորձարկվել են ինչպես UVSS-ի, այնպես էլ UVSS-ի դեմ ԿԱՐՄԻՐՆԵՐ տվյալների հավաքածու՝ VOTES-ով, որոնք ստանում են ամենաբարձր միավորները.
Հեղինակները պնդում են, որ որակական արդյունքները ցույց են տալիս նաև VOTES-ի գերազանցությունը նախորդ համակարգերի նկատմամբ.
Առաջին անգամ հրապարակվել է 19 թվականի օգոստոսի 2022-ին։