քոթուկ Չափազանց սեղմված սոցիալական մեդիայի տեսանյութերի վերականգնում մեքենայական ուսուցման միջոցով - Unite.AI
Միացեք մեզ

Արհեստական ​​բանականություն

Չափազանց սեղմված սոցիալական մեդիայի տեսանյութերի վերականգնում մեքենայական ուսուցման միջոցով

mm
Թարմացվել է on
Հիմնական պատկերի աղբյուրը՝ DALL-E 2

Չինաստանից դուրս գտնվող նոր հետազոտությունն առաջարկում է արդյունավետ և նոր մեթոդ՝ օգտատերերի կողմից վերբեռնված տեսանյութի մանրամասները և լուծումը վերականգնելու համար, որը ինքնաբերաբար սեղմված այնպիսի հարթակներում, ինչպիսիք են WeChat-ը և YouTube-ը՝ թողունակությունը և պահեստային տարածքը խնայելու համար:

Նոր մեթոդի համեմատությունը նախկին մոտեցումների հետ՝ սոցիալական մեդիա հարթակի ավտոմատ օպտիմիզացման ընթացքում չեղյալ մնացած մանրամասները ճշգրիտ կերպով լուծելու ունակության տեսանկյունից: Աղբյուր՝ https://arxiv.org/pdf/2208.08597.pdf

Նոր մեթոդի համեմատությունը նախկին մոտեցումների հետ՝ սոցիալական մեդիա հարթակի ավտոմատ օպտիմիզացման ընթացքում չեղյալ մնացած մանրամասները ճշգրիտ կերպով լուծելու ունակության տեսանկյունից: Աղբյուր՝ https://arxiv.org/pdf/2208.08597.pdf

Հակառակ նախկին մեթոդների, որոնք կարող են մեծացնել և մեծացնել տեսանյութերը՝ հիմնված ընդհանուր վերապատրաստման տվյալների վրա, նոր մոտեցումը, փոխարենը, բխում է. քայքայման առանձնահատկությունների քարտեզ (DFM) սեղմված տեսանյութի յուրաքանչյուր կադրի համար. արդյունավետորեն ամփոփում է կադրի առավել վնասված կամ քայքայված հատվածները, որոնք առաջացել են սեղմումից:

Նոր փաստաթղթի աբլյացիայի ուսումնասիրություններից. երկրորդը աջից, «մաքուր» դեգրադացման առանձնահատկությունների քարտեզի (DFM) հիմքային ճշմարտությունը. երրորդը՝ աջից՝ վնասի գնահատում առանց DFM-ի օգտագործման: Ձախ՝ DFM-ով վնասի շատ ավելի ճշգրիտ քարտեզ:

Նոր փաստաթղթի աբլյացիայի ուսումնասիրություններից. երկրորդը աջից, «մաքուր» դեգրադացման առանձնահատկությունների քարտեզի (DFM) հիմքային ճշմարտությունը. երրորդը՝ աջից՝ վնասի գնահատում առանց DFM-ի օգտագործման: Ձախ՝ DFM-ով վնասի շատ ավելի ճշգրիտ քարտեզ:

Վերականգնողական գործընթացը, որը կիրառում է կոնվոլյուցիոն նեյրոնային ցանցերը (CNN), ի թիվս այլ տեխնոլոգիաների, առաջնորդվում և կենտրոնանում է DFM-ի տեղեկություններով, ինչը թույլ է տալիս նոր մեթոդին գերազանցել նախորդ մոտեցումների կատարողականությունն ու ճշգրտությունը:

Գործընթացի հիմնական ճշմարտությունը ստացվել է հետազոտողների կողմից՝ վերբեռնելով բարձրորակ տեսանյութ չորս հանրաճանաչ համօգտագործման հարթակներում, ներբեռնելով սեղմված արդյունքները և մշակելով համակարգչային տեսողության խողովակաշար, որը կարող է վերացական կերպով սովորել սեղմման արտեֆակտները և մանրամասների կորուստը, որպեսզի այն կիրառվի ամբողջ տարածքում: մի շարք հարթակներ՝ տեսանյութերը գրեթե սկզբնական որակի վերականգնելու համար՝ հիմնված բոլորովին համապատասխան տվյալների վրա:

Օրինակներ հետազոտողների նոր UVSSM տվյալների բազայից:

Օրինակներ հետազոտողների նոր UVSSM տվյալների բազայից:

Հետազոտության մեջ օգտագործված նյութը կազմվել է HQ/LQ տվյալների շտեմարանում՝ վերնագրով Օգտատիրոջ տեսանյութերը, որոնք տարածվում են սոցիալական լրատվամիջոցներում (UVSSM), և պատրաստվել է հասանելի է ներբեռնման համար (գաղտնաբառ ՝ rsqw) Baidu-ում՝ ի շահ հետագա հետազոտական ​​նախագծերի, որոնք ձգտում են մշակել նոր մեթոդներ՝ պլատֆորմով սեղմված տեսանյութը վերականգնելու համար:

Համեմատություն երկու համարժեք HQ/LQ նմուշների միջև ներբեռնվող UVSSM տվյալների բազայից (տե՛ս վերևի հղումները աղբյուրի URL-ների համար): Քանի որ նույնիսկ այս օրինակը կարող է ենթարկվել սեղմման բազմաթիվ փուլերի (պատկերի հավելված, CMS, CDN և այլն), ավելի ճշգրիտ համեմատության համար դիմեք սկզբնական աղբյուրի տվյալներին:

Համեմատություն երկու համարժեք HQ/LQ նմուշների միջև ներբեռնվող UVSSM տվյալների բազայից (տե՛ս վերևի հղումները աղբյուրի URL-ների համար): Քանի որ նույնիսկ այս օրինակը կարող է ենթարկվել սեղմման բազմաթիվ փուլերի (պատկերի հավելված, CMS, CDN և այլն), ավելի ճշգրիտ համեմատության համար դիմեք սկզբնական աղբյուրի տվյալներին:

Համակարգի կոդը, որը հայտնի է որպես Տեսանյութի վերականգնում ադապտիվ քայքայման զգայության միջոցով (ՁԱՅՆԵՐ), եղել է նաև թողարկվել է GitHub-ում, թեև դրա իրականացումը ենթադրում է ձգողականության վրա հիմնված մի շարք կախվածություններ:

The թուղթ վերնագրված է Սոցիալական մեդիայում տարածված օգտատերերի տեսանյութերի վերականգնում, և գալիս է Շենժենի համալսարանի երեք հետազոտողից և մեկից՝ Հոնկոնգի պոլիտեխնիկական համալսարանի Էլեկտրոնային և տեղեկատվական ճարտարագիտության բաժնից:

Արտեֆակտներից մինչև փաստեր

Վեբ քերծված տեսանյութերի որակը վերականգնելու հնարավորություն՝ առանց ընդհանուր, երբեմն ավելորդ Մանրամասների «հալյուցինացիան», որը տրամադրվում է այնպիսի ծրագրերի կողմից, ինչպիսին է Gigapixel-ը (և համանման շրջանակի հանրաճանաչ բաց կոդով փաթեթների մեծ մասը) կարող է հետևանքներ ունենալ համակարգչային տեսողության հետազոտության ոլորտի վրա:

Տեսանյութերի վրա հիմնված CV տեխնոլոգիաների հետազոտությունը հաճախ հիմնվում է տեսանյութերի վրա, որոնք ստացվել են այնպիսի հարթակներից, ինչպիսիք են YouTube-ը և Twitter-ը, որտեղ սեղմման մեթոդները և օգտագործվող կոդեկները խստորեն պահպանված են, չեն կարող հեշտությամբ հավաքվել՝ հիմնվելով արտեֆակտի օրինաչափությունների կամ այլ տեսողական ցուցիչների վրա, և կարող է պարբերաբար փոխվել.

Նախագծերի մեծ մասը, որոնք օգտագործում են վեբ հայտնաբերված տեսանյութը, չեն հետազոտություն սեղմում, և պետք է կատարել նպաստներ սեղմված տեսանյութի հասանելի որակի համար, որն առաջարկում են հարթակները, քանի որ նրանք մուտք չունեն օգտատերերի վերբեռնած բնօրինակ բարձրորակ տարբերակներին:

Հետևաբար, նման տեսանյութերի ավելի որակը և լուծումը հավատարմորեն վերականգնելու հնարավորությունը, առանց համակարգչային տեսողության անկապ տվյալների շտեմարանների ազդեցությունը ներդնելու, կարող է օգնել խուսափել հաճախակի լուծումներից և հարմարեցումներից, որոնք ներկայումս CV նախագծերը պետք է կատարեն դեգրադացված տեսանյութերի աղբյուրների համար:

Թեև այնպիսի հարթակներ, ինչպիսին է YouTube-ը, երբեմն շեփորում են օգտատերերի տեսանյութերը սեղմելու ձևի հիմնական փոփոխությունները (օրինակ՝ VP9), դրանցից ոչ մեկը բացահայտորեն չի բացահայտում ամբողջ գործընթացը կամ ճշգրիտ կոդեկներն ու կարգավորումները, որոնք օգտագործվում են նվազեցնելու համար օգտագործողների վերբեռնած բարձրորակ ֆայլերը:

Հետևաբար, օգտատերերի վերբեռնումների արդյունքի բարելավված որակի ձեռքբերումը դարձել է մի բան Դրուիդիկ արվեստ վերջին տասը կամ ավելի տարիների ընթացքում տարբեր (հիմնականում չհաստատված) «լուծումներ» մտնել և դուրս գալ նորաձևությունից:

Մեթոդ

Խորը ուսուցման վրա հիմնված վիդեո վերականգնման նախկին մոտեցումները ներառում էին ընդհանուր առանձնահատկությունների արդյունահանում, կա՛մ որպես մեկ կադր վերականգնման մոտեցում, կա՛մ մի քանի կադրային ճարտարապետության մեջ, որն օգտագործում է օպտիկական հոսք (այսինքն, որը հաշվի է առնում հարակից և հետագա շրջանակները ընթացիկ շրջանակը վերականգնելիս):

Այս բոլոր մոտեցումները ստիպված են եղել դիմակայել «սև արկղի» էֆեկտին. այն փաստը, որ նրանք չեն կարող ուսումնասիրել սեղմման էֆեկտները հիմնական տեխնոլոգիաներում, քանի որ հստակ չէ, թե որոնք են հիմնական տեխնոլոգիաները կամ ինչպես են դրանք կազմաձևվել որևէ կոնկրետ օգտագործողի համար: - վերբեռնված տեսանյութ:

VOTES-ը, փոխարենը, ձգտում է առանձնացնել ակնառու առանձնահատկությունները ուղղակիորեն բնօրինակ և սեղմված տեսանյութից և որոշել փոխակերպման օրինաչափությունները, որոնք ընդհանրացվելու են մի շարք հարթակների չափանիշներին:

Պարզեցված կոնցեպտուալ ճարտարապետություն VOTES-ի համար:

Պարզեցված կոնցեպտուալ ճարտարապետություն VOTES-ի համար:

VOTES-ը օգտագործում է հատուկ մշակված դեգրադացիայի ընկալման մոդուլ (DSM, տես վերևի նկարը)՝ կոնվոլյուցիոն բլոկների առանձնահատկությունները հանելու համար: Բազմաթիվ կադրեր այնուհետև փոխանցվում են առանձնահատկությունների արդյունահանման և հավասարեցման մոդուլին (FEAM), որոնցից հետո դրանք տեղափոխվում են դեգրադացման մոդուլյացիայի մոդուլի (DMM): Վերջապես, վերակառուցման մոդուլը թողարկում է վերականգնված տեսանյութը:

Տվյալներ և փորձեր

Նոր աշխատանքում հետազոտողները կենտրոնացրել են իրենց ջանքերը WeChat հարթակում վերբեռնված և նորից ներբեռնված տեսանյութերի վերականգնման վրա, սակայն մտահոգվել են, որ արդյունքում ստացված ալգորիթմը կարող է հարմարեցվել այլ հարթակներում:

Պարզվեց, որ երբ նրանք ստացել են WeChat տեսանյութերի վերականգնման արդյունավետ մոդել, այն հարմարեցնելով Bilibili-ին, Twitter-ին և YouTube-ին ընդամենը 90 վայրկյան մեկ դարաշրջանի համար յուրաքանչյուր հարմարեցված մոդելի համար յուրաքանչյուր հարթակի համար (4 NVIDIA Tesla P40 GPU-ով աշխատող մեքենայի վրա ընդհանուր 96 ԳԲ VRAM):

Հաջողակ WeChat մոդելի հարմարեցումը տեսահոլովակների փոխանակման այլ հարթակներում բավական աննշան էր: Այստեղ մենք տեսնում ենք, որ VOTES-ը հասնում է կատարման գրեթե ակնթարթային հավասարության տարբեր հարթակներում՝ օգտագործելով հեղինակների սեփական UVSSM տվյալների բազան և REDS տվյալների բազան (տես ստորև):

Հաջողակ WeChat մոդելի հարմարեցումը տեսահոլովակների փոխանակման այլ հարթակներում բավական աննշան էր: Այստեղ մենք տեսնում ենք, որ VOTES-ը հասնում է կատարման գրեթե ակնթարթային հավասարության տարբեր հարթակներում՝ օգտագործելով հեղինակների սեփական UVSSM տվյալների բազան և REDS տվյալների բազան (տես ստորև):

UVSSM տվյալների բազան համալրելու համար հետազոտողները հավաքել են 264-5 վայրկյան տևողությամբ 30 տեսանյութ, որոնցից յուրաքանչյուրը 30 կադր/վրկ արագությամբ, որոնք ստացվել են անմիջապես բջջային հեռախոսների տեսախցիկներից կամ ինտերնետից: Տեսանյութերը բոլորը եղել են կամ 1920 x 1080 կամ 1280 x 270 լուծաչափով:

Բովանդակությունը (տես ավելի վաղ պատկերը) ներառում էր քաղաքի տեսարաններ, լանդշաֆտներ, մարդիկ և կենդանիներ, ի թիվս այլ թեմաների, և օգտագործվում է հանրային տվյալների բազայում Creative Commons Attribution լիցենզիայի միջոցով՝ թույլ տալով կրկնակի օգտագործումը:

Հեղինակները բեռնել են 214 տեսանյութ WeChat՝ օգտագործելով հինգ տարբեր մակնիշի բջջային հեռախոսներ՝ ստանալով WeChat-ի կանխադրված 960×540 վիդեո լուծաչափը (եթե սկզբնաղբյուրի տեսանյութն արդեն փոքր է այս չափսերից), որը հայտնի հարթակներում առավել «պատժիչ» փոխարկումներից է:

Վերևի ձախ կողմում, բնօրինակ HQ շրջանակը երեք ընդլայնված հատվածով; վերևի աջ կողմում, նույն շրջանակը նույն տեսանյութի պլատֆորմի դեգրադացված սեղմված տարբերակից; ներքևի ձախ կողմում, սեղմված շրջանակի հաշվարկված դեգրադացիա; և ներքևի աջ կողմում՝ VOTES-ի համար իր ուշադրությունը կենտրոնացնելու հետևանքային «աշխատանքային տարածքը»: Ակնհայտ է, որ ցածրորակ պատկերի չափը HQ-ի կեսն է, բայց այստեղ չափափոխվել է համեմատության պարզության համար:

Վերևի ձախ կողմում, բնօրինակ HQ շրջանակը երեք ընդլայնված հատվածով; վերևի աջ կողմում, նույն շրջանակը նույն տեսանյութի պլատֆորմի դեգրադացված սեղմված տարբերակից; ներքևի ձախ կողմում, սեղմված շրջանակի հաշվարկված դեգրադացիա; և ներքևի աջ կողմում՝ VOTES-ի համար իր ուշադրությունը կենտրոնացնելու հետևանքային «աշխատանքային տարածքը»: Ակնհայտ է, որ ցածրորակ պատկերի չափը HQ-ի կեսն է, բայց այստեղ չափափոխվել է համեմատության պարզության համար:

Հետագայում այլ հարթակների փոխակերպման առօրյայի հետ համեմատելու համար հետազոտողները վերբեռնել են 50 տեսանյութ Նշում ներառված է բնօրինակ 214-ում Bilibili-ին, YouTube-ին և Twitter-ին: Տեսանյութերի սկզբնական լուծաչափը 1280×270 էր, իսկ ներբեռնված տարբերակները՝ 640×360:

Սա UVSSM տվյալների բազան բերում է օրիգինալ (HQ) և ընդհանուր (LQ) տեսանյութերի ընդհանուր 364 երկտողերի, որոնցից 214-ը WeChat-ում և 50-ականը՝ Bilibili-ում, YouTube-ում և Twitter-ում:

Փորձերի համար 10 պատահական տեսահոլովակներ ընտրվեցին որպես թեստային հավաքածու, չորսը՝ որպես վավերացման հավաքածու, իսկ մնացորդը՝ 200՝ որպես հիմնական ուսուցման հավաքածու: Փորձարկումներն անցկացվել են հինգ անգամ K-fold խաչաձեւ վավերացում, այս դեպքերում միջինացված արդյունքներով:

Տեսանյութի վերականգնման թեստերում VOTES-ը համեմատվել է Տարածական-Ժամանակավոր դեֆորմացվող միաձուլման հետ (STDF). Բանաձևը բարելավելու համար այն փորձարկվել է Ընդլայնված դեֆորմացվող ոլորումների դեմ (EDVR), RSDN, Video Գերբանաձև՝ ժամանակավոր խմբի ուշադրությամբ (VSR_TGA), Եւ BasicVSR. Google-ի ամուրի- փուլային մեթոդ ԿՈՄԻՍՐ ներառված էր նաև, թեև այն չի համապատասխանում մյուս նախորդ աշխատանքների ճարտարապետական ​​տիպին:

Մեթոդները փորձարկվել են ինչպես UVSS-ի, այնպես էլ UVSS-ի դեմ ԿԱՐՄԻՐՆԵՐ տվյալների հավաքածու՝ VOTES-ով, որոնք ստանում են ամենաբարձր միավորները.

Հեղինակները պնդում են, որ որակական արդյունքները ցույց են տալիս նաև VOTES-ի գերազանցությունը նախորդ համակարգերի նկատմամբ.

REDS-ի տեսանյութերի շրջանակները վերականգնվել են մրցակցային մոտեցումներով: Միայն ինդիկատիվ լուծում - տես թղթի վերջնական լուծումը:

REDS-ի տեսանյութերի շրջանակները վերականգնվել են մրցակցային մոտեցումներով: Միայն ինդիկատիվ լուծում – տես փաստաթուղթը վերջնական լուծման համար:

 

Առաջին անգամ հրապարակվել է 19 թվականի օգոստոսի 2022-ին։