Îstîxbaratê ya sûnî

Bi Fêrbûna Makîneyê Vîdyoyên Medya Civakî yên Zêde Tewra Vegerandin

Demê on December 9, 2022

Lêkolîna nû ya li derveyî Chinaînê ji bo vegerandina hûrgulî û çareseriyê li vîdyoya ku ji hêla bikarhêner ve hatî barkirin rêbazek bi bandor û nû pêşkêşî dike. bixweber tê pêçan li ser platformên wekî WeChat û YouTube ji bo ku band û cîhê hilanînê xilas bike.

Berawirdkirina rêbaza nû bi nêzîkatiyên berê re, di warê kapasîteya wê ya ji nû ve-çareserkirina hûrguliyên ku di dema xweşbîniya otomatîkî ya platforma medyaya civakî de hatine derxistin. Çavkanî: https://arxiv.org/pdf/2208.08597.pdf

Berevajî rêbazên berê yên ku dikarin vîdyoyan li ser bingeha daneyên perwerdehiya gelemperî mezin bikin û nimûne bikin, nêzîkatiya nû li şûna wê yekê derdixe. nexşeya taybetmendiya hilweşandinê (DFM) ji bo her çarçoveyek vîdyoya pêçandî - bi bandor nihêrînek li ser deverên herî zirardar an xirabbûyî yên di çarçovê de ku ji berhevkirinê derketine.

Ji lêkolînên ablation ya kaxeza nû: duyemîn ji rastê, rastiya erdê ji bo nexşeyek taybetmendiya hilweşandinê ya 'paqij' (DFM); sêyemîn ji rastê, texmînek zirarê bêyî karanîna DFM. Çep, nexşeyek pir rasttir a zirarê bi DFM re.

Pêvajoya restorasyonê, ku di nav teknolojiyên din de, torên neuralî yên konvolutional (CNN) bi kar tîne, ji hêla agahdariya di DFM-ê ve tê rêve kirin û balê dikişîne, rê dide ku rêbaza nû ji performans û rastbûna nêzîkatiyên berê derbas bibe.

Rastiya zemînê ji bo pêvajoyê ji hêla lêkolîneran ve hate bidestxistin ku vîdyoya qalîteya bilind li çar platformên parvekirinê yên populer barkirin, encamên berhevkirî dakêşandin, û boriyek dîtina komputerê pêşve xistin ku karibe bi rengekî abstrakt fêrî hunerên berhevkirinê û windakirina hûrgulî bike, da ku ew li seranserê cîhanê were sepandin. hejmarek platforman ji bo vegerandina vîdyoyan li qalîteya nêzîk-orijînal, li ser bingeha daneyên bi tevahî rast.

Nimûneyên ji daneyên nû yên lêkolîner ên UVSSM.

Materyalên ku di lêkolînê de hatine bikar anîn di nav daneya HQ/LQ ya bi sernavê de hatine berhev kirin Vîdyoyên Bikarhêner li ser Medya Civakî hatine Parve kirin (UVSSM), û hatiye çêkirin ji bo dakêşanê heye (Şîfre: rsqw) li Baidu, ji bo berjewendiya projeyên lêkolînê yên paşîn ên ku dixwazin rêgezên nû pêşve bibin da ku vîdyoya pêvekirî ya platformê sererast bikin.

Berawirdkirinek di navbera du nimûneyên HQ/LQ yên hevwate yên ji databasa UVSSM-a dakêşandî de (ji bo URLên çavkaniyê li lînkên li jor binêre). Ji ber ku tewra ev mînak dibe ku bibe mijara gelek geryanên berhevkirinê (serîlêdana wêneyê, CMS, CDN, hwd.), ji kerema xwe ji bo berhevdanek rasttir serî li daneyên çavkaniya orîjînal bidin.

Koda pergalê, ku wekî tê zanîn Vejandina vîdyoyê bi navgîniya dEgradation Sensing a adaptive (DENGÊN), jî bûye li GitHub hat berdan, her çend pêkanîna wê çend girêdanên li ser bingeha kişandinê vedihewîne.

Ew kaxez sernavkirî ye Vejandina Vîdyoyên Bikarhêner ên ku li ser Medya Civakî hatine Parve kirin, û ji sê lêkolînerên li Zanîngeha Shenzhen, û yek ji Beşa Endezyariya Elektronîkî û Agahdariyê li Zanîngeha Polyteknîkî ya Hong Kongê tê.

Ji Artifacts heta Rastiyan

Kapasîteya vegerandina qalîteya vîdyoyên xêzkirî yên malperê bêyî gelemperî, carinan zêde 'halûsînasyona' hûrgulî ya ku ji hêla bernameyên wekî Gigapixel ve hatî peyda kirin (û piraniya pakêtên çavkaniya vekirî ya populer ên di çarçoweya heman rengî de) dibe ku bandorek li ser sektora lêkolîna dîtina komputerê hebe.

Lêkolîna li ser teknolojiyên CV-bingeha vîdyoyê bi gelemperî xwe dispêre dîmenên ku ji platformên wekî YouTube û Twitter-ê hatine wergirtin, ku li wir rêgezên berhevkirinê û kodekên ku têne bikar anîn ji nêz ve têne parastin, li ser bingeha şêwazên hunerî an nîşanên dîtbarî bi hêsanî nayên berhev kirin, û dibe ku periyodîk biguherînin.

Piraniya projeyên ku vîdyoya ku di malperê de hatî dîtin bikar tînin ne lêkolîn compression, û divê tezmînat çêbikin ji bo qalîteya berdest a vîdyoya pêçandî ya ku platform pêşkêşî dike, ji ber ku ew bigihîjin guhertoyên orjînal ên kalîteya bilind ên ku bikarhêneran bar kirine.

Ji ber vê yekê şiyana vegerandina bi dilsozî kalîte û çareseriya mezintir ji vîdyoyên weha re, bêyî danasîna bandora jêrîn ji berhevokên dîtbarî yên komputerê yên negirêdayî, dikare bibe alîkar ku rêgez û cîhên pir caran yên ku divê projeyên CV-ê naha ji bo çavkaniyên vîdyoyê yên xerabûyî çêbikin, ji holê rakin.

Her çend platformên wekî YouTube carinan dê guhartinên mezin di awayê ku ew vîdyoyên bikarhêneran de berhev dikin (wek mînak VP9), yek ji wan bi eşkere tevahiya pêvajoyê an kodek û mîhengên rastîn ên ku ji bo kêmkirina pelên kalîteya bilind ên ku bikarhêner bar dikin têne bikar anîn eşkere nakin.

Ji ber vê yekê gihîştina kalîteya hilberînê ya çêtir ji barkirinên bikarhêneran bûye tiştek Druidic fen di van deh salên dawî de, bi cûrbecûr (bi piranî nepejirandin) 'çareserkirin' diçe û ji fashion.

Awa

Nêzîkatiyên berê yên ji nûvekirina vîdyoyê-based fêrbûna kûr ve bi derxistina taybetmendiya gelemperî ve girêdayî ye, an wekî nêzîkatiyek ji nûvekirina yek-çarçoveyek an jî di mîmariya pir-çarçoveyek ku bi kar tîne. herikîna optîk (ango dema ku çarçoveyek heyî sererast dike, çarçoveyên cîran û yên paşîn hesab dike).

Hemî van nêzîkatiyan neçar bûn ku bi bandora 'qutiya reş' re têkildar bin - rastiya ku ew nikanin bandorên tansiyonê di teknolojiyên bingehîn de lêkolîn bikin, ji ber ku ne diyar e ku teknolojiyên bingehîn çi ne, an jî ew ji bo bikarhênerek taybetî çawa hatine mîheng kirin. -vîdyoya barkirî.

VOTES, di şûna wê de, hewl dide ku taybetmendiyên berbiçav rasterast ji vîdyoya orîjînal û pêçandî derxîne, û şêwazên veguherînê diyar bike ku dê li gorî standardên hejmarek platforman giştî bike.

Mîmariya têgehî ya hêsankirî ji bo VOTES.

VOTES modulek hestiyarbûnê ya bi taybetî pêşkeftî bikar tîne (DSM, wêneya li jor binêre) da ku taybetmendiyan di blokên konvolutional de derxîne. Dûv re gelek çarçove derbasî modulek derxistin û hevrêzkirina taybetmendiyê (FEAM) dibin, û dûv re van ji modulek modulasyona hilweşandinê (DMM) re têne veguheztin. Di dawiyê de, modula ji nû ve avakirinê vîdyoya nûvekirî derdixe.

Daneyên û Ceribandinên

Di xebata nû de, lêkolîneran hewildanên xwe li ser vegerandina vîdyoya ku li platforma WeChat hatî barkirin û ji nû ve dakêşandin giran kirine, lê xema wan bûn ku pê ewle bibin ku algorîtmaya encam dikare li platformên din were adaptekirin.

Eşkere bû ku gava ku wan ji bo vîdyoyên WeChat modelek nûvekirina bi bandor bi dest xistibû, wê bi Bilibili, Twitter û YouTube veguhezand tenê 90 saniye ji bo serdemek yekane ji bo her modela xwerû ya her platformê (li ser makîneyek ku 4 GPU-yên NVIDIA Tesla P40 bi bi tevahî 96 GB VRAM).

Veguheztina modela serketî ya WeChat bi platformên din ên parvekirina vîdyoyê re pir piçûk bû. Li vir em dibînin ku VOTES di nav platformên cihêreng de, bi karanîna daneyên xweya UVSSM û daneya REDS-ê (li jêr binêre).

Ji bo berhevkirina daneya UVSSM, lêkolîner 264 vîdyoyên ku di navbera 5-30 saniyeyan de ne, her yek bi rêjeya çarçoweya 30fps berhev kirin, ku rasterast ji kamerayên têlefonên desta an jî ji înternetê hatine peyda kirin. Vîdyo hemî an 1920 x 1080 an jî 1280 x 270 çareseriyê bûn.

Naverok (li wêneya berê binêre) di nav cûrbecûr mijarên din de dîmenên bajar, peyzaj, mirov û heywanan dihewîne, û bi destûrnameya Creative Commons Attribution di daneya giştî de têne bikar anîn, ku destûrê dide ji nû ve bikaranînê.

Nivîskar 214 vîdyoy li WeChat-ê bi karanîna pênc marqeyên cihêreng ên têlefonên desta barkirin, çareseriya vîdyoya xwerû ya WeChat ya 960×540 (heya ku vîdyoya çavkaniyê ji van pîvanan piçûktir nebe), di nav veguheztinên herî 'cezaker' ên li ser platformên populer de wergirtin.

Li jor-çepê, çarçoveya HQ ya orîjînal bi sê beşên mezinkirî; jor-rast, heman çarçoveyek ji guhertoyek pêvekirî ya heman vîdyoyê ya ku bi platform-rûmetkirî ye; jêr-çepê, hilweşîna hesabkirî ya çarçoveya pêçandî; û jêr-rast, encama 'qada xebatê' ya ku VOTES bala xwe bide ser. Eşkere ye ku mezinahiya wêneya kêm-kalîteyê nîvê ya HQ ye, lê ji bo zelalbûna berhevdanê li vir mezinahî hatiye guhertin.

Ji bo danberhevên paşîn ên li dijî rûtînên veguherînê yên platformên din, lêkolîner 50 vîdyoy barkirin. ne di orîjînal 214 de ji Bilibili, YouTube, û Twitter re tê de. Çareserkirina orîjînal a vîdyoyan 1280×270 bû, digel guhertoyên dakêşandî 640×360 radiwestin.

Ev daneheva UVSSM bi tevahî 364 dubendî vîdyoyên orîjînal (HQ) û parvekirî (LQ) tîne, 214 ji WeChat re, û 50 her yek ji Bilibili, YouTube, û Twitter.

Ji bo ceribandinan, 10 vîdyoyên rasthatî wekî koma ceribandinê, çar wekî koma pejirandinê, û mayî 200 wekî koma perwerdehiya bingehîn hatin hilbijartin. Ceribandinên pênc caran bi K-qat erêkirina xaçê, digel encamên ku di van mînakan de navînî ye.

Di ceribandinên ji bo sererastkirina vîdyoyê de, VOTES bi Fusion Deformable Spatio-Temporal (STDF). Ji bo pêşdebirina çareseriyê, ew li dijî konvoyên Deformable ên Pêşkeftî hate ceribandin (EDVR), RSDN, Vîdyoya Super-çareseriyê bi Bala Koma Demkî (VSR_TGA), Û BasicVSR. Google's yekoyek-rêbaza qonaxa COMISR di heman demê de tê de bû, her çend ew bi şêwaza mîmarî ya karên din ên berê re têkildar nabe.

Rêbaz hem li dijî UVSS û hem jî li dijî UVSS hatine ceribandin REDS databas, bi DENGên ku herî zêde puanan distînin:

Nivîskar îdia dikin ku encamên kalîteyî di heman demê de serweriya VOTES li hember pergalên pêşîn destnîşan dikin:

Çarçoveyên vîdyoyê yên ji REDS-ê ji hêla nêzîkatiyên pêşbaziyê ve têne nûve kirin. Tenê çareseriya nîşanî - ji bo çareseriya bêkêmasî li kaxezê binêre.

Çarçoveyên vîdyoyê yên ji REDS-ê ji hêla nêzîkatiyên pêşbaziyê ve têne nûve kirin. Tenê çareseriya nîşangir - ji bo çareseriya bêkêmasî li kaxezê binêre.

Yekem di 19-ê Tebaxa 2022-an de hate weşandin.