stub Bi Fêrbûna Makîneyê Hînbûna Tiştan Ji Vîdyoyê Zêdetir Rakirina - Unite.AI
Girêdana bi me

Îstîxbaratê ya sûnî

Bi Fêrbûna Makîneyê Zehftir Ji Vîdyoyê Tiştan Rakirin

mm
Demê on

Lêkolîna nû ya ji Chinaînê encamên herî nûjen - û her weha çêtirbûnek berbiçav di karîgeriyê de - ji bo pergalek nû ya xêzkirina vîdyoyê ya ku dikare bi şehrezayî tiştan ji dîmenan derxîne rapor dike.

Bi pêvajoyek nû ve zencîreyek glider tê boyaxkirin. Vîdyoya çavkaniyê (di binê vê gotarê de hatî vehewandin) ji bo çareseriya çêtir û nimûneyên bêtir bibînin. Çavkanî: https://www.youtube.com/watch?v=N--qC3T2wc4

Bi pêvajoyek nû ve zencîreyek glider tê boyaxkirin. Vîdyoya çavkaniyê (di binê vê gotarê de hatî vehewandin) ji bo çareseriya çêtir û nimûneyên bêtir bibînin. Çavkanî: https://www.youtube.com/watch?v=N–qC3T2wc4

Teknîka ku jê re tê gotin çarçoveyek End-to-End ji bo Inpainting vîdyoya Rêvebiriya Flow (E2FGVI), di heman demê de jêhatî ye ku nîşaneyên avê û cûrbecûr cûrbecûr dorpêçkirina ji naveroka vîdyoyê jî rake.

E2FGVI pêşbîniyên ji bo naveroka ku li pişt dorpêçan e, dihejmêre, rê dide rakirina nîşanên avê yên berbiçav û bêserûber jî. Çavkanî: https://github.com/MCG-NKU/E2FGVI

E2FGVI pêşbîniyên ji bo naveroka ku li pişt dorpêçan e, dihejmêre, rê dide rakirina nîşaneyên berbiçav û wekî din ên bêserûber. Çavkanî: https://github.com/MCG-NKU/E2FGVI

Ji bo dîtina nimûneyên bêtir di çareseriya çêtir de, vîdyoya ku di dawiya gotarê de hatî vehewandin binihêrin.

Her çend modela ku di kaxeza hatî weşandin de li ser vîdyoyên 432px x 240px hate perwerdekirin (bi gelemperî mezinahiyên têketinê kêm, ji hêla cîhê GPU-yê berdest beramberî mezinahiyên bacê yên çêtirîn û faktorên din ve têne asteng kirin), nivîskaran ji hingê ve berdan E2FGVI-HQ, ku dikare vîdyoyan bi çareseriyek kêfî bi rê ve bibe.

Koda guhertoya heyî ye berdeste li GitHub, dema ku guhertoya HQ, ku Yekşema borî hate berdan, dikare jê were dakêşandin Google Drive û Baidu Disk.

Zarok di wêneyê de dimîne.

Zarok di wêneyê de dimîne.

E2FGVI dikare vîdyoya 432 × 240 di 0.12 çirkeyan de li ser Titan XP GPU (12 GB VRAM) pêvajoyê bike, û nivîskar radigihînin ku pergal panzdeh carî zûtir ji rêbazên pêşkeftî yên li ser bingeha herikîna optîk.

Lîstikvanek tenîsê derketinek neçaverê dike.

Lîstikvanek tenîsê derketinek neçaverê dike.

Li ser daneyên standard ên ji bo vê jêr-sektora lêkolîna hevberdana wêneyê hate ceribandin, rêbaza nû karîbû hem di qonaxên nirxandina kalîteyî û hem jî yên jimareyî de ji hevrikan derbikeve.

Testên li dijî nêzîkatiyên berê. Çavkanî: https://arxiv.org/pdf/2204.02663.pdf

Testên li dijî nêzîkatiyên berê. Çavkanî: https://arxiv.org/pdf/2204.02663.pdf

Ew kaxez sernavkirî ye Ber bi Çarçoveyek Dawî-Bêdawî Ji Bo Inpainkirina Vîdyoyê ya Rêvebir-Flow, û hevkariyek di navbera çar lêkolînerên ji Zanîngeha Nankai de ye, digel lêkolînerek ji Hisilicon Technologies.

Di vê wêneyê de çi winda ye

Ji xeynî sepanên wê yên eşkere ji bo bandorên dîtbarî, xêzkirina vîdyoyê ya bi kalîteya bilind tê destnîşan kirin ku bibe taybetmendiyek bingehîn a senteza wêneya nû ya AI-ê û teknolojiyên guheztina wêneyê.

Ev bi taybetî ji bo serîlêdanên moda-guheztina laş, û çarçoveyên din ên ku digere ku 'bihejîne' an wekî din dîmenên di wêne û vîdyoyê de biguhezînin. Di rewşên weha de, pêdivî ye ku meriv paşxana zêde ya ku ji hêla sentezê ve tê xuyang kirin bi qanih 'tije bike'.

Ji kaxezek vê dawiyê, algorîtmayek 'ji nû ve şekilkirina' laş tê peywirdarkirin ku dema ku mijarek ji nû ve mezinahî tê xêzkirin paşnavê ku nû-vexuyandî ye. Li vir, ew kêmasî bi xêza sor a ku (jiyana rast, li wêneya çepê binêre) mirovê fîgurek tijetir tê temsîl kirin. Li ser bingeha materyalê çavkaniyê ji https://arxiv.org/pdf/2203.10496.pdf

Ji kaxezek vê dawiyê, algorîtmayek 'ji nû ve şekilkirina' laş tê peywirdarkirin ku dema ku mijarek ji nû ve mezinahî tê xêzkirin paşnavê ku nû-vexuyandî ye. Li vir, ew kêmasî bi xêza sor a ku (jiyana rast, li wêneya çepê binêre) mirovê fîgurek tijetir tê temsîl kirin. Li ser bingeha materyalê çavkaniyê ji https://arxiv.org/pdf/2203.10496.pdf

Herikîna Optîk a Hevgirtî

Herikîna optîkî (OF) di pêşkeftina rakirina tiştên vîdyoyê de bûye teknolojiyek bingehîn. Wek an satin, OF nexşeyek yek-şûşeyek rêzek demkî peyda dike. Bi gelemperî ji bo pîvandina lezê di destpêşxeriyên dîtina kompîturê de tê bikar anîn, OF di heman demê de dikare di boyaxkirina demkî ya domdar de jî çalak bike, li cihê ku tevheviya peywirê dikare di yek derbasbûnê de were hesibandin, li şûna baldariya 'per-çarçove' ya şêwaza Disney, ya ku bê guman rê dide. berdewamiya demkî.

Rêbazên xêzkirina vîdyoyê heya roja îro li ser pêvajoyek sê-qonaxa navendî ye: qedandina herikînê, ku vîdyoyê bi bingehîn di nav saziyek veqetandî û vekolîn de tête nexşandin; belavbûna pixel, cihê ku qulên vîdyoyên 'xirabkirî' bi pîxelên dualî belav dibin tê dagirtin; û naverokê hallucination ('îcad'a pixelê ya ku ji piraniya me re ji kûrahiyên kûr û çarçoveyên nivîs-bi-wêne yên wekî rêza DALL-E nas e) ku tê de naveroka 'wendabûyî' ya texmînkirî tê îcadkirin û têxe nav dîmenan.

Nûjeniya navendî ya E2FGVI ev e ku van sê qonaxan di nav pergalek dawî-bi-dawî de bicivîne, hewcedariya pêkanîna operasyonên destan li ser naverok an pêvajoyê ji holê rabike.

Kaxez destnîşan dike ku hewcedariya destwerdana destan hewce dike ku pêvajoyên kevn ji GPU-yê sûd wernegirin, ku wan pir dem-dixwez dike. Ji kaxezê*:

' Digirtin DFVI wek nimûne, temamkirina yek vîdyoyê bi mezinahiya 432 × 240 ji DAVIS, ku bi qasî 70 çarçeweyan vedihewîne, bi qasî 4 hûrdem hewce dike, ku di pir sepanên cîhana rastîn de nayê pejirandin. Wekî din, ji xeynî kêmasiyên jorîn, tenê di qonaxa halusînasyona naverokê de torgilokek xêzkirina wêneya pêş-perwerdekirî guh nade têkiliyên naverokê yên di nav cîranên demkî de, û di vîdyoyan de dibe sedema naverokek nakokbar.'

Bi yekkirina sê qonaxên kişandina vîdyoyê, E2FGVI dikare qonaxa duyemîn, belavkirina pixel, bi belavkirina taybetmendiyê veguherîne. Di pêvajoyên perçebûyî yên karên berê de, taybetmendî ne ewqas berfireh peyda dibin, ji ber ku her qonax bi nisbeten hermetîk e, û tevgera xebatê tenê nîv-otomatîkî ye.

Wekî din, lêkolîneran a transformatorê navendî ya demkî ji bo qonaxa halusînasyona naverokê, ku ne tenê cîranên rasterast ên pîxelan di çarçoveya heyî de (ango di wêneya berê an ya paşîn de li wî parçeyê çarçovê çi diqewime), lê di heman demê de cîranên dûr ên ku gelek çarçove dûr in jî dihesibîne, û dîsa jî dê bandorê li ser bandora hevgirtî ya her operasyonên ku li ser vîdyoyê bi tevahî têne kirin.

Mîmariya E2FGVI.

Mîmariya E2FGVI.

Beşa nû ya navendî-based taybetmendî ya karûbarê kar dikare ji pêvajoyên asta taybetmendiyê û veqetandina nimûneyên hînbûyî sûd werbigire, di heman demê de transformatora fokal a nû ya projeyê, li gorî nivîskaran, mezinahiya pencereyên fokal 'ji 2D ber 3D' dirêj dike. .

Test û Daneyên

Ji bo ceribandina E2FGVI, lêkolîneran pergalê li hember du komên daneya dabeşkirina tiştên vîdyoyê yên populer nirxand: YouTube-VOS, û DAVIS. YouTube-VOS 3741 klîpên vîdyoyê yên perwerdehiyê, 474 klîpên pejirandinê, û 508 klîbên ceribandinê vedihewîne, dema ku DAVIS 60 vîdyoyên perwerdehiyê, û 90 klîpên ceribandinê vedihewîne.

E2FGVI li ser YouTube-VOS hate perwerde kirin û li ser her du daneyan hate nirxandin. Di dema perwerdehiyê de, maskeyên tiştan (herêmên kesk ên di wêneyên li jor de, û vîdyoya pêvekirî ya li jêr) hatin çêkirin ku temamkirina vîdyoyê simule bikin.

Ji bo metrîkan, lêkolîneran Rêjeya Nîşan-Dengê Peak (PSNR), Wekheviya Struktural (SSIM), Dûrahiya Destpêkê ya Fréchet-ya-based (VFID), û Çewtiya Warpingê ya Flow Peak pejirand - ya paşîn ji bo pîvandina aramiya demkî di vîdyoya bandorkirî de.

Mîmarên berê yên ku pergalê li dijî wan ceribandin bûn VINet, DFVI, LGTSM, DEVIK, FGVC, STTN, û FuseFormer.

Ji beşa encamên hejmarî yên kaxezê. Tîrên jor û jêr destnîşan dikin ku hejmarên bilindtir an jêrîn bi rêzê çêtir in. E2FGVI li seranserê panelê encamên çêtirîn bi dest dixe. Rêbaz li gorî FuseFormer têne nirxandin, her çend DFVI, VINet û FGVC ne pergalên dawî-bi-dawî ne, ne gengaz e ku meriv FLOP-ên wan texmîn bike.

Ji beşa encamên hejmarî yên kaxezê. Tîrên jor û jêr destnîşan dikin ku hejmarên bilindtir an jêrîn bi rêzê çêtir in. E2FGVI li seranserê panelê encamên çêtirîn bi dest dixe. Rêbaz li gorî FuseFormer têne nirxandin, her çend DFVI, VINet û FGVC ne pergalên dawî-bi-dawî ne, ne gengaz e ku meriv FLOP-ên wan texmîn bike.

Digel bidestxistina encamên çêtirîn li hember hemî pergalên pêşbaziyê, lêkolîneran lêkolînek bikarhêner-kalîteyî kir, ku tê de vîdyoyên ku bi pênc rêbazên nûner veguherîbûn bi rengek kesane ji bîst dilxwazan re hatin pêşandan, ku ji wan hat xwestin ku wan di warê kalîteya dîtbar de binirxînin.

Eksê vertîkal rêjeya beşdaran ku di warê qalîteya dîtbarî de derketina E2FGVI tercîh kirine temsîl dike.

Texna vertîkal rêjeya beşdaran ku E tercîh kirine temsîl dike2Hilberîna FGVI di warê kalîteya dîtbar de.

Nivîskar destnîşan dikin ku tevî tercîha yekdengî ya ji bo rêbaza wan, yek ji encaman, FGVC, encamên hejmarî nîşan nade, û ew pêşniyar dikin ku ev destnîşan dike ku E.2FGVI dibe ku, bi taybetî, 'encamên dîtbarî xweştir' çêbike.

Di warê karîgeriyê de, nivîskar destnîşan dikin ku pergala wan di çirkeyê de operasyonên xala herikandinê (FLOPs) û dema encamdanê li ser yek GPU-ya Titan a li ser daneya DAVIS-ê pir kêm dike, û dibînin ku encam E2FGVI x15 ji rêbazên bingehîn-herikînê zûtir dimeşîne.

Ew şîrove dikin:

'[E2FGVI] berevajî hemî rêbazên din FLOP-ên herî kêm digire. Ev nîşan dide ku rêbaza pêşniyarkirî ji bo kişandina vîdyoyê pir bi bandor e.'

httpv://www.youtube.com/watch?v=N–qC3T2wc4

 

*Veguheztina min a vegotinên navrû yên nivîskaran bo hîpergirêdan.

Yekem car di 19-ê Gulana 2022-an de hate weşandin.