tunggul Nyoplokkeun Objék Tina Pidéo Langkung Éfisién Kalayan Pembelajaran Mesin - Unite.AI
Connect with kami

Kacerdasan buatan

Nyoplokkeun Objék Tina Pidéo Langkung Éfisién Kalayan Pembelajaran Mesin

mm
diropéa on

Panaliti anyar ti China ngalaporkeun hasil anu canggih - ogé paningkatan efisiensi anu pikaresepeun - pikeun sistem inpainting vidéo énggal anu tiasa ngahapus objék tina gambar.

Abah hang-glider dicét ku prosedur anyar. Tingali sumber pidéo (dipasang di handapeun tulisan ieu) pikeun résolusi anu langkung saé sareng seueur conto. Sumber: https://www.youtube.com/watch?v=N--qC3T2wc4

Abah hang-glider dicét ku prosedur anyar. Tingali sumber pidéo (dipasang di handapeun tulisan ieu) pikeun résolusi anu langkung saé sareng seueur conto. Sumber: https://www.youtube.com/watch?v=N–qC3T2wc4

Téhnik, disebut kerangka End-to-End pikeun Inpainting video Dipandu Aliran (E2FGVI), ogé tiasa ngahapus watermark sareng sababaraha jinis halangan sanés tina eusi pidéo.

E2FGVI ngitung prediksi pikeun eusi anu aya di tukangeun halangan-halangan, ngamungkinkeun pikeun ngaleungitkeun watermark anu kasohor sareng teu tiasa dicabut. Sumber: https://github.com/MCG-NKU/E2FGVI

E2FGVI ngitung prediksi pikeun eusi anu aya di tukangeun halangan-halangan, ngamungkinkeun ngaleungitkeun watermark anu kasohor sareng henteu tiasa dicabut. Sumber: https://github.com/MCG-NKU/E2FGVI

Pikeun ningali langkung seueur conto dina résolusi anu langkung saé, pariksa pidéo anu dipasang dina tungtung tulisan.

Sanaos modél anu dipidangkeun dina makalah anu diterbitkeun dilatih dina pidéo 432px x 240px (ukuran input umumna rendah, dibatesan ku rohangan GPU anu sayogi vs. E2FGVI-HQ, anu tiasa ngadamel pidéo dina résolusi anu sawenang-wenang.

Kodeu pikeun versi ayeuna nyaéta kasadia di GitHub, sedengkeun versi HQ, dileupaskeun Minggu kamari, tiasa diunduh tina Google Drive jeung Baidu Disk.

Budak tetep dina gambar.

Budak tetep dina gambar.

E2FGVI tiasa ngolah pidéo 432 × 240 dina 0.12 detik per pigura dina Titan XP GPU (12GB VRAM), sareng panulis ngalaporkeun yén sistemna beroperasi lima belas kali langkung gancang tibatan metodeu canggih dumasar kana aliran optik.

Pamuter ténis ngadamel jalan kaluar anu teu kaduga.

Pamuter ténis ngadamel jalan kaluar anu teu kaduga.

Diuji dina set data standar pikeun sub-sektor ieu panalungtikan sintésis gambar, métode anyar éta bisa outperform saingan dina duanana rounds evaluasi kualitatif jeung kuantitatif.

Tés ngalawan pendekatan saméméhna. Sumber: https://arxiv.org/pdf/2204.02663.pdf

Tés ngalawan pendekatan saméméhna. Sumber: https://arxiv.org/pdf/2204.02663.pdf

nu keretas judulna Nuju Hiji Kerangka End-to-End pikeun Inpainting Video Dipandu Aliran, sarta mangrupa kolaborasi antara opat peneliti ti Universitas Nankai, babarengan jeung panalungtik ti Hisilicon Technologies.

Naon Anu Leungit dina Gambar Ieu

Di sagigireun aplikasi écés na pikeun éfék visual, inpainting video kualitas luhur disetel ka jadi ciri watesan inti tina sintésis gambar basis AI anyar jeung téhnologi-ngarobah gambar.

Ieu utamana kasus pikeun aplikasi fashion-ngarobah awak, sarta frameworks séjén éta milarian 'langsing' atawa ngarobah pamandangan dina gambar jeung video. Dina kasus sapertos kitu, perlu pikeun ngayakinkeun 'ngeusian' latar tambahan anu kakeunaan ku sintésis.

Tina makalah panganyarna, algoritma 'reshaping' awak ditugaskeun pikeun ngalukis latar tukang anu nembé diungkabkeun nalika hiji subjek dirobih ukuran. Di dieu, shortfall éta digambarkeun ku outline beureum yén (kahirupan nyata, tingali gambar kénca) pinuh-figured jalma dipaké pikeun nempatan. Dumasar bahan sumber tina https://arxiv.org/pdf/2203.10496.pdf

Tina makalah panganyarna, algoritma 'reshaping' awak ditugaskeun pikeun ngalukis latar tukang anu nembé diungkabkeun nalika hiji subjek dirobih ukuran. Di dieu, shortfall éta digambarkeun ku outline beureum yén (kahirupan nyata, tingali gambar kénca) pinuh-figured jalma dipaké pikeun nempatan. Dumasar bahan sumber tina https://arxiv.org/pdf/2203.10496.pdf

Aliran Optik Koheren

Aliran optik (OF) geus jadi téhnologi inti dina ngembangkeun panyabutan objék video. Kawas hiji atlas, OF nyadiakeun peta hiji-shot tina runtuyan temporal. Mindeng dipaké pikeun ngukur laju dina inisiatif visi komputer, OF ogé bisa ngaktipkeun samentara konsisten dina lukisan, dimana jumlah agrégat tina tugas bisa dianggap dina pass tunggal, tinimbang Disney-gaya 'per-frame' perhatian, nu inevitably ngabalukarkeun ka discontinuity temporal.

Métode ngalukis pidéo dugi ka ayeuna dipuseurkeun kana prosés tilu tahap: parantosan aliran, dimana video dasarna dipetakeun kana éntitas diskrit tur explorable; rambatan piksel, dimana liang dina video 'korupsi' dieusian ku bidirectional propagating piksel; jeung eusi halusinasi (Piksel 'penemuan' anu wawuh ka kalolobaan urang tina deepfakes sareng kerangka téks-ka-gambar sapertos séri DALL-E) dimana perkiraan eusi 'leungit' diciptakeun sareng diselapkeun kana gambar.

Inovasi sentral E2FGVI nyaéta ngagabungkeun tilu tahapan ieu kana sistem tungtung-ka-tungtung, ngahindarkeun kabutuhan pikeun ngalaksanakeun operasi manual dina eusi atanapi prosésna.

Makalah éta nyatakeun yén kabutuhan pikeun campur tangan manual ngabutuhkeun prosés anu langkung lami henteu ngamangpaatkeun GPU, ngajantenkeun waktos-waktos. Tina makalah*:

'Nyandak DFVI salaku conto, ngalengkepan hiji video kalayan ukuran 432 × 240 ti Sadikin, anu ngandung kira-kira 70 pigura, peryogi sakitar 4 menit, anu henteu tiasa ditampi dina kalolobaan aplikasi dunya nyata. Sajaba ti éta, iwal drawbacks luhur-disebutkeun, ngan ngagunakeun jaringan inpainting gambar pretrained dina tahap halusinasi eusi malire hubungan eusi sakuliah tatangga temporal, ngarah kana inconsistent dihasilkeun eusi dina video.'

Ku ngahijikeun tilu tahapan video inpainting, E2FGVI tiasa ngagentos tahap kadua, rambatan piksel, sareng rambatan fitur. Dina prosés leuwih segmented karya prior, fitur teu jadi éksténsif sadia, sabab unggal tahap relatif hermetic, sarta workflow ngan semi-otomatis.

Salaku tambahan, para panalungtik parantos nyiptakeun a trafo fokus temporal pikeun tahap halusinasi eusi, nu nganggap teu ngan tatangga langsung piksel dina pigura ayeuna (ie naon anu lumangsung dina éta bagian pigura dina gambar saméméhna atawa salajengna), tapi ogé tatanggana jauh nu loba pigura jauh, jeung acan bakal mangaruhan pangaruh cohesive tina sagala operasi dipigawé dina video sakabéhna.

Arsitéktur of E2FGVI.

Arsitéktur of E2FGVI.

Bagian sentral dumasar-fitur anyar tina alur kerja tiasa ngamangpaatkeun langkung seueur prosés tingkat fitur sareng offset sampling anu tiasa diajar, sedengkeun trafo fokus novel proyék, numutkeun pangarang, ngalegaan ukuran windows fokus 'tina 2D ka 3D'. .

Tés jeung Data

Pikeun nguji E2FGVI, panalungtik ngaevaluasi sistem ngalawan dua set data segmentasi objék video populér: YouTube-VOS, sarta Sadikin. YouTube-VOS gaduh 3741 klip pidéo latihan, 474 klip validasi, sareng 508 klip uji, sedengkeun DAVIS gaduh 60 klip pidéo latihan, sareng 90 klip uji.

E2FGVI dilatih dina YouTube-VOS sareng dievaluasi dina dua set data. Salila latihan, masker objék (wewengkon héjo dina gambar di luhur, jeung video embedded handap) dihasilkeun pikeun simulate parantosan video.

Pikeun metrics, panalungtik diadopsi Puncak signal-to-noise ratio (PSNR), Structural kamiripan (SSIM), basis Video Fréchet Inception Jarak (VFID), sarta Flow Warping Kasalahan - kiwari dimungkinkeun pikeun ngukur stabilitas temporal dina video nu dimaksud.

Arsitéktur saméméhna anu diuji sistem éta VINet, DFVI, LGTSM, TOPI, FGVC, STTN, sarta FuseFormer.

Tina bagian hasil kuantitatif makalah. Panah luhur jeung ka handap nunjukkeun yén angka nu leuwih luhur atawa handap anu hadé, masing-masing. E2FGVI ngahontal skor pangsaéna dina papan. Métode dievaluasi dumasar kana FuseFormer, sanaos DFVI, VINet sareng FGVC sanés sistem tungtung-to-tungtung, sahingga teu mungkin pikeun ngira-ngira FLOPs na.

Tina bagian hasil kuantitatif makalah. Panah luhur jeung ka handap nunjukkeun yén angka nu leuwih luhur atawa handap anu hadé, masing-masing. E2FGVI ngahontal skor pangsaéna dina papan. Métode dievaluasi dumasar kana FuseFormer, sanaos DFVI, VINet sareng FGVC sanés sistem tungtung-to-tungtung, sahingga teu mungkin pikeun ngira-ngira FLOPs na.

Sajaba ti achieving skor pangalusna ngalawan sagala sistem competing, panalungtik ngalaksanakeun kualitatif pamaké-studi, nu video robah kalawan lima métode wawakil ditémbongkeun individual ka dua puluh sukarelawan, anu dipenta pikeun meunteun aranjeunna dina watesan kualitas visual.

Sumbu nangtung ngagambarkeun perséntase pamilon nu pikaresep kaluaran E2FGVI dina hal kualitas visual.

Sumbu nangtung ngawakilan persentase pamilon anu resep E2kaluaran FGVI dina hal kualitas visual.

Nu nulis dicatet yén sanajan leuwih sering dipake tinimbang unanimous pikeun métode maranéhanana, salah sahiji hasil, FGVC, teu ngagambarkeun hasil kuantitatif, sarta aranjeunna nyarankeun yén ieu nunjukkeun yén E.2FGVI, sacara khusus, tiasa ngahasilkeun 'hasil anu langkung pikaresepeun sacara visual'.

Dina hal efisiensi, panulis nyatet yén sistemna ngirangan pisan operasi titik ngambang per detik (FLOPs) sareng waktos inferensi dina Titan GPU tunggal dina dataset DAVIS, sareng perhatikeun yén hasilna nunjukkeun E.2FGVI ngajalankeun x15 gancang ti métode dumasar-aliran.

Aranjeunna komentar:

'[E2FGVI] nyepeng FLOPs panghandapna kontras jeung sakabeh métode séjénna. Ieu nunjukkeun yén métode nu diajukeun téh kacida éfisiénna pikeun inpainting video.'

httpv://www.youtube.com/watch?v=N–qC3T2wc4

 

*Konversi kutipan inline pangarang kuring kana hyperlink.

Mimiti diterbitkeun 19 Méi 2022.