csonk Hatékonyabb objektumok eltávolítása a videókról a gépi tanulással – Unite.AI
Kapcsolatba velünk

Mesterséges Intelligencia

Hatékonyabb objektumok eltávolítása a videóból a gépi tanulással

mm
korszerűsített on

Egy új kínai kutatás a legkorszerűbb eredményekről számol be – valamint lenyűgöző hatékonyságnövekedésről – egy új videofestő rendszerrel kapcsolatban, amely ügyesen eltávolítja a tárgyakat a felvételekről.

Az új eljárással egy sárkányrepülő heveder festett. A jobb felbontásért és további példákért tekintse meg a forrásvideót (amely a cikk alján található). Forrás: https://www.youtube.com/watch?v=N--qC3T2wc4

Az új eljárással egy sárkányrepülő heveder festett. A jobb felbontásért és további példákért tekintse meg a forrásvideót (amely a cikk alján található). Forrás: https://www.youtube.com/watch?v=N–qC3T2wc4

A technika, az úgynevezett End-to-End framework for Flow-Guided video Inpainting (E2FGVI), képes eltávolítani a vízjeleket és különféle egyéb elzáródásokat a videotartalomról.

Az E2FGVI előrejelzéseket készít az elzáródások mögött rejlő tartalomra vonatkozóan, lehetővé téve a figyelemre méltó és nehezen kezelhető vízjelek eltávolítását. Forrás: https://github.com/MCG-NKU/E2FGVI

Az E2FGVI előrejelzéseket számít ki az elzáródások mögött rejlő tartalmakra vonatkozóan, lehetővé téve a figyelemre méltó és egyébként nehezen kezelhető vízjelek eltávolítását. Forrás: https://github.com/MCG-NKU/E2FGVI

Ha több példát szeretne látni jobb felbontásban, nézze meg a cikk végén beágyazott videót.

Noha a publikált cikkben bemutatott modellt 432 képpont x 240 képpontos videókra képezték ki (általában alacsony bemeneti méretek, korlátozottak a rendelkezésre álló GPU-terület és az optimális kötegméretek és egyéb tényezők), a szerzők azóta közzétették. E2FGVI-HQ, amely tetszőleges felbontásban képes kezelni a videókat.

Az aktuális verzió kódja: elérhető a GitHubon, míg a múlt vasárnap megjelent HQ verzió innen tölthető le Google Drive és a Baidu lemez.

A gyerek a képben marad.

A gyerek a képben marad.

E2Az FGVI képes feldolgozni a 432×240-es videót 0.12 másodperces képkockánként egy Titan XP GPU-n (12 GB VRAM), és a szerzők arról számoltak be, hogy a rendszer tizenötször gyorsabban működik, mint a korábbi, legkorszerűbb módszerek. optikai áramlás.

Egy teniszező váratlanul kilép.

Egy teniszező váratlanul kilép.

A képszintézis-kutatás ezen részterületére vonatkozó szabványos adatkészleteken tesztelve az új módszer képes volt felülmúlni a riválisokat mind a minőségi, mind a kvantitatív értékelési körökben.

Tesztek a korábbi megközelítésekkel szemben. Forrás: https://arxiv.org/pdf/2204.02663.pdf

Tesztek a korábbi megközelítésekkel szemben. Forrás: https://arxiv.org/pdf/2204.02663.pdf

A papír címet viseli Egy végponttól végpontig terjedő keret felé a folyamatvezérelt videófestéshez, és a Nankai Egyetem négy kutatója, valamint a Hisilicon Technologies egyik kutatója együttműködése.

Mi hiányzik a képről

A vizuális effektusok nyilvánvaló alkalmazásai mellett a kiváló minőségű videofestés az új mesterséges intelligencia-alapú képszintézis és képmódosító technológiák alapvető meghatározó jellemzőjévé válik.

Ez különösen igaz a testmódosító divatalkalmazásokra és más olyan keretekre, amelyek törekedj 'fogyni' vagy más módon módosíthatja a képek és videók jeleneteit. Ilyen esetekben a szintézis által feltárt plusz hátteret kell meggyőzően „kitölteni”.

Egy nemrégiben megjelent cikk szerint egy test „átalakító” algoritmus feladata az újonnan feltárt háttér megfestése, amikor egy tárgyat átméreteznek. Itt ezt a hiányt az a piros körvonal képviseli, amelyet a (valódi élet, lásd bal oldali kép) teltebb alkatú ember szokott elfoglalni. A https://arxiv.org/pdf/2203.10496.pdf forrásanyaga alapján

Egy nemrégiben megjelent cikk szerint egy test „átalakító” algoritmus feladata az újonnan feltárt háttér megfestése, amikor egy tárgyat átméreteznek. Itt ezt a hiányt az a piros körvonal képviseli, amelyet a (valódi élet, lásd bal oldali kép) teltebb alkatú ember szokott elfoglalni. A https://arxiv.org/pdf/2203.10496.pdf forrásanyaga alapján

Koherens optikai áramlás

Az optikai áramlás (OF) a videoobjektum-eltávolítás fejlesztésének alapvető technológiájává vált. Mint egy atlasz, OF egy időbeli szekvencia egyszeri térképét adja meg. A számítógépes látási kezdeményezések sebességének mérésére gyakran használt OF lehetővé teszi az időben konzisztens befestést is, ahol a feladat összesített összege egyetlen lépésben figyelembe vehető a Disney-stílusú „kockánkénti” figyelem helyett, ami elkerülhetetlenül vezet az időbeli megszakításhoz.

A videofestési módszerek eddig egy három szakaszból álló folyamaton alapultak: áramlás befejezése, ahol a videó lényegében egy diszkrét és felfedezhető entitássá van leképezve; pixel terjedését, ahol a 'sérült' videókon lévő lyukakat kétirányúan terjedő képpontok töltik ki; és tartalmi hallucináció (pixel „találmány”, amely a legtöbbünk számára ismert a mélyhamisításokból és a szöveg-kép keretrendszerekből, például a DALL-E sorozatból), ahol a becsült „hiányzó” tartalmat kitalálják és beillesztik a felvételbe.

A központi innováció az E2Az FGVI ezt a három szakaszt egy végponttól végpontig terjedő rendszerré egyesíti, elkerülve a tartalom vagy a folyamat manuális műveleteinek elvégzését.

A cikk megjegyzi, hogy a kézi beavatkozás szükségessége megköveteli, hogy a régebbi folyamatok ne használják ki a GPU előnyeit, így meglehetősen időigényesek. A papírból*:

– Fogadás DFVI példaként egy 432 × 240 méretű videó befejezése innen DAVIS, amely körülbelül 70 képkockát tartalmaz, körülbelül 4 percet igényel, ami a legtöbb valós alkalmazásban elfogadhatatlan. Ezen túlmenően, a fent említett hátrányoktól eltekintve, csak egy előre képzett képfestő hálózat használata a tartalomhallucináció szakaszában figyelmen kívül hagyja az időbeli szomszédok közötti tartalomkapcsolatokat, ami inkonzisztens tartalomhoz vezet a videókban.

A videofestés három szakaszának egyesítése révén E2Az FGVI képes helyettesíteni a második fokozatot, a pixelterjedést a jellemzőterjesztéssel. A korábbi munkák szegmentáltabb folyamataiban a funkciók nem állnak rendelkezésre olyan széles körben, mert mindegyik szakasz viszonylag hermetikus, és a munkafolyamat csak félig automatizált.

Ezenkívül a kutatók kidolgoztak a temporális fókusztranszformátor a tartalmi hallucinációs szakaszhoz, amely nem csak az aktuális képkocka pixeleinek közvetlen szomszédait veszi figyelembe (azaz mi történik a képkockának az előző vagy következő képen abban a részében), hanem a távoli szomszédokat is, amelyek több képkockával távolabb vannak, és mégis befolyásolja a videó egészén végzett műveletek összetartó hatását.

Az E2FGVI építészete.

Az E2FGVI építészete.

A munkafolyamat új funkcióalapú központi része több funkciószintű folyamat és tanulható mintavételezési eltolás előnyeit is képes kihasználni, míg a projekt új fókusztranszformátora a szerzők szerint "2D-ről 3D-re" bővíti a fókuszablakok méretét. .

Tesztek és adatok

Az E. tesztelésére2FGVI, a kutatók a rendszert két népszerű videoobjektum-szegmentációs adatkészlet alapján értékelték: YouTube-VOSés DAVIS. A YouTube-VOS 3741 oktatóvideót, 474 érvényesítő klipet és 508 tesztklipet tartalmaz, míg a DAVIS 60 oktatóvideót és 90 tesztklipet tartalmaz.

E2Az FGVI-t a YouTube-VOS-on képezték ki, és mindkét adatkészleten értékelték. A képzés során tárgymaszkokat (a zöld területek a fenti képeken és az alábbi beágyazott videó) generáltak a videó befejezésének szimulálására.

A mérőszámokhoz a kutatók a csúcsjel-zaj arányt (PSNR), a strukturális hasonlóságot (SSIM), a videó alapú Fréchet kezdeti távolságot (VFID) és a Flow Warping Error-t alkalmazták – ez utóbbi az érintett videó időbeli stabilitásának mérésére szolgál.

A korábbi architektúrák, amelyekkel szemben a rendszert tesztelték VINet, DFVI, LGTSM, CAP, FGVC, STTNés FuseFormer.

A dolgozat mennyiségi eredmények rovatából. A felfelé és lefelé mutató nyilak jelzik, hogy a magasabb vagy alacsonyabb számok jobbak. Az E2FGVI a legjobb pontszámot éri el az egész területen. A módszerek kiértékelése a FuseFormer szerint történik, bár a DFVI, a VINet és az FGVC nem végponttól végpontig terjedő rendszerek, így lehetetlen megbecsülni FLOP-jaikat.

A dolgozat mennyiségi eredmények rovatából. A felfelé és lefelé mutató nyilak jelzik, hogy a magasabb vagy alacsonyabb számok jobbak. Az E2FGVI a legjobb pontszámot éri el az egész területen. A módszerek kiértékelése a FuseFormer szerint történik, bár a DFVI, a VINet és az FGVC nem végponttól végpontig terjedő rendszerek, így lehetetlen megbecsülni FLOP-jaikat.

Amellett, hogy az összes versengő rendszerrel szemben a legjobb pontszámot érték el, a kutatók kvalitatív felhasználói vizsgálatot is végeztek, amelyben öt reprezentatív módszerrel átalakított videókat mutattak be egyénileg húsz önkéntesnek, akiket vizuális minőségük alapján kértek meg.

A függőleges tengely azon résztvevők százalékos arányát mutatja, akik az E2FGVI kimenetet részesítették előnyben a vizuális minőség tekintetében.

A függőleges tengely azon résztvevők százalékos arányát mutatja, akik az E-t részesítették előnyben2FGVI kimenet a vizuális minőség szempontjából.

A szerzők megjegyzik, hogy a módszer egyöntetű preferálása ellenére az egyik eredmény, az FGVC nem tükrözi a kvantitatív eredményeket, és szerintük ez arra utal, hogy az E.2Az FGVI konkrétan „vizuálisan kellemesebb eredményeket” produkálhat.

A hatékonyság tekintetében a szerzők megjegyzik, hogy rendszerük nagymértékben csökkenti a másodpercenkénti lebegőpontos műveleteket (FLOP) és a következtetési időt egyetlen Titan GPU-n a DAVIS adatkészleten, és megfigyelik, hogy az eredmények azt mutatják,2Az FGVI az x15-öt gyorsabban futtatja, mint az áramlásalapú módszerek.

Hozzászólnak:

„[E2FGVI] rendelkezik a legalacsonyabb FLOP-okkal, ellentétben az összes többi módszerrel. Ez azt jelzi, hogy a javasolt módszer rendkívül hatékony videofestéshez.

httpv://www.youtube.com/watch?v=N–qC3T2wc4

 

*A szerzők soron belüli hivatkozásainak átalakítása hiperhivatkozásokká.

Első megjelenés: 19. május 2022.