Mesterséges Intelligencia
Hatékonyabb objektumok eltávolítása a videóból a gépi tanulással
Egy új kínai kutatás a legkorszerűbb eredményekről számol be – valamint lenyűgöző hatékonyságnövekedésről – egy új videofestő rendszerrel kapcsolatban, amely ügyesen eltávolítja a tárgyakat a felvételekről.
A technika, az úgynevezett End-to-End framework for Flow-Guided video Inpainting (E2FGVI), képes eltávolítani a vízjeleket és különféle egyéb elzáródásokat a videotartalomról.
Ha több példát szeretne látni jobb felbontásban, nézze meg a cikk végén beágyazott videót.
Noha a publikált cikkben bemutatott modellt 432 képpont x 240 képpontos videókra képezték ki (általában alacsony bemeneti méretek, korlátozottak a rendelkezésre álló GPU-terület és az optimális kötegméretek és egyéb tényezők), a szerzők azóta közzétették. E2FGVI-HQ, amely tetszőleges felbontásban képes kezelni a videókat.
Az aktuális verzió kódja: elérhető a GitHubon, míg a múlt vasárnap megjelent HQ verzió innen tölthető le Google Drive és a Baidu lemez.
E2Az FGVI képes feldolgozni a 432×240-es videót 0.12 másodperces képkockánként egy Titan XP GPU-n (12 GB VRAM), és a szerzők arról számoltak be, hogy a rendszer tizenötször gyorsabban működik, mint a korábbi, legkorszerűbb módszerek. optikai áramlás.
A képszintézis-kutatás ezen részterületére vonatkozó szabványos adatkészleteken tesztelve az új módszer képes volt felülmúlni a riválisokat mind a minőségi, mind a kvantitatív értékelési körökben.
A papír címet viseli Egy végponttól végpontig terjedő keret felé a folyamatvezérelt videófestéshez, és a Nankai Egyetem négy kutatója, valamint a Hisilicon Technologies egyik kutatója együttműködése.
Mi hiányzik a képről
A vizuális effektusok nyilvánvaló alkalmazásai mellett a kiváló minőségű videofestés az új mesterséges intelligencia-alapú képszintézis és képmódosító technológiák alapvető meghatározó jellemzőjévé válik.
Ez különösen igaz a testmódosító divatalkalmazásokra és más olyan keretekre, amelyek törekedj 'fogyni' vagy más módon módosíthatja a képek és videók jeleneteit. Ilyen esetekben a szintézis által feltárt plusz hátteret kell meggyőzően „kitölteni”.
Koherens optikai áramlás
Az optikai áramlás (OF) a videoobjektum-eltávolítás fejlesztésének alapvető technológiájává vált. Mint egy atlasz, OF egy időbeli szekvencia egyszeri térképét adja meg. A számítógépes látási kezdeményezések sebességének mérésére gyakran használt OF lehetővé teszi az időben konzisztens befestést is, ahol a feladat összesített összege egyetlen lépésben figyelembe vehető a Disney-stílusú „kockánkénti” figyelem helyett, ami elkerülhetetlenül vezet az időbeli megszakításhoz.
A videofestési módszerek eddig egy három szakaszból álló folyamaton alapultak: áramlás befejezése, ahol a videó lényegében egy diszkrét és felfedezhető entitássá van leképezve; pixel terjedését, ahol a 'sérült' videókon lévő lyukakat kétirányúan terjedő képpontok töltik ki; és tartalmi hallucináció (pixel „találmány”, amely a legtöbbünk számára ismert a mélyhamisításokból és a szöveg-kép keretrendszerekből, például a DALL-E sorozatból), ahol a becsült „hiányzó” tartalmat kitalálják és beillesztik a felvételbe.
A központi innováció az E2Az FGVI ezt a három szakaszt egy végponttól végpontig terjedő rendszerré egyesíti, elkerülve a tartalom vagy a folyamat manuális műveleteinek elvégzését.
A cikk megjegyzi, hogy a kézi beavatkozás szükségessége megköveteli, hogy a régebbi folyamatok ne használják ki a GPU előnyeit, így meglehetősen időigényesek. A papírból*:
– Fogadás DFVI példaként egy 432 × 240 méretű videó befejezése innen DAVIS, amely körülbelül 70 képkockát tartalmaz, körülbelül 4 percet igényel, ami a legtöbb valós alkalmazásban elfogadhatatlan. Ezen túlmenően, a fent említett hátrányoktól eltekintve, csak egy előre képzett képfestő hálózat használata a tartalomhallucináció szakaszában figyelmen kívül hagyja az időbeli szomszédok közötti tartalomkapcsolatokat, ami inkonzisztens tartalomhoz vezet a videókban.
A videofestés három szakaszának egyesítése révén E2Az FGVI képes helyettesíteni a második fokozatot, a pixelterjedést a jellemzőterjesztéssel. A korábbi munkák szegmentáltabb folyamataiban a funkciók nem állnak rendelkezésre olyan széles körben, mert mindegyik szakasz viszonylag hermetikus, és a munkafolyamat csak félig automatizált.
Ezenkívül a kutatók kidolgoztak a temporális fókusztranszformátor a tartalmi hallucinációs szakaszhoz, amely nem csak az aktuális képkocka pixeleinek közvetlen szomszédait veszi figyelembe (azaz mi történik a képkockának az előző vagy következő képen abban a részében), hanem a távoli szomszédokat is, amelyek több képkockával távolabb vannak, és mégis befolyásolja a videó egészén végzett műveletek összetartó hatását.
A munkafolyamat új funkcióalapú központi része több funkciószintű folyamat és tanulható mintavételezési eltolás előnyeit is képes kihasználni, míg a projekt új fókusztranszformátora a szerzők szerint "2D-ről 3D-re" bővíti a fókuszablakok méretét. .
Tesztek és adatok
Az E. tesztelésére2FGVI, a kutatók a rendszert két népszerű videoobjektum-szegmentációs adatkészlet alapján értékelték: YouTube-VOSés DAVIS. A YouTube-VOS 3741 oktatóvideót, 474 érvényesítő klipet és 508 tesztklipet tartalmaz, míg a DAVIS 60 oktatóvideót és 90 tesztklipet tartalmaz.
E2Az FGVI-t a YouTube-VOS-on képezték ki, és mindkét adatkészleten értékelték. A képzés során tárgymaszkokat (a zöld területek a fenti képeken és az alábbi beágyazott videó) generáltak a videó befejezésének szimulálására.
A mérőszámokhoz a kutatók a csúcsjel-zaj arányt (PSNR), a strukturális hasonlóságot (SSIM), a videó alapú Fréchet kezdeti távolságot (VFID) és a Flow Warping Error-t alkalmazták – ez utóbbi az érintett videó időbeli stabilitásának mérésére szolgál.
A korábbi architektúrák, amelyekkel szemben a rendszert tesztelték VINet, DFVI, LGTSM, CAP, FGVC, STTNés FuseFormer.
Amellett, hogy az összes versengő rendszerrel szemben a legjobb pontszámot érték el, a kutatók kvalitatív felhasználói vizsgálatot is végeztek, amelyben öt reprezentatív módszerrel átalakított videókat mutattak be egyénileg húsz önkéntesnek, akiket vizuális minőségük alapján kértek meg.
A szerzők megjegyzik, hogy a módszer egyöntetű preferálása ellenére az egyik eredmény, az FGVC nem tükrözi a kvantitatív eredményeket, és szerintük ez arra utal, hogy az E.2Az FGVI konkrétan „vizuálisan kellemesebb eredményeket” produkálhat.
A hatékonyság tekintetében a szerzők megjegyzik, hogy rendszerük nagymértékben csökkenti a másodpercenkénti lebegőpontos műveleteket (FLOP) és a következtetési időt egyetlen Titan GPU-n a DAVIS adatkészleten, és megfigyelik, hogy az eredmények azt mutatják,2Az FGVI az x15-öt gyorsabban futtatja, mint az áramlásalapú módszerek.
Hozzászólnak:
„[E2FGVI] rendelkezik a legalacsonyabb FLOP-okkal, ellentétben az összes többi módszerrel. Ez azt jelzi, hogy a javasolt módszer rendkívül hatékony videofestéshez.
httpv://www.youtube.com/watch?v=N–qC3T2wc4
*A szerzők soron belüli hivatkozásainak átalakítása hiperhivatkozásokká.
Első megjelenés: 19. május 2022.