Umetna inteligenca
Učinkovitejše odstranjevanje predmetov iz videa s strojnim učenjem
Nova raziskava s Kitajske poroča o najsodobnejših rezultatih – kot tudi o impresivnem izboljšanju učinkovitosti – za nov sistem za slikanje videa, ki lahko spretno odstrani predmete iz posnetkov.
Tehnika, imenovana End-to-End framework for Flow-Guided Video Inpainting (E2FGVI), prav tako lahko odstrani vodne žige in različne druge vrste okluzij iz video vsebine.
Če si želite ogledati več primerov v boljši ločljivosti, si oglejte videoposnetek, vdelan na koncu članka.
Čeprav je bil model, predstavljen v objavljenem dokumentu, uren na videoposnetkih 432px x 240px (običajno majhne vhodne velikosti, omejene z razpoložljivim prostorom GPU v primerjavi z optimalnimi velikostmi paketov in drugimi dejavniki), so avtorji od takrat izdali E2FGVI-HQ, ki lahko obravnava videoposnetke v poljubni ločljivosti.
Koda za trenutno različico je Na voljo na GitHubu, medtem ko je HQ različico, izdano prejšnjo nedeljo, mogoče prenesti s Google Drive in Baidu disk.
E2FGVI lahko obdeluje video 432 × 240 pri 0.12 sekunde na sličico na grafičnem procesorju Titan XP (12 GB VRAM) in avtorji poročajo, da sistem deluje petnajstkrat hitreje od prejšnjih najsodobnejših metod, ki temeljijo na optični tok.
Preizkušena na standardnih naborih podatkov za ta podsektor raziskav sinteze slik, je nova metoda uspela prekašati tekmece tako v krogih kvalitativnega kot kvantitativnega ocenjevanja.
O papirja je naslovljen Proti ogrodju od konca do konca za pretočno vodeno slikanje videa, in je sodelovanje med štirimi raziskovalci z univerze Nankai, skupaj z raziskovalcem iz Hisilicon Technologies.
Kaj manjka na tej sliki
Poleg očitnih aplikacij za vizualne učinke naj bi visokokakovostno slikanje videov postalo osrednja značilnost nove sinteze slik, ki temelji na umetni inteligenci, in tehnologij za spreminjanje slik.
To še posebej velja za modne aplikacije za spreminjanje telesa in druge okvire, ki poskušati "shujšati" ali kako drugače spreminjati prizore v slikah in videu. V takih primerih je treba prepričljivo 'zapolniti' dodatno ozadje, ki ga sinteza izpostavi.
Koherentni optični tok
Optični tok (OF) je postal osrednja tehnologija pri razvoju odstranjevanja video objektov. Kot an atlas, OF zagotavlja enkraten zemljevid časovnega zaporedja. OF, ki se pogosto uporablja za merjenje hitrosti v pobudah za računalniški vid, lahko omogoči tudi časovno dosledno in-painting, kjer je mogoče skupno vsoto naloge obravnavati v enem samem prehodu, namesto Disneyjeve pozornosti 'na okvir', ki neizogibno vodi do časovne prekinitve.
Dosedanje metode video inpaintinga so bile osredotočene na tristopenjski proces: zaključek toka, kjer je videoposnetek v bistvu preslikan v diskretno in raziskljivo entiteto; širjenje slikovnih pik, kjer so luknje v "poškodovanih" videoposnetkih zapolnjene z dvosmerno razširjenimi slikovnimi pikami; in vsebinska halucinacija (pikselski 'izum', ki je večini od nas znan iz globokih ponaredkov in ogrodij za pretvorbo besedila v sliko, kot je serija DALL-E), kjer je ocenjena 'manjkajoča' vsebina izmišljena in vstavljena v posnetek.
Osrednja inovacija E2FGVI združuje te tri stopnje v sistem od konca do konca, s čimer se izogne potrebi po izvajanju ročnih operacij na vsebini ali procesu.
Prispevek ugotavlja, da potreba po ročnem posredovanju zahteva, da starejši procesi ne izkoriščajo GPU, zaradi česar so precej zamudni. Iz papirja*:
'Jemanje DFVI na primer dokončanje enega videa z velikostjo 432 × 240 od DAVIS, ki vsebuje približno 70 sličic, potrebuje približno 4 minute, kar je nesprejemljivo v večini realnih aplikacij. Poleg tega, z izjemo zgoraj omenjenih pomanjkljivosti, le uporaba vnaprej naučene mreže za slikanje slik na stopnji halucinacije vsebine ignorira razmerja med vsebino med časovnimi sosedi, kar vodi do nedosledne generirane vsebine v videoposnetkih.'
Z združitvijo treh stopenj video slikanja je E2FGVI lahko nadomesti drugo stopnjo, širjenje slikovnih pik, s širjenjem lastnosti. V bolj segmentiranih procesih predhodnih del funkcije niso tako obsežno na voljo, ker je vsaka stopnja razmeroma hermetična, potek dela pa le delno avtomatiziran.
Poleg tega so raziskovalci zasnovali a temporalni fokalni transformator za stopnjo halucinacije vsebine, ki ne upošteva le neposrednih sosedov slikovnih pik v trenutnem okvirju (tj. kaj se dogaja v tistem delu okvira na prejšnji ali naslednji sliki), temveč tudi oddaljene sosede, ki so oddaljeni veliko okvirjev, in vendar bo vplival na kohezivni učinek vseh operacij, izvedenih na videoposnetku kot celoti.
Novi osrednji del delovnega toka, ki temelji na funkcijah, lahko izkoristi prednosti več procesov na ravni funkcij in naučljivih odmikov vzorčenja, medtem ko nov žariščni transformator projekta po besedah avtorjev razširja velikost žariščnih oken 'iz 2D v 3D'. .
Testi in podatki
Za testiranje E2FGVI so raziskovalci ovrednotili sistem glede na dva priljubljena niza podatkov o segmentaciji video objektov: YouTube-VOSin DAVIS. YouTube-VOS vsebuje 3741 video posnetkov za usposabljanje, 474 posnetkov za preverjanje veljavnosti in 508 posnetkov za preizkuse, medtem ko DAVIS vsebuje 60 video posnetkov za usposabljanje in 90 posnetkov za preizkus.
E2FGVI je bil usposobljen za YouTube-VOS in ocenjen na obeh zbirkah podatkov. Med usposabljanjem so bile ustvarjene maske predmetov (zelene površine na zgornjih slikah in vdelan video spodaj) za simulacijo dokončanja videa.
Za meritve so raziskovalci sprejeli razmerje med najvišjim signalom in šumom (PSNR), strukturno podobnost (SSIM), video-based Fréchet Inception Distance (VFID) in napako krivljenja toka – slednjo za merjenje časovne stabilnosti v prizadetem videu.
Predhodne arhitekture, glede na katere je bil sistem testiran, so bile VINet, DFVI, LGTSM, SKP, FGVC, STTNin FuseFormer.
Poleg doseganja najboljših rezultatov v primerjavi z vsemi konkurenčnimi sistemi so raziskovalci izvedli kvalitativno uporabniško študijo, v kateri so bili videoposnetki, preoblikovani s petimi reprezentativnimi metodami, prikazani posamično dvajsetim prostovoljcem, ki so jih prosili, naj jih ocenijo glede na vizualno kakovost.
Avtorji ugotavljajo, da kljub soglasni naklonjenosti njihovi metodi eden od rezultatov, FGVC, ne odraža kvantitativnih rezultatov, in menijo, da to kaže, da E2FGVI morda ustvarja "vizualno prijetnejše rezultate".
Kar zadeva učinkovitost, avtorji ugotavljajo, da njihov sistem močno zmanjša število operacij s plavajočo vejico na sekundo (FLOP) in čas sklepanja na eni sami grafični procesorji Titan na naboru podatkov DAVIS, in opažajo, da rezultati kažejo E2FGVI deluje x15 hitreje kot metode, ki temeljijo na pretoku.
Komentirajo:
'[E2FGVI] ima najnižje FLOP v nasprotju z vsemi drugimi metodami. To kaže, da je predlagana metoda zelo učinkovita za slikanje videa.'
httpv://www.youtube.com/watch?v=N–qC3T2wc4
*Moja pretvorba avtorjevih vgrajenih citatov v hiperpovezave.
Prvič objavljeno 19. maja 2022.