Umetna inteligenca

Učinkovitejše odstranjevanje predmetov iz videa s strojnim učenjem

Posodobljeno on December 9, 2022

Nova raziskava s Kitajske poroča o najsodobnejših rezultatih – kot tudi o impresivnem izboljšanju učinkovitosti – za nov sistem za slikanje videa, ki lahko spretno odstrani predmete iz posnetkov.

Zmajarski pas se pobarva po novem postopku. Oglejte si izvorni video (vdelan na dnu tega članka) za boljšo ločljivost in več primerov. Vir: https://www.youtube.com/watch?v=N–qC3T2wc4

Tehnika, imenovana End-to-End framework for Flow-Guided Video Inpainting (E²FGVI), prav tako lahko odstrani vodne žige in različne druge vrste okluzij iz video vsebine.

E2FGVI izračunava predvidevanja za vsebino, ki se skriva za okluzijami, kar omogoča odstranitev celo opaznih in nepremagljivih vodnih žigov. Vir: https://github.com/MCG-NKU/E2FGVI

E2FGVI izračunava predvidevanja za vsebino, ki se skriva za okluzijami, kar omogoča odstranitev celo opaznih in sicer nerešljivih vodnih žigov. Vir: https://github.com/MCG-NKU/E2FGVI

Če si želite ogledati več primerov v boljši ločljivosti, si oglejte videoposnetek, vdelan na koncu članka.

Čeprav je bil model, predstavljen v objavljenem dokumentu, uren na videoposnetkih 432px x 240px (običajno majhne vhodne velikosti, omejene z razpoložljivim prostorom GPU v primerjavi z optimalnimi velikostmi paketov in drugimi dejavniki), so avtorji od takrat izdali E²FGVI-HQ, ki lahko obravnava videoposnetke v poljubni ločljivosti.

Koda za trenutno različico je Na voljo na GitHubu, medtem ko je HQ različico, izdano prejšnjo nedeljo, mogoče prenesti s Google Drive in Baidu disk.

Otrok ostane na sliki.

E²FGVI lahko obdeluje video 432 × 240 pri 0.12 sekunde na sličico na grafičnem procesorju Titan XP (12 GB VRAM) in avtorji poročajo, da sistem deluje petnajstkrat hitreje od prejšnjih najsodobnejših metod, ki temeljijo na optični tok.

Teniški igralec naredi nepričakovan izhod.

Preizkušena na standardnih naborih podatkov za ta podsektor raziskav sinteze slik, je nova metoda uspela prekašati tekmece tako v krogih kvalitativnega kot kvantitativnega ocenjevanja.

Preizkusi glede na prejšnje pristope. Vir: https://arxiv.org/pdf/2204.02663.pdf

O papirja je naslovljen Proti ogrodju od konca do konca za pretočno vodeno slikanje videa, in je sodelovanje med štirimi raziskovalci z univerze Nankai, skupaj z raziskovalcem iz Hisilicon Technologies.

Kaj manjka na tej sliki

Poleg očitnih aplikacij za vizualne učinke naj bi visokokakovostno slikanje videov postalo osrednja značilnost nove sinteze slik, ki temelji na umetni inteligenci, in tehnologij za spreminjanje slik.

To še posebej velja za modne aplikacije za spreminjanje telesa in druge okvire, ki poskušati "shujšati" ali kako drugače spreminjati prizore v slikah in videu. V takih primerih je treba prepričljivo 'zapolniti' dodatno ozadje, ki ga sinteza izpostavi.

Iz nedavnega članka je algoritem za 'preoblikovanje' telesa zadolžen za slikanje na novo razkritega ozadja, ko se subjektu spremeni velikost. Tukaj je ta primanjkljaj predstavljen z rdečim obrisom, ki ga je (v resničnem življenju, glej sliko levo) polnejša oseba uporabljala. Na podlagi izvornega gradiva iz https://arxiv.org/pdf/2203.10496.pdf

Koherentni optični tok

Optični tok (OF) je postal osrednja tehnologija pri razvoju odstranjevanja video objektov. Kot an atlas, OF zagotavlja enkraten zemljevid časovnega zaporedja. OF, ki se pogosto uporablja za merjenje hitrosti v pobudah za računalniški vid, lahko omogoči tudi časovno dosledno in-painting, kjer je mogoče skupno vsoto naloge obravnavati v enem samem prehodu, namesto Disneyjeve pozornosti 'na okvir', ki neizogibno vodi do časovne prekinitve.

Dosedanje metode video inpaintinga so bile osredotočene na tristopenjski proces: zaključek toka, kjer je videoposnetek v bistvu preslikan v diskretno in raziskljivo entiteto; širjenje slikovnih pik, kjer so luknje v "poškodovanih" videoposnetkih zapolnjene z dvosmerno razširjenimi slikovnimi pikami; in vsebinska halucinacija (pikselski 'izum', ki je večini od nas znan iz globokih ponaredkov in ogrodij za pretvorbo besedila v sliko, kot je serija DALL-E), kjer je ocenjena 'manjkajoča' vsebina izmišljena in vstavljena v posnetek.

Osrednja inovacija E²FGVI združuje te tri stopnje v sistem od konca do konca, s čimer se izogne potrebi po izvajanju ročnih operacij na vsebini ali procesu.

Prispevek ugotavlja, da potreba po ročnem posredovanju zahteva, da starejši procesi ne izkoriščajo GPU, zaradi česar so precej zamudni. Iz papirja*:

'Jemanje DFVI na primer dokončanje enega videa z velikostjo 432 × 240 od DAVIS, ki vsebuje približno 70 sličic, potrebuje približno 4 minute, kar je nesprejemljivo v večini realnih aplikacij. Poleg tega, z izjemo zgoraj omenjenih pomanjkljivosti, le uporaba vnaprej naučene mreže za slikanje slik na stopnji halucinacije vsebine ignorira razmerja med vsebino med časovnimi sosedi, kar vodi do nedosledne generirane vsebine v videoposnetkih.'

Z združitvijo treh stopenj video slikanja je E²FGVI lahko nadomesti drugo stopnjo, širjenje slikovnih pik, s širjenjem lastnosti. V bolj segmentiranih procesih predhodnih del funkcije niso tako obsežno na voljo, ker je vsaka stopnja razmeroma hermetična, potek dela pa le delno avtomatiziran.

Poleg tega so raziskovalci zasnovali a temporalni fokalni transformator za stopnjo halucinacije vsebine, ki ne upošteva le neposrednih sosedov slikovnih pik v trenutnem okvirju (tj. kaj se dogaja v tistem delu okvira na prejšnji ali naslednji sliki), temveč tudi oddaljene sosede, ki so oddaljeni veliko okvirjev, in vendar bo vplival na kohezivni učinek vseh operacij, izvedenih na videoposnetku kot celoti.

Arhitektura E2FGVI.

Novi osrednji del delovnega toka, ki temelji na funkcijah, lahko izkoristi prednosti več procesov na ravni funkcij in naučljivih odmikov vzorčenja, medtem ko nov žariščni transformator projekta po besedah avtorjev razširja velikost žariščnih oken 'iz 2D v 3D'. .

Testi in podatki

Za testiranje E²FGVI so raziskovalci ovrednotili sistem glede na dva priljubljena niza podatkov o segmentaciji video objektov: YouTube-VOSin DAVIS. YouTube-VOS vsebuje 3741 video posnetkov za usposabljanje, 474 posnetkov za preverjanje veljavnosti in 508 posnetkov za preizkuse, medtem ko DAVIS vsebuje 60 video posnetkov za usposabljanje in 90 posnetkov za preizkus.

E²FGVI je bil usposobljen za YouTube-VOS in ocenjen na obeh zbirkah podatkov. Med usposabljanjem so bile ustvarjene maske predmetov (zelene površine na zgornjih slikah in vdelan video spodaj) za simulacijo dokončanja videa.

Za meritve so raziskovalci sprejeli razmerje med najvišjim signalom in šumom (PSNR), strukturno podobnost (SSIM), video-based Fréchet Inception Distance (VFID) in napako krivljenja toka – slednjo za merjenje časovne stabilnosti v prizadetem videu.

Predhodne arhitekture, glede na katere je bil sistem testiran, so bile VINet, DFVI, LGTSM, SKP, FGVC, STTNin FuseFormer.

Iz dela prispevka o kvantitativnih rezultatih. Puščici navzgor in navzdol označujeta, da so višje ali nižje številke boljše. E2FGVI dosega najboljše rezultate na vseh področjih. Metode so ovrednotene v skladu s FuseFormer, čeprav DFVI, VINet in FGVC niso sistemi od konca do konca, zaradi česar je nemogoče oceniti njihove FLOP.

Poleg doseganja najboljših rezultatov v primerjavi z vsemi konkurenčnimi sistemi so raziskovalci izvedli kvalitativno uporabniško študijo, v kateri so bili videoposnetki, preoblikovani s petimi reprezentativnimi metodami, prikazani posamično dvajsetim prostovoljcem, ki so jih prosili, naj jih ocenijo glede na vizualno kakovost.

Navpična os predstavlja odstotek udeležencev, ki so imeli prednost izhod E2FGVI v smislu vizualne kakovosti.

Navpična os predstavlja odstotek udeležencev, ki so imeli prednost E²Izhod FGVI v smislu vizualne kakovosti.

Avtorji ugotavljajo, da kljub soglasni naklonjenosti njihovi metodi eden od rezultatov, FGVC, ne odraža kvantitativnih rezultatov, in menijo, da to kaže, da E²FGVI morda ustvarja "vizualno prijetnejše rezultate".

Kar zadeva učinkovitost, avtorji ugotavljajo, da njihov sistem močno zmanjša število operacij s plavajočo vejico na sekundo (FLOP) in čas sklepanja na eni sami grafični procesorji Titan na naboru podatkov DAVIS, in opažajo, da rezultati kažejo E²FGVI deluje x15 hitreje kot metode, ki temeljijo na pretoku.

Komentirajo:

'[E²FGVI] ima najnižje FLOP v nasprotju z vsemi drugimi metodami. To kaže, da je predlagana metoda zelo učinkovita za slikanje videa.'

httpv://www.youtube.com/watch?v=N–qC3T2wc4

*Moja pretvorba avtorjevih vgrajenih citatov v hiperpovezave.

Prvič objavljeno 19. maja 2022.

Sorodne teme:sinteza slike Raziskave transformator video

Up Next

Odkrivanje 'profesionalnih' zlonamernih spletnih pregledov s strojnim učenjem

Ne zamudite

Tehnologija strojne opreme AI posnema spremembe v topologiji nevronske mreže

Martin Anderson

Pisec o strojnem učenju, umetni inteligenci in velikih podatkih.
Osebno spletno mesto: martinanderson.ai
Kontakt: [e-pošta zaščitena]
Twitter: @manders_ai

Unite.AI

Učinkovitejše odstranjevanje predmetov iz videa s strojnim učenjem

Umetna inteligenca