Tekoäly

Objektien poistaminen videosta tehokkaammin koneoppimisen avulla

Päivitetty on Joulukuu 9, 2022

Uusi Kiinalainen tutkimus raportoi huippuluokan tuloksista – sekä vaikuttavan tehokkuuden parantumisen – uudesta videomaalausjärjestelmästä, joka voi taitavasti poistaa esineitä kuvamateriaalista.

Riippuliittimen valjaat maalataan uudella menetelmällä. Katso lähdevideo (upotettu tämän artikkelin alareunaan) saadaksesi paremman resoluution ja lisää esimerkkejä. Lähde: https://www.youtube.com/watch?v=N–qC3T2wc4

Tekniikka, jota kutsutaan End-to-End-kehykseksi Flow-Guided Video Inpaintingille (E²FGVI), pystyy myös poistamaan vesileimat ja erilaisia muita tukkeumia videosisällöstä.

E2FGVI laskee ennusteet tukkeuman takana olevalle sisällölle, mikä mahdollistaa jopa merkittävien ja vaikeaselkoisten vesileimien poistamisen. Lähde: https://github.com/MCG-NKU/E2FGVI

E2FGVI laskee ennusteet tukosten takana olevalle sisällölle, mikä mahdollistaa jopa merkittävien ja muuten vaikeasti käsittävien vesileimien poistamisen. Lähde: https://github.com/MCG-NKU/E2FGVI

Jos haluat nähdä lisää esimerkkejä paremmalla resoluutiolla, katso artikkelin loppuun upotettu video.

Vaikka julkaistussa artikkelissa esitelty malli on koulutettu 432 x 240 pikselin videoille (yleensä pienet syöttökoot, käytettävissä oleva GPU-tila vs. optimaaliset eräkoot ja muut tekijät), kirjoittajat ovat sittemmin julkaisseet E²FGVI-HQ, joka pystyy käsittelemään videoita mielivaltaisella resoluutiolla.

Nykyisen version koodi on saatavissa GitHubissa, kun taas viime sunnuntaina julkaistu HQ-versio voidaan ladata osoitteesta Google Drive ja Baidu-levy.

Lapsi pysyy kuvassa.

E²FGVI pystyy käsittelemään 432 × 240 -videota 0.12 sekuntia ruutua kohden Titan XP -grafiikkasuorittimella (12 Gt VRAM), ja kirjoittajat raportoivat, että järjestelmä toimii viisitoista kertaa nopeammin kuin aiemmat tekniikan tason mukaiset menetelmät. optinen virtaus.

Tennispelaaja tekee odottamattoman poistumisen.

Uusi menetelmä, joka on testattu tämän kuvasynteesitutkimuksen alasektorin vakioaineistoilla, pystyi päihittämään kilpailijansa sekä laadullisissa että kvantitatiivisissa arviointikierroksissa.

Testit aikaisempia lähestymistapoja vastaan. Lähde: https://arxiv.org/pdf/2204.02663.pdf

- paperi on otsikko Kohti päästä päähän -kehystä Flow-Guided Video Paintingille, ja se on yhteistyö neljän Nankai-yliopiston tutkijan ja Hisilicon Technologiesin tutkijan kanssa.

Mitä tästä kuvasta puuttuu

Sen ilmeisten visuaalisten tehosteiden sovellusten lisäksi korkealaatuisesta videomaalauksesta on tarkoitus tulla uusien tekoälypohjaisten kuvasynteesien ja kuvanmuokkaustekniikoiden keskeinen ominaisuus.

Tämä pätee erityisesti vartaloa muokkaaviin muotisovelluksiin ja muihin kehyksiin pyrkiä "laihtumaan" tai muuten muuttaa kohtauksia kuvissa ja videoissa. Tällaisissa tapauksissa on välttämätöntä "täyttää" vakuuttavasti synteesin paljastama ylimääräinen tausta.

Tuoreen artikkelin mukaan kehon "uudelleenmuotoilu"-algoritmin tehtävänä on maalata juuri paljastettu tausta, kun kohteen kokoa muutetaan. Tässä tätä puutetta edustaa punainen ääriviiva, jota (tosielämä, katso kuva vasemmalla) täyshahmoinen henkilö käytti. Perustuu lähdemateriaaliin osoitteesta https://arxiv.org/pdf/2203.10496.pdf

Koherentti optinen virtaus

Optisesta virtauksesta (OF) on tullut keskeinen tekniikka videoobjektien poiston kehittämisessä. Kuten an kartasto, OF tarjoaa kertakartan temporaalisesta sekvenssistä. Usein nopeuden mittaamiseen tietokonenäköaloitteissa käytetty OF voi myös mahdollistaa ajallisesti johdonmukaisen maalauksen, jossa tehtävän kokonaissumma voidaan ottaa huomioon yhdellä kertaa Disney-tyylisen "kehyskohtaisen" huomion sijaan, mikä väistämättä johtaa ajalliseen epäjatkuvuuteen.

Videomaalausmenetelmät ovat tähän mennessä keskittyneet kolmivaiheiseen prosessiin: virtauksen valmistuminen, jossa video on olennaisesti kartoitettu erilliseksi ja tutkittavaksi kokonaisuudeksi; pikselien leviäminen, jossa "vioittuneiden" videoiden reiät täytetään kaksisuuntaisesti leviävillä pikseleillä; ja sisällön hallusinaatiot (pikselin "keksintö", joka on tuttu useimmille meistä syväväärennöksistä ja tekstistä kuvaksi -kehyksestä, kuten DALL-E-sarjasta), jossa arvioitu "puuttuva" sisältö keksitään ja lisätään materiaaliin.

Keskeinen innovaatio E²FGVI:n on tarkoitus yhdistää nämä kolme vaihetta päästä päähän -järjestelmäksi, jolloin sisältöön tai prosessiin ei tarvitse tehdä manuaalisia toimintoja.

Paperi toteaa, että manuaalisen toiminnan tarve edellyttää, että vanhemmat prosessit eivät hyödynnä GPU:ta, mikä tekee niistä melko aikaa vieviä. Lehdestä*:

'Ottaa DFVI esimerkiksi yhden videon viimeistely, jonka koko on 432 × 240 alkaen DAVIS, joka sisältää noin 70 kehystä, vaatii noin 4 minuuttia, mikä ei ole hyväksyttävää useimmissa tosielämän sovelluksissa. Lisäksi, edellä mainittuja haittoja lukuun ottamatta, vain esikoulutetun kuvankäsittelyverkoston käyttö sisällön hallusinaatiovaiheessa jättää huomiotta ajallisten naapureiden väliset sisältösuhteet, mikä johtaa epäjohdonmukaiseen sisältöön videoissa.

Yhdistämällä videomaalauksen kolme vaihetta E²FGVI pystyy korvaamaan toisen vaiheen, pikselien leviämisen, ominaisuuden etenemisellä. Aikaisempien töiden segmentoidummissa prosesseissa ominaisuuksia ei ole niin laajasti saatavilla, koska jokainen vaihe on suhteellisen hermeettinen ja työnkulku vain puoliautomaattinen.

Lisäksi tutkijat ovat kehittäneet a ajallinen polttovälimuuntaja sisällön hallusinaatiovaiheessa, jossa otetaan huomioon nykyisen kehyksen pikselien suorien naapureiden lisäksi (eli mitä tapahtuu kehyksen kyseisessä osassa edellisessä tai seuraavassa kuvassa), vaan myös kaukaiset naapurit, jotka ovat monen kehyksen päässä, ja kuitenkin vaikuttaa kaikkien videolle suoritettujen toimintojen yhtenäiseen vaikutukseen.

E2FGVI:n arkkitehtuuri.

Työnkulun uusi ominaisuuspohjainen keskusosa pystyy hyödyntämään enemmän ominaisuustason prosesseja ja opittavia näytteenottopoikkeamia, kun taas projektin uusi polttomuuntaja laajentaa tekijöiden mukaan polttoikkunoiden kokoa "2D:stä 3D:ksi". .

Testit ja tiedot

Testaamaan E²FGVI, tutkijat arvioivat järjestelmää kahteen suosittuun videoobjektien segmentointitietosarjaan: YouTube-VOSja DAVIS. YouTube-VOS sisältää 3741 harjoitusvideoleikettä, 474 validointileikettä ja 508 testileikettä, kun taas DAVIS sisältää 60 harjoitusvideoleikettä ja 90 testileikettä.

E²FGVI koulutettiin YouTube-VOS:ssä ja arvioitiin molemmissa tietojoukoissa. Harjoittelun aikana luotiin esinemaskeja (vihreät alueet yllä olevissa kuvissa ja upotettu video alla) simuloimaan videon valmistumista.

Mittarien osalta tutkijat omaksuivat huippusignaali-kohinasuhteen (PSNR), rakenteellisen samankaltaisuuden (SSIM), videopohjaisen Fréchet-aloitusetäisyyden (VFID) ja Flow Warping Error -virheen – jälkimmäisen mittaamaan vaikutuksen alaisen videon ajallista vakautta.

Aiemmat arkkitehtuurit, joita vastaan järjestelmää testattiin, olivat VINet, DFVI, LGTSM, CAP, FGVC, STTNja FuseFormer.

Paperin määrälliset tulokset -osiosta. Ylös- ja alanuolet osoittavat, että korkeammat tai pienemmät luvut ovat vastaavasti parempia. E2FGVI saavuttaa parhaat pisteet kautta linjan. Menetelmät arvioidaan FuseFormerin mukaan, vaikka DFVI, VINet ja FGVC eivät ole päästä päähän -järjestelmiä, mikä tekee mahdottomaksi arvioida niiden FLOP:ia.

Sen lisäksi, että kaikki kilpailevat järjestelmät saivat parhaat pisteet, tutkijat suorittivat laadullisen käyttäjätutkimuksen, jossa viidellä edustavalla menetelmällä muunnettuja videoita esitettiin yksitellen kahdellekymmenelle vapaaehtoiselle, joita pyydettiin arvioimaan ne visuaalisen laadun perusteella.

Pystyakseli edustaa niiden osallistujien prosenttiosuutta, jotka suosivat E2FGVI-tulostusta visuaalisen laadun suhteen.

Pystyakseli edustaa niiden osallistujien prosenttiosuutta, jotka suosivat E²FGVI-lähtö visuaalisen laadun kannalta.

Kirjoittajat huomauttavat, että huolimatta heidän menetelmänsä yksimielisestä suosimisesta yksi tuloksista, FGVC, ei heijasta kvantitatiivisia tuloksia, ja he ehdottavat, että tämä viittaa siihen, että E²FGVI saattaa erityisesti tuottaa "visuaalisesti miellyttävämpiä tuloksia".

Tehokkuuden osalta kirjoittajat huomauttavat, että heidän järjestelmänsä vähentää huomattavasti liukulukuoperaatioita sekunnissa (FLOP) ja päättelyaikaa yhdellä Titan-grafiikkasuorittimella DAVIS-tietojoukossa, ja huomaavat, että tulokset osoittavat E.²FGVI toimii x15 nopeammin kuin virtauspohjaiset menetelmät.

He kommentoivat:

'[E²FGVI]:llä on alhaisimmat FLOP-arvot toisin kuin kaikki muut menetelmät. Tämä osoittaa, että ehdotettu menetelmä on erittäin tehokas videomaalaukseen.

httpv://www.youtube.com/watch?v=N–qC3T2wc4

*Muunnan tekijöiden upotetut lainaukset hyperlinkeiksi.

Julkaistu ensimmäisen kerran 19.

Liittyvät aiheet:kuvan synteesi tutkimus muuntaja video-

Seuraavaksi

"Ammattimaisten" haitallisten online-arvostelujen havaitseminen koneoppimisen avulla

Älä missaa

AI Hardware Technology jäljittelee muutoksia hermoverkkotopologiassa

Martin Anderson

Kirjoittaja koneoppimisesta, tekoälystä ja big datasta.
Henkilökohtainen sivusto: martinanderson.ai
Ottaa yhteyttä: [sähköposti suojattu]
Twitter: @manders_ai

Unite.AI

Objektien poistaminen videosta tehokkaammin koneoppimisen avulla

Tekoäly