stubs Objektu noņemšana no video efektīvāka, izmantojot mašīnmācīšanos — Unite.AI
Savienoties ar mums

Mākslīgais intelekts

Objektu noņemšana no video daudz efektīvāka, izmantojot mašīnmācīšanos

mm
Atjaunināts on

Jauns pētījums no Ķīnas ziņo par jaunākajiem rezultātiem, kā arī par iespaidīgu efektivitātes uzlabojumu jaunai video krāsošanas sistēmai, kas var veikli noņemt objektus no uzņemtā materiāla.

Ar jauno procedūru tiek nokrāsota deltaplāna uzkabe. Lai iegūtu labāku izšķirtspēju un citus piemērus, skatiet avota video (iegults šī raksta apakšā). Avots: https://www.youtube.com/watch?v=N--qC3T2wc4

Ar jauno procedūru tiek nokrāsota deltaplāna uzkabe. Lai iegūtu labāku izšķirtspēju un citus piemērus, skatiet avota video (iegults šī raksta apakšā). Avots: https://www.youtube.com/watch?v=N–qC3T2wc4

Paņēmiens, ko sauc no gala līdz galam ietvars plūsmas vadītai video krāsošanai (E2FGVI), spēj arī noņemt ūdenszīmes un dažādus citus oklūzijas veidus no video satura.

E2FGVI aprēķina prognozes saturam, kas atrodas aiz oklūzijas, ļaujot noņemt pat ievērojamas un grūti atrisināmas ūdenszīmes. Avots: https://github.com/MCG-NKU/E2FGVI

E2FGVI aprēķina prognozes saturam, kas atrodas aiz aizsprostojumiem, ļaujot noņemt pat ievērojamas un citādi grūti atrisināmas ūdenszīmes. Avots: https://github.com/MCG-NKU/E2FGVI

Lai redzētu vairāk piemēru labākā izšķirtspējā, skatiet raksta beigās iegulto videoklipu.

Lai gan publicētajā rakstā minētais modelis tika apmācīts 432 x 240 pikseļu video (parasti zemi ievades izmēri, ko ierobežo pieejamā GPU vieta salīdzinājumā ar optimālajiem partijas izmēriem un citiem faktoriem), autori kopš tā laika ir izlaiduši. E2FGVI-HQ, kas var apstrādāt videoklipus ar patvaļīgu izšķirtspēju.

Pašreizējās versijas kods ir pieejams vietnē GitHub, savukārt HQ versiju, kas tika izlaista pagājušajā svētdienā, var lejupielādēt no Google Drive un Baidu disks.

Bērns paliek bildē.

Bērns paliek bildē.

E2FGVI var apstrādāt 432 × 240 video ar ātrumu 0.12 sekundes uz kadru Titan XP GPU (12 GB VRAM), un autori ziņo, ka sistēma darbojas piecpadsmit reizes ātrāk nekā iepriekšējās jaunākās metodes, kuru pamatā ir optiskā plūsma.

Tenisists negaidīti iziet.

Tenisists negaidīti iziet.

Pārbaudīta ar standarta datu kopām šai attēlu sintēzes pētījumu apakšnozarei, jaunā metode spēja pārspēt konkurentus gan kvalitatīvā, gan kvantitatīvā vērtēšanas kārtā.

Pārbaudes pret iepriekšējām pieejām. Avots: https://arxiv.org/pdf/2204.02663.pdf

Pārbaudes pret iepriekšējām pieejām. Avots: https://arxiv.org/pdf/2204.02663.pdf

Jūsu darbs IR Klientu apkalpošana papīrs tiek nosaukts Ceļā uz visaptverošu sistēmu plūsmas vadītai video krāsošanai, un tā ir sadarbība starp četriem pētniekiem no Nankai universitātes kopā ar pētnieku no Hisilicon Technologies.

Kas trūkst šajā attēlā

Papildus acīmredzamajām vizuālo efektu pielietojuma iespējām augstas kvalitātes video gleznošana kļūs par jaunu uz mākslīgo intelektu balstītu attēlu sintēzes un attēlu mainīšanas tehnoloģiju galveno iezīmi.

Tas jo īpaši attiecas uz ķermeni mainošām modes lietojumprogrammām un citiem ietvariem, kas censties "novājēt" vai citādi mainīt ainas attēlos un video. Šādos gadījumos ir nepieciešams pārliecinoši "aizpildīt" papildu fonu, ko atklāj sintēze.

Nesenā rakstā ķermeņa “pārveidošanas” algoritmam ir uzdots krāsot tikko atklāto fonu, kad tiek mainīts objekta izmērs. Šeit šo trūkumu attēlo sarkanā kontūra, ko izmantoja (reālā dzīve, skatīt attēlu pa kreisi) pilnīgākas figūras cilvēks. Balstīts uz avota materiālu no https://arxiv.org/pdf/2203.10496.pdf

Nesenā rakstā ķermeņa “pārveidošanas” algoritmam ir uzdots krāsot tikko atklāto fonu, kad tiek mainīts objekta izmērs. Šeit šo trūkumu attēlo sarkanā kontūra, ko izmantoja (reālā dzīve, skatīt attēlu pa kreisi) pilnīgākas figūras cilvēks. Balstīts uz avota materiālu no https://arxiv.org/pdf/2203.10496.pdf

Koherenta optiskā plūsma

Optiskā plūsma (OF) ir kļuvusi par galveno tehnoloģiju video objektu noņemšanas attīstībā. Tāpat kā an atlants, OF nodrošina vienreizēju temporālās secības karti. OF, ko bieži izmanto ātruma mērīšanai datorredzes iniciatīvās, var arī nodrošināt īslaicīgu konsekventu krāsošanu, kur vienā piegājienā var ņemt vērā uzdevuma kopējo summu, nevis Disneja stila uzmanību, kas neizbēgami izraisa līdz īslaicīgam pārtraukumam.

Līdz šim video krāsošanas metodes ir balstītas uz trīs posmu procesu: plūsmas pabeigšana, kur video būtībā ir izveidots diskrētā un izpētāmā vienībā; pikseļu izplatīšanās, kur “bojātos” video caurumus aizpilda divvirzienu izplatīšanās pikseļi; un satura halucinācijas (pikseļu “izgudrojums”, kas lielākajai daļai no mums ir pazīstams no dziļiem viltojumiem un teksta pārveides ietvariem, piemēram, DALL-E sērijas), kur tiek izgudrots un ievietots kadrā aptuvenais “trūkstošais” saturs.

Centrālā inovācija E2FGVI ir jāapvieno šie trīs posmi pilnīgā sistēmā, novēršot nepieciešamību veikt manuālas darbības ar saturu vai procesu.

Rakstā norādīts, ka nepieciešamība pēc manuālas iejaukšanās prasa, lai vecāki procesi neizmantotu GPU sniegtās priekšrocības, padarot tos diezgan laikietilpīgus. No papīra*:

'Ņemot DFVI piemēram, aizpildot vienu video ar izmēru 432 × 240 no DAVIS, kurā ir aptuveni 70 kadri, ir vajadzīgas apmēram 4 minūtes, kas ir nepieņemami lielākajā daļā reālās pasaules lietojumprogrammu. Turklāt, izņemot iepriekš minētos trūkumus, tikai izmantojot iepriekš apmācītu attēlu iekrāsošanas tīklu satura halucinācijas stadijā, tiek ignorētas satura attiecības starp laika kaimiņiem, kā rezultātā videoklipos tiek ģenerēts nekonsekvents saturs.

Apvienojot trīs video gleznošanas posmus, E2FGVI spēj aizstāt otro posmu, pikseļu izplatīšanu, ar funkciju izplatīšanu. Iepriekšējo darbu segmentētākajos procesos funkcijas nav tik plaši pieejamas, jo katrs posms ir samērā hermētisks, un darbplūsma ir tikai daļēji automatizēta.

Turklāt pētnieki ir izstrādājuši a temporālais fokālais transformators satura halucinācijas stadijai, kurā tiek ņemti vērā ne tikai tiešos pikseļu kaimiņi pašreizējā kadrā (ti, kas notiek šajā kadra daļā iepriekšējā vai nākamajā attēlā), bet arī attālie kaimiņi, kas atrodas daudzu kadru attālumā, un tomēr ietekmēs visu videoklipā veikto darbību vienoto efektu.

E2FGVI arhitektūra.

E2FGVI arhitektūra.

Jaunā, uz funkcijām balstītā darbplūsmas centrālā sadaļa spēj izmantot vairāk funkciju līmeņa procesu un apgūstamas paraugu ņemšanas nobīdes, savukārt projekta jaunais fokusa transformators, pēc autoru domām, paplašina fokusa logu izmērus “no 2D uz 3D”. .

Testi un dati

Lai pārbaudītu E2FGVI, pētnieki novērtēja sistēmu, salīdzinot ar divām populārām video objektu segmentācijas datu kopām: YouTube-VOS, un DAVIS. YouTube-VOS piedāvā 3741 apmācības videoklipu, 474 validācijas klipus un 508 testa klipus, savukārt DAVIS piedāvā 60 apmācības videoklipus un 90 testa klipus.

E2FGVI tika apmācīts pakalpojumā YouTube-VOS un tika novērtēts abās datu kopās. Apmācības laikā tika ģenerētas objektu maskas (zaļās zonas augšējos attēlos un iegultais video zemāk), lai simulētu video pabeigšanu.

Attiecībā uz metriku pētnieki izmantoja maksimālā signāla un trokšņa attiecību (PSNR), strukturālo līdzību (SSIM), video balstītu Fréchet sākuma attālumu (VFID) un plūsmas deformācijas kļūdu – pēdējo, lai izmērītu laika stabilitāti ietekmētajā videoklipā.

Iepriekšējās arhitektūras, ar kurām sistēma tika pārbaudīta, bija VINet, DFVI, LGTSM, KLP, FGVC, STTN, un FuseFormer.

No darba kvantitatīvo rezultātu sadaļas. Uz augšu un uz leju vērstās bultiņas norāda, ka attiecīgi augstāki vai mazāki skaitļi ir labāki. E2FGVI sasniedz labākos rezultātus visā pasaulē. Metodes tiek novērtētas saskaņā ar FuseFormer, lai gan DFVI, VINet un FGVC nav pilnīgas sistēmas, tāpēc nav iespējams novērtēt to FLOP.

No darba kvantitatīvo rezultātu sadaļas. Uz augšu un uz leju vērstās bultiņas norāda, ka attiecīgi augstāki vai mazāki skaitļi ir labāki. E2FGVI sasniedz labākos rezultātus visā pasaulē. Metodes tiek novērtētas saskaņā ar FuseFormer, lai gan DFVI, VINet un FGVC nav pilnīgas sistēmas, tāpēc nav iespējams novērtēt to FLOP.

Papildus labāko rezultātu sasniegšanai pret visām konkurējošajām sistēmām pētnieki veica kvalitatīvu lietotāju pētījumu, kurā ar piecām reprezentatīvām metodēm pārveidoti video tika atsevišķi parādīti divdesmit brīvprātīgajiem, kuriem tika lūgts novērtēt tos vizuālās kvalitātes ziņā.

Vertikālā ass attēlo to dalībnieku procentuālo daļu, kuri vizuālās kvalitātes ziņā deva priekšroku E2FGVI izvadei.

Vertikālā ass parāda to dalībnieku procentuālo daļu, kuri deva priekšroku E2FGVI izvade vizuālās kvalitātes ziņā.

Autori atzīmē, ka, neskatoties uz vienprātīgo izvēli viņu metodei, viens no rezultātiem, FGVC, neatspoguļo kvantitatīvos rezultātus, un viņi liek domāt, ka tas norāda, ka E.2Konkrēti, FGVI varētu radīt “vizuāli patīkamākus rezultātus”.

Runājot par efektivitāti, autori atzīmē, ka viņu sistēma ievērojami samazina peldošā komata operācijas sekundē (FLOP) un secinājumu veikšanas laiku vienā Titan GPU DAVIS datu kopā, un atzīmē, ka rezultāti parāda E.2FGVI darbojas x15 ātrāk nekā plūsmas metodes.

Viņi komentē:

“[E2FGVI] ir viszemākie FLOP atšķirībā no visām citām metodēm. Tas norāda, ka piedāvātā metode ir ļoti efektīva video krāsošanai.

httpv://www.youtube.com/watch?v=N–qC3T2wc4

 

*Mana autoru iekļauto citātu pārvēršana par hipersaitēm.

Pirmo reizi publicēts 19. gada 2022. maijā.