stub Veiksmingesnis objektų pašalinimas iš vaizdo įrašo naudojant mašininį mokymąsi – Unite.AI
Susisiekti su mumis

Dirbtinis intelektas

Objektų pašalinimas iš vaizdo įrašo efektyvesnis naudojant mašininį mokymąsi

mm
Atnaujinta on

Nauji Kinijos tyrimai rodo naujausius rezultatus, taip pat įspūdingą efektyvumo pagerėjimą, skirtą naujai vaizdo dažymo sistemai, kuri gali sumaniai pašalinti objektus iš filmuotos medžiagos.

Nauja tvarka nudažyti deltasparnio diržai. Norėdami gauti geresnę skyrą ir daugiau pavyzdžių, žiūrėkite šaltinio vaizdo įrašą (įterptą šio straipsnio apačioje). Šaltinis: https://www.youtube.com/watch?v=N--qC3T2wc4

Nauja tvarka nudažyti deltasparnio diržai. Norėdami gauti geresnę skyrą ir daugiau pavyzdžių, žiūrėkite šaltinio vaizdo įrašą (įterptą šio straipsnio apačioje). Šaltinis: https://www.youtube.com/watch?v=N–qC3T2wc4

Technika, vadinama „End-to-End“ sistema, skirta srautiniam vaizdo įrašų dažymui (E2FGVI), taip pat gali pašalinti iš vaizdo įrašo turinio vandens ženklus ir įvairias kitas okliuzijas.

E2FGVI apskaičiuoja turinio, kuris yra už okliuzijos, prognozes, todėl galima pašalinti net pastebimus ir sunkiai įveikiamus vandens ženklus. Šaltinis: https://github.com/MCG-NKU/E2FGVI

E2FGVI apskaičiuoja turinio, kuris yra už okliuzijos, prognozes, todėl galima pašalinti net reikšmingus ir kitaip sunkiai įveikiamus vandens ženklus. Šaltinis: https://github.com/MCG-NKU/E2FGVI

Norėdami pamatyti daugiau geresnės raiškos pavyzdžių, peržiūrėkite straipsnio pabaigoje įdėtą vaizdo įrašą.

Nors paskelbtame dokumente pateiktas modelis buvo apmokytas 432 x 240 pikselių vaizdo įrašams (dažniausiai maži įvesties dydžiai, ribojami turimos GPU vietos, palyginti su optimaliais paketų dydžiais ir kitais veiksniais), autoriai nuo tada išleido. E2FGVI-HQ, kuri gali tvarkyti vaizdo įrašus savavališka raiška.

Dabartinės versijos kodas yra prieinamas „GitHub“, o HQ versiją, išleistą praėjusį sekmadienį, galima atsisiųsti iš "Google" diskas ir Baidu diskas.

Vaikas lieka nuotraukoje.

Vaikas lieka nuotraukoje.

E2FGVI gali apdoroti 432 × 240 vaizdo įrašą 0.12 sekundės per kadrą naudojant Titan XP GPU (12 GB VRAM), o autoriai praneša, kad sistema veikia penkiolika kartų greičiau nei ankstesni modernūs metodai, pagrįsti optinis srautas.

Tenisininkas netikėtai išeina.

Tenisininkas netikėtai išeina.

Išbandytas naudojant standartinius šio vaizdų sintezės tyrimų posektoriaus duomenų rinkinius, naujasis metodas sugebėjo pranokti konkurentus tiek kokybiniu, tiek kiekybiniu vertinimo etapais.

Bandymai prieš ankstesnius metodus. Šaltinis: https://arxiv.org/pdf/2204.02663.pdf

Bandymai prieš ankstesnius metodus. Šaltinis: https://arxiv.org/pdf/2204.02663.pdf

Šios popierius yra tituluojamas Kuriant visapusišką vaizdo įrašų piešimo pagal srautą sistemą, ir tai yra keturių mokslininkų iš Nankų universiteto bendradarbiavimas kartu su tyrėju iš Hisilicon Technologies.

Ko trūksta šiame paveikslėlyje

Be akivaizdžių vizualinių efektų pritaikymo, aukštos kokybės vaizdo piešimas taps pagrindine naujų dirbtinio intelekto vaizdų sintezės ir vaizdo keitimo technologijų savybe.

Tai ypač pasakytina apie kūną keičiančias mados programas ir kitas sistemas, kurios siekti "sulieknėti" arba kitaip pakeisti vaizdų ir vaizdo įrašų scenas. Tokiais atvejais būtina įtikinamai „užpildyti“ papildomą foną, kurį atskleidžia sintezė.

Neseniai paskelbtame dokumente kūno „performavimo“ algoritmui pavesta nupiešti naujai atskleistą foną, kai keičiamas objekto dydis. Čia tą trūkumą vaizduoja raudonas kontūras, kurį užimdavo (tikras gyvenimas, žr. paveikslėlį kairėje) pilnesnės figūros žmogus. Remiantis šaltinio medžiaga iš https://arxiv.org/pdf/2203.10496.pdf

Neseniai paskelbtame dokumente kūno „performavimo“ algoritmui pavesta nupiešti naujai atskleistą foną, kai keičiamas objekto dydis. Čia tą trūkumą vaizduoja raudonas kontūras, kurį užimdavo (tikras gyvenimas, žr. paveikslėlį kairėje) pilnesnės figūros žmogus. Remiantis šaltinio medžiaga iš https://arxiv.org/pdf/2203.10496.pdf

Darnus optinis srautas

Optinis srautas (OF) tapo pagrindine technologija kuriant vaizdo objektų pašalinimą. Kaip an atlasas, OF pateikia vienkartinį laiko sekos žemėlapį. Dažnai naudojamas kompiuterinio matymo iniciatyvų greičiui matuoti, OF taip pat gali įgalinti laikiną nuoseklų piešimą, kai bendra užduoties suma gali būti apsvarstyta vienu praėjimu, o ne Disney stiliaus „kadram“ dėmesys, kuris neišvengiamai lemia. iki laikinojo nenuoseklumo.

Vaizdo įrašų tapybos metodai iki šiol buvo sutelkti į trijų etapų procesą: srauto užbaigimas, kur vaizdo įrašas iš esmės suskirstytas į atskirą ir tyrinėjamą objektą; pikselių sklidimas, kur „sugadintų“ vaizdo įrašų skylės užpildomos dvikrypčiais sklindančiais pikseliais; ir turinio haliucinacijos (pikselių „išradimas“, daugeliui mūsų pažįstamas iš gilių padirbinių ir teksto į vaizdą sistemų, pvz., DALL-E serijos), kai išrandamas ir įterpiamas į filmuotą medžiagą apskaičiuotas „trūkstamas“ turinys.

Pagrindinė naujovė E2FGVI turi sujungti šiuos tris etapus į visą sistemą, kad nereikėtų rankiniu būdu atlikti turinio ar proceso veiksmų.

Straipsnyje pastebima, kad rankinio įsikišimo poreikis reikalauja, kad senesni procesai nesinaudotų GPU pranašumais, todėl jie užima daug laiko. Iš popieriaus*:

'Imimas DFVI kaip pavyzdį, užbaigiant vieną vaizdo įrašą, kurio dydis yra 432 × 240 nuo DAVIS, kuriame yra apie 70 kadrų, reikia maždaug 4 minučių, o tai nepriimtina daugelyje realaus pasaulio programų. Be to, išskyrus pirmiau minėtus trūkumus, tik naudojant iš anksto paruoštą vaizdo piešimo tinklą turinio haliucinacijų stadijoje nepaisoma turinio santykių tarp laikinųjų kaimynų, todėl vaizdo įrašuose sukuriamas nenuoseklus turinys.

Sujungus tris vaizdo tapybos etapus, E2FGVI gali pakeisti antrąjį etapą, pikselių sklidimą, funkcijų sklidimu. Segmentiškesniuose ankstesnių darbų procesuose funkcijos nėra taip plačiai prieinamos, nes kiekvienas etapas yra gana hermetiškas, o darbo eiga tik pusiau automatizuota.

Be to, mokslininkai sukūrė a laikinas židinio transformatorius turinio haliucinacijos stadijai, kurioje atsižvelgiama ne tik į tiesioginius vaizdo elementų kaimynus dabartiniame kadre (ty kas vyksta toje kadro dalyje ankstesniame arba kitame paveikslėlyje), bet ir į tolimus kaimynus, esančius už daugelio kadrų, ir tačiau turės įtakos bet kokių operacijų, atliekamų su visu vaizdo įrašu, poveikiui.

E2FGVI architektūra.

E2FGVI architektūra.

Naujoji funkcijomis pagrįsta centrinė darbo eigos dalis gali pasinaudoti daugiau funkcijų lygio procesų ir išmokstamų atrankos poslinkių, o naujasis projekto židinio transformatorius, pasak autorių, padidina židinio langų dydį „nuo 2D iki 3D“. .

Testai ir duomenys

Norėdami išbandyti E2FGVI, tyrėjai įvertino sistemą pagal du populiarius vaizdo objektų segmentavimo duomenų rinkinius: YouTube-VOSir DAVIS. YouTube-VOS yra 3741 mokymo vaizdo klipas, 474 patvirtinimo klipai ir 508 bandomieji klipai, o DAVIS yra 60 mokymo vaizdo klipų ir 90 bandomųjų klipų.

E2FGVI buvo apmokytas „YouTube-VOS“ ir įvertintas abiejuose duomenų rinkiniuose. Treniruotės metu buvo sukurtos objektų kaukės (žalios sritys aukščiau esančiuose vaizduose ir įterptas vaizdo įrašas žemiau), kad imituotų vaizdo įrašo užbaigimą.

Metrikoje mokslininkai pasirinko didžiausio signalo ir triukšmo santykį (PSNR), struktūrinį panašumą (SSIM), vaizdo įrašu pagrįstą Fréchet pradžios atstumą (VFID) ir srauto deformacijos klaidą – pastarąją, kad išmatuotų paveikto vaizdo įrašo laikinį stabilumą.

Ankstesnės architektūros, pagal kurias buvo išbandyta sistema, buvo VINet, DFVI, LGTSM, BŽŪP, FGVC, STTNir FuseFormer.

Iš kiekybinių rezultatų skyriaus. Rodyklės aukštyn ir žemyn rodo, kad atitinkamai didesni arba mažesni skaičiai yra geresni. E2FGVI pasiekia geriausius balus. Metodai vertinami pagal FuseFormer, nors DFVI, VINet ir FGVC nėra visos sistemos, todėl neįmanoma įvertinti jų FLOP.

Iš kiekybinių rezultatų skyriaus. Rodyklės aukštyn ir žemyn rodo, kad atitinkamai didesni arba mažesni skaičiai yra geresni. E2FGVI pasiekia geriausius balus. Metodai vertinami pagal FuseFormer, nors DFVI, VINet ir FGVC nėra visos sistemos, todėl neįmanoma įvertinti jų FLOP.

Be geriausių balų, palyginti su visomis konkuruojančiomis sistemomis, mokslininkai atliko kokybinį vartotojų tyrimą, kurio metu penkiais tipiniais metodais transformuoti vaizdo įrašai buvo rodomi individualiai dvidešimt savanorių, kurių buvo paprašyta įvertinti juos pagal vaizdo kokybę.

Vertikali ašis rodo procentą dalyvių, kurie pirmenybę teikė E2FGVI išvesties vaizdo kokybei.

Vertikali ašis rodo procentą dalyvių, kurie pirmenybę teikė E2FGVI išvestis pagal vaizdo kokybę.

Autoriai pažymi, kad nepaisant vieningos pirmenybės jų metodui, vienas iš rezultatų, FGVC, neatspindi kiekybinių rezultatų, ir jie teigia, kad tai rodo, kad E.2FGVI, ypač, gali sukurti „vizualiai malonesnius rezultatus“.

Kalbant apie efektyvumą, autoriai pažymi, kad jų sistema labai sumažina slankiojo kablelio operacijas per sekundę (FLOP) ir išvadų laiką viename Titan GPU DAVIS duomenų rinkinyje, ir pastebi, kad rezultatai rodo E.2FGVI veikia x15 greičiau nei srautu pagrįsti metodai.

Jie komentuoja:

„[E2FGVI] turi mažiausius FLOP, priešingai nei visi kiti metodai. Tai rodo, kad siūlomas metodas yra labai efektyvus vaizdo dažymui.

httpv://www.youtube.com/watch?v=N–qC3T2wc4

 

*Mano autorių įterptųjų citatų konvertavimas į hipersaitus.

Pirmą kartą paskelbta 19 m. gegužės 2022 d.