Dirbtinis intelektas
Objektų pašalinimas iš vaizdo įrašo efektyvesnis naudojant mašininį mokymąsi
Nauji Kinijos tyrimai rodo naujausius rezultatus, taip pat įspūdingą efektyvumo pagerėjimą, skirtą naujai vaizdo dažymo sistemai, kuri gali sumaniai pašalinti objektus iš filmuotos medžiagos.
Technika, vadinama „End-to-End“ sistema, skirta srautiniam vaizdo įrašų dažymui (E2FGVI), taip pat gali pašalinti iš vaizdo įrašo turinio vandens ženklus ir įvairias kitas okliuzijas.
Norėdami pamatyti daugiau geresnės raiškos pavyzdžių, peržiūrėkite straipsnio pabaigoje įdėtą vaizdo įrašą.
Nors paskelbtame dokumente pateiktas modelis buvo apmokytas 432 x 240 pikselių vaizdo įrašams (dažniausiai maži įvesties dydžiai, ribojami turimos GPU vietos, palyginti su optimaliais paketų dydžiais ir kitais veiksniais), autoriai nuo tada išleido. E2FGVI-HQ, kuri gali tvarkyti vaizdo įrašus savavališka raiška.
Dabartinės versijos kodas yra prieinamas „GitHub“, o HQ versiją, išleistą praėjusį sekmadienį, galima atsisiųsti iš "Google" diskas ir Baidu diskas.
E2FGVI gali apdoroti 432 × 240 vaizdo įrašą 0.12 sekundės per kadrą naudojant Titan XP GPU (12 GB VRAM), o autoriai praneša, kad sistema veikia penkiolika kartų greičiau nei ankstesni modernūs metodai, pagrįsti optinis srautas.
Išbandytas naudojant standartinius šio vaizdų sintezės tyrimų posektoriaus duomenų rinkinius, naujasis metodas sugebėjo pranokti konkurentus tiek kokybiniu, tiek kiekybiniu vertinimo etapais.
Šios popierius yra tituluojamas Kuriant visapusišką vaizdo įrašų piešimo pagal srautą sistemą, ir tai yra keturių mokslininkų iš Nankų universiteto bendradarbiavimas kartu su tyrėju iš Hisilicon Technologies.
Ko trūksta šiame paveikslėlyje
Be akivaizdžių vizualinių efektų pritaikymo, aukštos kokybės vaizdo piešimas taps pagrindine naujų dirbtinio intelekto vaizdų sintezės ir vaizdo keitimo technologijų savybe.
Tai ypač pasakytina apie kūną keičiančias mados programas ir kitas sistemas, kurios siekti "sulieknėti" arba kitaip pakeisti vaizdų ir vaizdo įrašų scenas. Tokiais atvejais būtina įtikinamai „užpildyti“ papildomą foną, kurį atskleidžia sintezė.
Darnus optinis srautas
Optinis srautas (OF) tapo pagrindine technologija kuriant vaizdo objektų pašalinimą. Kaip an atlasas, OF pateikia vienkartinį laiko sekos žemėlapį. Dažnai naudojamas kompiuterinio matymo iniciatyvų greičiui matuoti, OF taip pat gali įgalinti laikiną nuoseklų piešimą, kai bendra užduoties suma gali būti apsvarstyta vienu praėjimu, o ne Disney stiliaus „kadram“ dėmesys, kuris neišvengiamai lemia. iki laikinojo nenuoseklumo.
Vaizdo įrašų tapybos metodai iki šiol buvo sutelkti į trijų etapų procesą: srauto užbaigimas, kur vaizdo įrašas iš esmės suskirstytas į atskirą ir tyrinėjamą objektą; pikselių sklidimas, kur „sugadintų“ vaizdo įrašų skylės užpildomos dvikrypčiais sklindančiais pikseliais; ir turinio haliucinacijos (pikselių „išradimas“, daugeliui mūsų pažįstamas iš gilių padirbinių ir teksto į vaizdą sistemų, pvz., DALL-E serijos), kai išrandamas ir įterpiamas į filmuotą medžiagą apskaičiuotas „trūkstamas“ turinys.
Pagrindinė naujovė E2FGVI turi sujungti šiuos tris etapus į visą sistemą, kad nereikėtų rankiniu būdu atlikti turinio ar proceso veiksmų.
Straipsnyje pastebima, kad rankinio įsikišimo poreikis reikalauja, kad senesni procesai nesinaudotų GPU pranašumais, todėl jie užima daug laiko. Iš popieriaus*:
'Imimas DFVI kaip pavyzdį, užbaigiant vieną vaizdo įrašą, kurio dydis yra 432 × 240 nuo DAVIS, kuriame yra apie 70 kadrų, reikia maždaug 4 minučių, o tai nepriimtina daugelyje realaus pasaulio programų. Be to, išskyrus pirmiau minėtus trūkumus, tik naudojant iš anksto paruoštą vaizdo piešimo tinklą turinio haliucinacijų stadijoje nepaisoma turinio santykių tarp laikinųjų kaimynų, todėl vaizdo įrašuose sukuriamas nenuoseklus turinys.
Sujungus tris vaizdo tapybos etapus, E2FGVI gali pakeisti antrąjį etapą, pikselių sklidimą, funkcijų sklidimu. Segmentiškesniuose ankstesnių darbų procesuose funkcijos nėra taip plačiai prieinamos, nes kiekvienas etapas yra gana hermetiškas, o darbo eiga tik pusiau automatizuota.
Be to, mokslininkai sukūrė a laikinas židinio transformatorius turinio haliucinacijos stadijai, kurioje atsižvelgiama ne tik į tiesioginius vaizdo elementų kaimynus dabartiniame kadre (ty kas vyksta toje kadro dalyje ankstesniame arba kitame paveikslėlyje), bet ir į tolimus kaimynus, esančius už daugelio kadrų, ir tačiau turės įtakos bet kokių operacijų, atliekamų su visu vaizdo įrašu, poveikiui.
Naujoji funkcijomis pagrįsta centrinė darbo eigos dalis gali pasinaudoti daugiau funkcijų lygio procesų ir išmokstamų atrankos poslinkių, o naujasis projekto židinio transformatorius, pasak autorių, padidina židinio langų dydį „nuo 2D iki 3D“. .
Testai ir duomenys
Norėdami išbandyti E2FGVI, tyrėjai įvertino sistemą pagal du populiarius vaizdo objektų segmentavimo duomenų rinkinius: YouTube-VOSir DAVIS. YouTube-VOS yra 3741 mokymo vaizdo klipas, 474 patvirtinimo klipai ir 508 bandomieji klipai, o DAVIS yra 60 mokymo vaizdo klipų ir 90 bandomųjų klipų.
E2FGVI buvo apmokytas „YouTube-VOS“ ir įvertintas abiejuose duomenų rinkiniuose. Treniruotės metu buvo sukurtos objektų kaukės (žalios sritys aukščiau esančiuose vaizduose ir įterptas vaizdo įrašas žemiau), kad imituotų vaizdo įrašo užbaigimą.
Metrikoje mokslininkai pasirinko didžiausio signalo ir triukšmo santykį (PSNR), struktūrinį panašumą (SSIM), vaizdo įrašu pagrįstą Fréchet pradžios atstumą (VFID) ir srauto deformacijos klaidą – pastarąją, kad išmatuotų paveikto vaizdo įrašo laikinį stabilumą.
Ankstesnės architektūros, pagal kurias buvo išbandyta sistema, buvo VINet, DFVI, LGTSM, BŽŪP, FGVC, STTNir FuseFormer.
Be geriausių balų, palyginti su visomis konkuruojančiomis sistemomis, mokslininkai atliko kokybinį vartotojų tyrimą, kurio metu penkiais tipiniais metodais transformuoti vaizdo įrašai buvo rodomi individualiai dvidešimt savanorių, kurių buvo paprašyta įvertinti juos pagal vaizdo kokybę.
Autoriai pažymi, kad nepaisant vieningos pirmenybės jų metodui, vienas iš rezultatų, FGVC, neatspindi kiekybinių rezultatų, ir jie teigia, kad tai rodo, kad E.2FGVI, ypač, gali sukurti „vizualiai malonesnius rezultatus“.
Kalbant apie efektyvumą, autoriai pažymi, kad jų sistema labai sumažina slankiojo kablelio operacijas per sekundę (FLOP) ir išvadų laiką viename Titan GPU DAVIS duomenų rinkinyje, ir pastebi, kad rezultatai rodo E.2FGVI veikia x15 greičiau nei srautu pagrįsti metodai.
Jie komentuoja:
„[E2FGVI] turi mažiausius FLOP, priešingai nei visi kiti metodai. Tai rodo, kad siūlomas metodas yra labai efektyvus vaizdo dažymui.
httpv://www.youtube.com/watch?v=N–qC3T2wc4
*Mano autorių įterptųjų citatų konvertavimas į hipersaitus.
Pirmą kartą paskelbta 19 m. gegužės 2022 d.