Mākslīgais intelekts

Konsekventa AI video satura rediģēšana ar teksta ievadi

Atjaunināts on Decembris 9, 2022

Kamēr profesionālā VFX kopiena ir ieintriģēta – un reizēm jūtas nedaudz apdraudēta – pateicoties jauniem jauninājumiem attēlu un video sintēzē, laika nepārtrauktības trūkums lielākajā daļā uz AI balstītu video rediģēšanas projektu daudzus no šiem centieniem novirza uz “psihedēlisko” sfēru, mirgojošs un strauji mainīgs tekstūras un struktūras, nekonsekventi efekti un tāda veida rupja tehnoloģiju strīdi, kas atgādina fotoķīmiskais laikmets vizuālo efektu.

Ja vēlaties videoklipā mainīt kaut ko ļoti specifisku, kas neietilpst dziļo viltojumu jomā (ti, uzlikt jaunu identitāti esošajiem personas kadriem), lielākā daļa pašreizējo risinājumu darbojas ar diezgan nopietniem ierobežojumiem, proti, precizitāte, kas nepieciešama ražošanas kvalitātes vizuālajiem efektiem.

Viens izņēmums ir Weizmann Zinātnes institūta brīvās akadēmiķu asociācijas darbs. 2021. gadā trīs tās pētnieki sadarbībā ar Adobe, paziņoja jauna metode video sadalīšanai un konsekventas iekšējās kartēšanas uzklāšanai – a slāņu neironu atlants – saliktā izvadā, komplektā ar alfa kanāliem un īslaicīgi vienotu izvadi.

No 2021. gada dokumenta: aprēķins par pilnīgu ceļa šķērsošanu avota klipā ir rediģēts, izmantojot neironu tīklu tādā veidā, kas tradicionāli prasītu plašu rotoskopiju un sērkociņu pārvietošanu. Tā kā fona un priekšplāna elementus apstrādā dažādi tīkli, maskas patiešām ir “automātiskas”. Avots: https://layered-neural-atlases.github.io/

No 2021. gada dokumenta: aplēse par pilnīgu ceļa šķērsošanu avota klipā ir rediģēta, izmantojot neironu tīklu tādā veidā, kas tradicionāli prasītu plašu rotoskopiju un sērkociņu pārvietošanu. Tā kā fona un priekšplāna elementus apstrādā dažādi tīkli, maskas patiešām ir “automātiskas”. Avots: https://layered-neural-atlases.github.io/

Lai gan tas iekrīt kaut kur aptvertajā valstībā optiskā plūsma VFX cauruļvados slāņainajam atlantam nav tieša ekvivalenta tradicionālajās CGI darbplūsmās, jo tā būtībā veido "laika tekstūras karti", ko var izveidot un rediģēt, izmantojot tradicionālās programmatūras metodes. Otrajā attēlā iepriekš redzamajā attēlā ceļa seguma fons ir attēlots (figurālā nozīmē) visā videoklipa darbības laikā. Mainot šo pamatattēlu (trešais attēls no kreisās puses attēlā iepriekš) rada konsekventas izmaiņas fonā.

Iepriekš minētie “atlocītā” atlanta attēli attēlo tikai atsevišķus interpretētus kadrus; konsekventas izmaiņas jebkurā mērķa video kadrā tiek kartētas atpakaļ uz sākotnējo kadru, saglabājot visus nepieciešamos oklūzijas un citus nepieciešamos ainas efektus, piemēram, ēnas vai atspulgus.

Pamata arhitektūrā tiek izmantots daudzslāņu perceptrons (MLP), lai attēlotu nesalocītus atlantus, alfa kanālus un kartējumus, kas visi ir optimizēti saskaņoti un pilnībā 2D telpā, novēršot NeRF stila iepriekšējās zināšanas par 3D ģeometrijas punktiem, dziļuma kartēm, un līdzīgi CGI stila slazdiņi.

Atsevišķu objektu atsauces atlantu var arī droši mainīt:

Konsekventa maiņa uz kustīgu objektu saskaņā ar 2021. gada sistēmu. Avots: https://www.youtube.com/watch?v=aQhakPFC4oQ

Būtībā 2021. gada sistēma apvieno ģeometrijas izlīdzināšanu, sakritības pārvietošanu, kartēšanu, atkārtotu teksturēšanu un rotoskopiju diskrētā neironu procesā.

Text2Live

Trīs sākotnējie 2021. gada dokumenta pētnieki kopā ar NVIDIA pētījumiem ir vieni no tiem, kas veicināja jaunu inovāciju tehnikā, kas apvieno slāņveida atlantu jaudu ar tekstu vadītu CLIP tehnoloģiju, kas šonedēļ ir kļuvusi aktuāla. OpenAI atlaidiet no DALL-E 2 sistēmas.

Jaunā arhitektūra ar nosaukumu Text2Live, ļauj galalietotājam izveidot lokalizētus faktiskā video satura labojumus, pamatojoties uz teksta uzvednēm:

Divi priekšplāna rediģēšanas piemēri. Lai iegūtu labāku izšķirtspēju un izšķirtspēju, skatiet oriģinālos videoklipus vietnē https://text2live.github.io/sm/pages/video_results_atlases.html

Text2Live piedāvā semantisku un ļoti lokalizētu rediģēšanu, neizmantojot iepriekš apmācītu ģeneratoru, izmantojot iekšējo datu bāzi, kas ir specifiska ietekmētajam videoklipam.

Fona un priekšplāna (objektu) transformācijas programmā Text2Live. Avots: https://text2live.github.io/sm/pages/video_results_atlases.html

Šī tehnika neprasa lietotāja nodrošinātas maskas, piemēram, tipisku rotoskopijas vai zaļā ekrāna darbplūsmu, bet gan aprēķinus. atbilstības kartes izmantojot bootstrapping tehniku, kuras pamatā ir 2021 pētījums no Telavivas Universitātes Datorzinātņu skolas un Facebook AI pētniecības (FAIR).

Izvades kartes, kas ģenerētas, izmantojot uz transformatoru balstītu vispārēju uzmanības modeli.

Jaunais papīrs tiek nosaukts Text2LIVE: ar tekstu balstīta slāņveida attēlu un video rediģēšana. Sākotnējai 2021. gada komandai pievienojas Weizmann's Omer Bar-Tal un Yoni Kasten no NVIDIA Research.

arhitektūra

Text2Live ietver ģeneratoru, kas apmācīts tikai ievades attēlam un mērķa teksta uzvednēm. Kontrastīvās valodas-attēla priekšapmācības (CLIP) modelis, kas iepriekš sagatavots 400 miljoniem teksta/attēlu pāru, nodrošina saistītu vizuālo materiālu, no kura var interpretēt lietotāja ievadītās transformācijas.

Ģenerators pieņem ievades attēlu (rāmi) un izvada mērķa RGBA slāni, kas satur informāciju par krāsu un necaurredzamību. Pēc tam šis slānis tiek apvienots oriģinālajā materiālā ar papildu palielinājumiem.

Alfa kanāls ģenerētajā RGBA slānī nodrošina iekšēju kompozīcijas funkciju, neizmantojot tradicionālos cauruļvadus, kas ietver pikseļu programmatūru, piemēram, After Effects.

Apmācot iekšējos attēlus, kas attiecas uz mērķa video vai attēlu, Text2Live izvairās no prasības vai nu apgriezts ievades attēlu ģeneratīvā pretrunīgā tīkla (GAN) latentā telpā, kas pašlaik ir prakse tālu no pietiekami precīzi ražošanas video rediģēšanas prasībām vai arī izmantojiet Diffusion modeli, kas ir precīzāks un konfigurējams, bet nespēj saglabāt uzticību uz mērķa video.

Dažādi uz uzvednēm balstīti pārveidošanas labojumi no Text2Live.

Iepriekšējās pieejas ir izmantotas vai nu uz pavairošanu balstītas metodes or uz optiskās plūsmas bāzes pieejas. Tā kā šīs metodes zināmā mērā ir balstītas uz kadriem, neviena no tām nespēj radīt konsekventu īslaicīgu izvades video izmaiņu izskatu. Tā vietā neironu slāņveida atlants nodrošina vienu telpu, kurā risināt izmaiņas, kas pēc tam var palikt uzticīga veiktajām izmaiņām, kad notiek video.

Nekādu “čukstēšanu” vai nejaušu halucināciju: Text2Live iegūst teksta uzvednes “rūsgans džips” interpretāciju un vienreiz to piemēro video redzamās automašīnas neironu slāņainajam atlantam, tā vietā, lai restartētu katra interpretētā kadra transformāciju.

Text2Live konsekventās Jeep pārveidošanas darbplūsma par sarūsējušu relikviju.

Text2Live ir tuvāk izrāvienam uz AI balstītā kompozīcijā, nevis auglīgajai teksta-attēlu telpai, kas šonedēļ ir piesaistījusi tik lielu uzmanību, izlaižot otrā paaudze OpenAI DALL-E ietvaru (kas var ietvert mērķa attēlus kā daļu no pārveidošanas procesa, taču joprojām ir ierobežota spēja tieši iejaukties fotoattēlā, papildus avota apmācības datu cenzēšana un filtru uzlikšana, kas izstrādāta, lai novērstu lietotāju ļaunprātīgu izmantošanu).

Drīzāk Text2Live ļauj galalietotājam iegūt atlantu un pēc tam to vienā piegājienā rediģēt augstas kontroles pikseļu vidēs, piemēram, Photoshop (un, iespējams, vēl abstraktākos attēlu sintēzes ietvaros, piemēram, NeRF), pirms to ievada atpakaļ pareizi orientētā vidē, kas tomēr nepaļaujas uz 3D novērtēšanu vai retrospektīvām CGI pieejām.

Turklāt Text2Live, kā apgalvo autori, ir pirmā salīdzināmā sistēma, kas nodrošina maskēšanu un kompozīciju pilnībā automātiski.

Pirmo reizi publicēts 7. gada 2022. aprīlī.

Nākošais

Dziļa viltojumu noteikšana, pamatojoties uz sākotnējām cilvēka biometriskajām iezīmēm

Nepalaidiet garām

Pētnieki tuvojas “emocionāli inteliģenta” AI sasniegšanai

Mārtiņš Andersons

Rakstnieks par mašīnmācību, mākslīgo intelektu un lielajiem datiem.
Personīgā vietne: Martinanderson.ai
Sazinieties ar: [e-pasts aizsargāts]
Twitter: @manders_ai