Umjetna inteligencija
Neuralno iscrtavanje: koliko nisko možete ići u smislu unosa?
Jučer je neki izvanredni novi rad u sintezi neuralne slike privukao pažnju i maštu interneta, jer su Intelovi istraživači otkrili Nova metoda za povećanje realizma sintetičkih slika.
Sustav, kao što je prikazano u a video od Intela, intervenira izravno u cjevovod slike za videoigru Grand Theft Auto V i automatski poboljšava slike putem algoritma za sintezu slike obučenog na konvolucijskoj neuronskoj mreži (CNN), koristeći slike stvarnog svijeta iz Mapilarno skup podataka i izmjenu manje realističnog osvjetljenja i tekstura GTA pokretača igre.
Komentatori, u širokom rasponu reakcija u zajednicama kao što su Reddit i Hacker News, tvrde ne samo da bi neuralno renderiranje ovog tipa moglo učinkovito zamijeniti manje fotorealističan rezultat tradicionalnih pokretača igara i CGI-ja na razini VFX-a, već da bi ovaj proces mogao biti postignuto s daleko više osnovnog unosa nego što je prikazano u demonstraciji Intel GTA5 — učinkovito stvaranje 'lutkastih' proxy ulaza s masovno realističnim izlazima.
Upareni skupovi podataka
Načelo je ilustrirano novom generacijom GAN-a i sustava enkodera/dekodera tijekom posljednje tri godine, poput NVIDIA-inog GauGAN-a, koji generira fotorealistične scenske slike iz sirovih mrlja.
Učinkovito ovo načelo preokreće konvencionalnu upotrebu semantičke segmentacije računalni vid od pasivne metode koja omogućuje strojnim sustavima da identificiraju i izoliraju promatrane objekte u kreativni unos, gdje korisnik 'oslikava' lažnu semantičku mapu segmentacije, a sustav generira slike koje su u skladu s odnosima koje razumije nakon što je već klasificirao i segmentirao određeni domena, kao što je pejzaž.
Sustavi za sintezu uparenih skupova slika funkcioniraju korelirajući semantičke oznake na dva skupa podataka: bogat i potpun skup slika, bilo generiran iz slika iz stvarnog svijeta (kao kod Mapillary skupa korištenog za poboljšanje GTA5 u jučerašnjoj Intelovoj demonstraciji) ili iz sintetičkih slika, kao što su CGI slike.
Vanjska okruženja relativno su laka pri stvaranju uparenih transformacija skupova podataka ove vrste, jer su izbočine obično prilično ograničene, topografija ima ograničen raspon varijanci koje se mogu sveobuhvatno uhvatiti u skupu podataka i ne moramo se baviti stvaranjem umjetnih ljudi , ili pregovaranje o Uncanny Valley (još).
Invertiranje mapa segmentacije
Google je razvio animiranu verziju GauGAN sheme, tzv Beskrajna prirodasposoban namjerno 'halucinirati' kontinuirane i beskrajne fiktivne krajolike prevođenjem lažnih semantičkih mapa u fotorealistične slike putem NVIDIA-e MAČEVA sustav ispune:
Međutim, Infinite Nature koristi jednu sliku kao početnu točku i koristi SPADE samo za slikanje dijelova koji nedostaju u uzastopnim okvirima, dok sam SPADE stvara transformacije slike izravno iz mapa segmentacije.
Čini se da je upravo taj kapacitet uzbudio obožavatelje Intel Image Enhancement sustava – mogućnost dobivanja fotorealističnih slika vrlo visoke kvalitete, čak i u stvarnom vremenu (eventualno), iz krajnje sirovog unosa.
Zamjena tekstura i osvjetljenja neuronskim renderiranjem
U slučaju GTA5 ulaza, neki su se pitali hoće li bilo koja od računalno skupih proceduralnih i bitmap tekstura i osvjetljenja iz izlaza motora igre stvarno biti potrebna u budućim sustavima neuralnog renderiranja ili je možda moguće transformirati niske razlučivost, unos na razini žičanog okvira u fotorealistični video koji nadmašuje mogućnosti sjenčanja, teksturiranja i osvjetljenja motora za igre, stvarajući hiperrealistične scene iz 'placeholder' proxy unosa.
Moglo bi se činiti očiglednim da su aspekti generirani igricom kao što su refleksije, teksture i druge vrste detalja okoline ključni izvori informacija za sustav neuralnog renderiranja tipa koji je pokazao Intel. Ipak, prošlo je nekoliko godina od NVIDIA-e JEDINICA (UNsupervised Image-to-image Translation Networks) pokazalo je da je važna samo domena i da su čak i sveobuhvatni aspekti kao što su 'noć ili dan' u biti problemi koje treba riješiti prijenosom stila:
Što se tiče potrebnog unosa, ovo potencijalno ostavlja motoru igre samo potrebu za generiranjem osnovne geometrije i fizičkih simulacija, budući da mehanizam za neuralno renderiranje može preslikati sve ostale aspekte sintetizirajući željene slike iz snimljenog skupa podataka, koristeći semantičke mape kao interpretaciju sloj.
Intelov pristup neuralnog renderiranja uključuje analizu potpuno renderiranih okvira iz međuspremnika GTA5, a neuralni sustav ima dodatni teret stvaranja mapa dubine i mapa segmentacije. Budući da su dubinske karte implicitno dostupne u tradicionalnim 3D cjevovodima (i manje su zahtjevne za generiranje od teksturiranja, praćenja zraka ili globalnog osvjetljenja), možda bi bilo bolje koristiti resurse da se motor igre nosi s njima.
Skraćeni unos za mehanizam za neuronsko iscrtavanje
Trenutna implementacija Intelove mreže za poboljšanje slike, stoga, može uključivati veliki broj redundantnih računalnih ciklusa, budući da motor za igre generira računalno skupo teksturiranje i osvjetljenje koje motor za neuralno renderiranje zapravo ne treba. Čini se da je sustav dizajniran na ovaj način ne zato što je to nužno optimalan pristup, već zato što je lakše prilagoditi mehanizam neuralnog renderiranja postojećem cjevovodu nego stvoriti novi motor igre koji je optimiziran za pristup neuralnog renderiranja.
Najekonomičnija upotreba resursa u sustavu za igranje ove prirode mogla bi biti potpuna kooptacija GPU-a od strane sustava neuralnog renderiranja, sa skraćenim proxy ulazom kojim upravlja CPU.
Nadalje, motor igre mogao bi lako sam proizvesti reprezentativne karte segmentacije, isključivanjem svih sjenčanja i osvjetljenja u svom izlazu. Osim toga, mogao bi isporučiti video u puno nižoj razlučivosti nego što se to inače zahtijeva, budući da bi video samo trebao biti široko reprezentativan za sadržaj, s detaljima visoke razlučivosti kojima bi upravljao neuralni mehanizam, dodatno oslobađajući lokalne računalne resurse.
Prethodni rad Intel ISL-a sa Segmentation>Image
Izravni prijevod segmentacije na fotorealistični video daleko je od hipotetičkog. Godine 2017. Intel ISL, tvorci jučerašnjeg bijesa, objavio je početni istraživanje sposoban izvesti sintezu urbanog videa izravno iz semantičke segmentacije.
U stvari, taj originalni cjevovod iz 2017. samo je proširen kako bi odgovarao potpuno renderiranom izlazu GTA5.
Neuralno iscrtavanje u VFX-u
Čini se da je neuronsko renderiranje iz mapa umjetne segmentacije obećavajuća tehnologija za VFX, s mogućnošću izravnog prevođenja vrlo osnovnih videograma izravno u gotove snimke vizualnih efekata, generiranjem skupova podataka specifičnih za domenu preuzetih iz modela ili sintetičkih (CGI) slika.
Razvoj i usvajanje takvih sustava pomaknulo bi mjesto umjetničkog napora s interpretativnog na reprezentativni radni tijek i podiglo prikupljanje podataka vođeno domenom s pomoćne na središnju ulogu u vizualnim umjetnostima.
Članak je ažuriran u 4:55 radi dodavanja materijala o istraživanju Intel ISL 2017.