Umjetna inteligencija

Neuralno iscrtavanje: koliko nisko možete ići u smislu unosa?

Ažurirano on Prosinac 9, 2022

Jučer je neki izvanredni novi rad u sintezi neuralne slike privukao pažnju i maštu interneta, jer su Intelovi istraživači otkrili Nova metoda za povećanje realizma sintetičkih slika.

Sustav, kao što je prikazano u a video od Intela, intervenira izravno u cjevovod slike za videoigru Grand Theft Auto V i automatski poboljšava slike putem algoritma za sintezu slike obučenog na konvolucijskoj neuronskoj mreži (CNN), koristeći slike stvarnog svijeta iz Mapilarno skup podataka i izmjenu manje realističnog osvjetljenja i tekstura GTA pokretača igre.

Komentatori, u širokom rasponu reakcija u zajednicama kao što su Reddit i Hacker News, tvrde ne samo da bi neuralno renderiranje ovog tipa moglo učinkovito zamijeniti manje fotorealističan rezultat tradicionalnih pokretača igara i CGI-ja na razini VFX-a, već da bi ovaj proces mogao biti postignuto s daleko više osnovnog unosa nego što je prikazano u demonstraciji Intel GTA5 — učinkovito stvaranje 'lutkastih' proxy ulaza s masovno realističnim izlazima.

Upareni skupovi podataka

Načelo je ilustrirano novom generacijom GAN-a i sustava enkodera/dekodera tijekom posljednje tri godine, poput NVIDIA-inog GauGAN-a, koji generira fotorealistične scenske slike iz sirovih mrlja.

Učinkovito ovo načelo preokreće konvencionalnu upotrebu semantičke segmentacije računalni vid od pasivne metode koja omogućuje strojnim sustavima da identificiraju i izoliraju promatrane objekte u kreativni unos, gdje korisnik 'oslikava' lažnu semantičku mapu segmentacije, a sustav generira slike koje su u skladu s odnosima koje razumije nakon što je već klasificirao i segmentirao određeni domena, kao što je pejzaž.

Okvir strojnog učenja primjenjuje semantičku segmentaciju na različite vanjske scene, pružajući arhitektonsku paradigmu koja dopušta razvoj interaktivnih sustava, gdje korisnik slika blok semantičke segmentacije, a sustav ispunjava blok odgovarajućim slikama iz skupa podataka specifičnog za domenu, kao što je Njemački Mapillary set za prikaz ulice, korišten u Intelovoj demonstraciji neuralnog renderiranja GTA5. Izvor: http://ais.informatik.uni-freiburg.de/publications/papers/valada17icra.pdf

Sustavi za sintezu uparenih skupova slika funkcioniraju korelirajući semantičke oznake na dva skupa podataka: bogat i potpun skup slika, bilo generiran iz slika iz stvarnog svijeta (kao kod Mapillary skupa korištenog za poboljšanje GTA5 u jučerašnjoj Intelovoj demonstraciji) ili iz sintetičkih slika, kao što su CGI slike.

Primjeri uparenih skupova podataka za sustav sinteze slike dizajniran za stvaranje neuralno prikazanih likova iz nespretnih skica. S lijeve strane, uzorci iz CGI skupa podataka. Sredina, odgovarajući uzorci iz skupa podataka 'sketch'. Točno, neuralni renderi koji su preveli skice natrag u slike visoke kvalitete. Izvor: https://www.youtube.com/watch?v=miLIwQ7yPkA

Vanjska okruženja relativno su laka pri stvaranju uparenih transformacija skupova podataka ove vrste, jer su izbočine obično prilično ograničene, topografija ima ograničen raspon varijanci koje se mogu sveobuhvatno uhvatiti u skupu podataka i ne moramo se baviti stvaranjem umjetnih ljudi , ili pregovaranje o Uncanny Valley (još).

Invertiranje mapa segmentacije

Google je razvio animiranu verziju GauGAN sheme, tzv Beskrajna prirodasposoban namjerno 'halucinirati' kontinuirane i beskrajne fiktivne krajolike prevođenjem lažnih semantičkih mapa u fotorealistične slike putem NVIDIA-e MAČEVA sustav ispune:

Izvor: https://www.youtube.com/watch?v=oXUf6anNAtc

Međutim, Infinite Nature koristi jednu sliku kao početnu točku i koristi SPADE samo za slikanje dijelova koji nedostaju u uzastopnim okvirima, dok sam SPADE stvara transformacije slike izravno iz mapa segmentacije.

Izvor: https://nvlabs.github.io/SPADE/

Čini se da je upravo taj kapacitet uzbudio obožavatelje Intel Image Enhancement sustava – mogućnost dobivanja fotorealističnih slika vrlo visoke kvalitete, čak i u stvarnom vremenu (eventualno), iz krajnje sirovog unosa.

Zamjena tekstura i osvjetljenja neuronskim renderiranjem

U slučaju GTA5 ulaza, neki su se pitali hoće li bilo koja od računalno skupih proceduralnih i bitmap tekstura i osvjetljenja iz izlaza motora igre stvarno biti potrebna u budućim sustavima neuralnog renderiranja ili je možda moguće transformirati niske razlučivost, unos na razini žičanog okvira u fotorealistični video koji nadmašuje mogućnosti sjenčanja, teksturiranja i osvjetljenja motora za igre, stvarajući hiperrealistične scene iz 'placeholder' proxy unosa.

Moglo bi se činiti očiglednim da su aspekti generirani igricom kao što su refleksije, teksture i druge vrste detalja okoline ključni izvori informacija za sustav neuralnog renderiranja tipa koji je pokazao Intel. Ipak, prošlo je nekoliko godina od NVIDIA-e JEDINICA (UNsupervised Image-to-image Translation Networks) pokazalo je da je važna samo domena i da su čak i sveobuhvatni aspekti kao što su 'noć ili dan' u biti problemi koje treba riješiti prijenosom stila:

Day2NightImageTranslation-06

Watch this video on YouTube

Što se tiče potrebnog unosa, ovo potencijalno ostavlja motoru igre samo potrebu za generiranjem osnovne geometrije i fizičkih simulacija, budući da mehanizam za neuralno renderiranje može preslikati sve ostale aspekte sintetizirajući željene slike iz snimljenog skupa podataka, koristeći semantičke mape kao interpretaciju sloj.

Intelov sustav unapređuje potpuno dovršeni i renderirani okvir iz GTA5, dodajući segmentaciju i procijenjene dubinske karte — dva aspekta koja bi se potencijalno mogla izravno isporučiti pomoću skraćenog pokretača igre. Izvor: https://www.youtube.com/watch?v=P1IcaBn3ej0

Intelov pristup neuralnog renderiranja uključuje analizu potpuno renderiranih okvira iz međuspremnika GTA5, a neuralni sustav ima dodatni teret stvaranja mapa dubine i mapa segmentacije. Budući da su dubinske karte implicitno dostupne u tradicionalnim 3D cjevovodima (i manje su zahtjevne za generiranje od teksturiranja, praćenja zraka ili globalnog osvjetljenja), možda bi bilo bolje koristiti resurse da se motor igre nosi s njima.

Skraćeni unos za mehanizam za neuronsko iscrtavanje

Trenutna implementacija Intelove mreže za poboljšanje slike, stoga, može uključivati veliki broj redundantnih računalnih ciklusa, budući da motor za igre generira računalno skupo teksturiranje i osvjetljenje koje motor za neuralno renderiranje zapravo ne treba. Čini se da je sustav dizajniran na ovaj način ne zato što je to nužno optimalan pristup, već zato što je lakše prilagoditi mehanizam neuralnog renderiranja postojećem cjevovodu nego stvoriti novi motor igre koji je optimiziran za pristup neuralnog renderiranja.

Najekonomičnija upotreba resursa u sustavu za igranje ove prirode mogla bi biti potpuna kooptacija GPU-a od strane sustava neuralnog renderiranja, sa skraćenim proxy ulazom kojim upravlja CPU.

Nadalje, motor igre mogao bi lako sam proizvesti reprezentativne karte segmentacije, isključivanjem svih sjenčanja i osvjetljenja u svom izlazu. Osim toga, mogao bi isporučiti video u puno nižoj razlučivosti nego što se to inače zahtijeva, budući da bi video samo trebao biti široko reprezentativan za sadržaj, s detaljima visoke razlučivosti kojima bi upravljao neuralni mehanizam, dodatno oslobađajući lokalne računalne resurse.

Prethodni rad Intel ISL-a sa Segmentation>Image

Izravni prijevod segmentacije na fotorealistični video daleko je od hipotetičkog. Godine 2017. Intel ISL, tvorci jučerašnjeg bijesa, objavio je početni istraživanje sposoban izvesti sintezu urbanog videa izravno iz semantičke segmentacije.

Intel ISL segmentacija na sliku radi od 2017. Izvor: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis

U stvari, taj originalni cjevovod iz 2017. samo je proširen kako bi odgovarao potpuno renderiranom izlazu GTA5.

Sinteza fotografske slike s kaskadnim mrežama za usavršavanje

Photographic Image Synthesis with Cascaded Refinement Networks

Watch this video on YouTube

Neuralno iscrtavanje u VFX-u

Čini se da je neuronsko renderiranje iz mapa umjetne segmentacije obećavajuća tehnologija za VFX, s mogućnošću izravnog prevođenja vrlo osnovnih videograma izravno u gotove snimke vizualnih efekata, generiranjem skupova podataka specifičnih za domenu preuzetih iz modela ili sintetičkih (CGI) slika.

Hipotetski neuralni sustav renderiranja, gdje je opsežna pokrivenost svakog ciljanog objekta apstrahirana u skup podataka koji doprinosi, i gdje se umjetno generirane karte segmentacije koriste kao osnova za fotorealističan izlaz pune rezolucije. Izvor: https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/

Razvoj i usvajanje takvih sustava pomaknulo bi mjesto umjetničkog napora s interpretativnog na reprezentativni radni tijek i podiglo prikupljanje podataka vođeno domenom s pomoćne na središnju ulogu u vizualnim umjetnostima.

Unapređenje fotorealizma

Watch this video on YouTube

Članak je ažuriran u 4:55 radi dodavanja materijala o istraživanju Intel ISL 2017.

Sljedeći

NeRF: Facebook Co-Research razvija mješovitu statičnu/dinamičku video sintezu

Ne propustite

Sustav strojnog učenja za ponovno pisanje članka dok ga čitate

Martin Anderson

Pisac o strojnom učenju, umjetnoj inteligenciji i velikim podacima.
Osobna stranica: martinanderson.ai
Kontaktirajte nas na: [e-pošta zaštićena]
Twitter: @manders_ai

Ujedinite se.AI

Neuralno iscrtavanje: koliko nisko možete ići u smislu unosa?

Umjetna inteligencija