Inteligenta Artificiala
Redare neuronală: cât de scăzut puteți merge în ceea ce privește intrarea?
Ieri, o nouă lucrare extraordinară în sinteza imaginilor neuronale a atras atenția și imaginația internetului, deoarece cercetătorii Intel au dezvăluit o Noua metodă pentru sporirea realismului imaginilor sintetice.
Sistemul, așa cum este demonstrat în a video de la Intel, intervine direct în conducta de imagini pentru jocul video Grand Theft Auto V și îmbunătățește automat imaginile printr-un algoritm de sinteză a imaginilor antrenat pe o rețea neuronală convoluțională (CNN), folosind imagini din lumea reală de la Intel. Mapilar set de date și schimbând iluminarea și texturarea mai puțin realiste ale motorului de joc GTA.
Comentatorii, într-o gamă largă de reacții în comunități precum Reddit și Hacker News, presupun nu numai că redarea neuronală de acest tip ar putea înlocui efectiv producția mai puțin fotorealistă a motoarelor de jocuri tradiționale și CGI la nivel VFX, dar și că acest proces ar putea fi realizat cu mult mai multe intrări de bază decât a fost demonstrată în demo-ul Intel GTA5 — creând efectiv intrări proxy „pupapă” cu ieșiri masiv realiste.
Seturi de date pereche
Principiul a fost exemplificat de o nouă generație de sisteme GAN și de codificatoare/decodificatoare în ultimii trei ani, cum ar fi GauGAN de la NVIDIA, care generează imagini scenice fotorealiste din murdărie brute.
În mod efectiv, acest principiu inversează utilizarea convențională a segmentării semantice viziunea computerului dintr-o metodă pasivă care permite sistemelor de mașini să identifice și să izoleze obiectele observate într-o intrare creativă, în care utilizatorul „pictează” o hartă de segmentare semantică falsă, iar sistemul generează imagini care sunt în concordanță cu relațiile pe care le înțelege de la clasificarea și segmentarea unui anumit domeniu, cum ar fi peisajul.
Sistemele de sinteză a imaginilor cu seturi de date pereche funcționează prin corelarea etichetelor semantice pe două seturi de date: un set de imagini bogat și cu drepturi depline, fie generat din imagini din lumea reală (ca și setul Mapillary folosit pentru a îmbunătăți GTA5 în demonstrația Intel de ieri), fie din imagini sintetice, cum ar fi imagini CGI.
Mediile exterioare sunt relativ neprovocate atunci când se creează transformări de seturi de date pereche de acest tip, deoarece proeminențele sunt de obicei destul de limitate, topografia are o gamă limitată de variații care pot fi capturate cuprinzător într-un set de date și nu trebuie să ne ocupăm de crearea de oameni artificiali. , sau negociind Valea Uncanny (încă).
Inversarea hărților de segmentare
Google a dezvoltat o versiune animată a schemei GauGAN, numită Natura Infinita, capabil să „halucineze” în mod deliberat peisaje fictive continue și fără sfârșit prin traducerea hărților semantice false în imagini fotorealiste prin intermediul NVIDIA SWORDS sistem de umplere:
Cu toate acestea, Infinite Nature folosește o singură imagine ca punct de plecare și folosește SPADE doar pentru a picta în secțiunile lipsă în cadre succesive, în timp ce SPADE însuși creează transformări de imagine direct din hărțile de segmentare.
Toată această capacitate pare să-i fi stârnit pe admiratorii sistemului Intel Image Enhancement – posibilitatea de a obține imagini fotorealiste de foarte înaltă calitate, chiar și în timp real (eventual), din intrări extrem de brute.
Înlocuirea texturilor și luminii cu redare neuronală
În cazul intrării GTA5, unii s-au întrebat dacă texturile și iluminarea proceselor și bitmap costisitoare din punct de vedere computațional de la ieșirea motorului de joc va fi într-adevăr necesară în viitoarele sisteme de randare neuronală sau dacă ar putea fi posibilă transformarea low- rezoluție, intrare la nivel de wireframe în videoclipuri fotorealiste care depășesc capacitățile de umbrire, texturare și iluminare ale motoarelor de joc, creând scene hiperrealiste din intrarea proxy „substituent”.
Ar putea părea evident că fațetele generate de joc, cum ar fi reflexiile, texturile și alte tipuri de detalii de mediu sunt surse esențiale de informații pentru un sistem de redare neuronală de tipul demonstrat de Intel. Cu toate acestea, au trecut câțiva ani de la NVIDIA UNITATE (Unsupervised Image-to-image Translation Networks) a demonstrat că doar domeniul este important și că chiar și aspectele generale, cum ar fi „noaptea sau ziua” sunt în esență probleme care trebuie gestionate prin transferul de stil:
În ceea ce privește intrarea necesară, acest lucru poate lăsa motorul de joc să aibă nevoie doar de a genera geometrie de bază și simulări fizice, deoarece motorul de randare neuronală poate supravopsi toate celelalte aspecte prin sintetizarea imaginilor dorite din setul de date capturat, folosind hărți semantice ca interpretare. strat.
Abordarea de redare neuronală a Intel implică analiza cadrelor complet redate din bufferele GTA5, iar sistemul neuronal are sarcina suplimentară de a crea atât hărțile de adâncime, cât și hărțile de segmentare. Deoarece hărțile de adâncime sunt implicit disponibile în conductele 3D tradiționale (și sunt mai puțin solicitante de generat decât texturarea, ray-tracing sau iluminarea globală), ar putea fi o utilizare mai bună a resurselor să lași motorul de joc să le gestioneze.
Intrare redusă pentru un motor de redare neuronală
Prin urmare, implementarea actuală a rețelei de îmbunătățire a imaginii Intel poate implica o mulțime de cicluri de calcul redundante, deoarece motorul de joc generează texturare și iluminare costisitoare din punct de vedere computațional, de care motorul de randare neuronală nu are cu adevărat nevoie. Sistemul pare să fi fost proiectat în acest fel nu pentru că aceasta este neapărat o abordare optimă, ci pentru că este mai ușor să adaptați un motor de randare neuronală la o conductă existentă decât să creați un nou motor de joc care este optimizat pentru o abordare de redare neuronală.
Cea mai economică utilizare a resurselor într-un sistem de jocuri de această natură ar putea fi cooptarea completă a GPU-ului de către sistemul de redare neuronală, cu intrarea proxy redusă gestionată de CPU.
În plus, motorul de joc ar putea produce cu ușurință hărți reprezentative de segmentare în sine, dezactivând toate umbrirea și iluminarea din ieșirea sa. În plus, ar putea furniza video la o rezoluție mult mai mică decât este cerută în mod normal, deoarece videoclipul ar trebui doar să fie reprezentativ pe scară largă pentru conținut, detaliile de înaltă rezoluție fiind gestionate de motorul neural, eliberând și mai mult resursele locale de calcul.
Lucrările anterioare ale Intel ISL cu Segmentare>Imagine
Traducerea directă a segmentării în videoclipuri fotorealiste este departe de a fi ipotetică. În 2017, Intel ISL, creatorii furorii de ieri, a lansat inițiala cercetare capabil să realizeze sinteza video urbană direct din segmentarea semantică.
De fapt, acea conductă inițială din 2017 a fost doar extinsă pentru a se potrivi cu producția complet redată a lui GTA5.
Redare neuronală în VFX
Redarea neuronală din hărțile de segmentare artificială pare să fie, de asemenea, o tehnologie promițătoare pentru VFX, cu posibilitatea de a traduce direct videogramele de bază direct în filmări cu efecte vizuale finite, prin generarea de seturi de date specifice domeniului luate fie din modele, fie din imagini sintetice (CGI).
Dezvoltarea și adoptarea unor astfel de sisteme ar schimba locul efortului artistic de la un flux de lucru interpretativ la unul reprezentativ și ar ridica colectarea de date bazată pe domeniu de la un rol de sprijin la un rol central în artele vizuale.
Articolul a fost actualizat la 4:55 pentru a adăuga material despre cercetarea Intel ISL 2017.