Inteligența artificială
Redare neuronală: cât de scăzut puteți merge în ceea ce privește intrarea?

Ieri, o nouă lucrare extraordinară în sinteza imaginilor neuronale a atras atenția și imaginația internetului, deoarece cercetătorii Intel au dezvăluit o Noua metodă pentru sporirea realismului imaginilor sintetice.
Sistemul, așa cum este demonstrat în a video de la Intel, intervine direct în conducta de imagini pentru jocul video Grand Theft Auto V și îmbunătățește automat imaginile printr-un algoritm de sinteză a imaginilor antrenat pe o rețea neuronală convoluțională (CNN), folosind imagini din lumea reală de la Intel. Mapilar set de date și schimbând iluminarea și texturarea mai puțin realiste ale motorului de joc GTA.
Comentatorii, într-o gamă largă de reacții în comunități precum Reddit și Hacker News, susțin nu doar că randarea neuronală de acest tip ar putea înlocui eficient rezultatul mai puțin fotorealist al motoarelor de jocuri tradiționale și al CGI la nivel de VFX, ci și că acest proces ar putea fi realizat cu input mult mai simplu decât cel demonstrat în demo-ul Intel GTA5 - creând efectiv inputuri proxy de tip „marionetă” cu ieșiri extrem de realiste.
Seturi de date pereche
Principiul a fost exemplificat de o nouă generație de sisteme GAN și de codificare/decodificare în ultimii trei ani, cum ar fi GauGAN de la NVIDIA, care generează imagini scenice fotorealiste din murdărie brută.
În mod efectiv, acest principiu inversează utilizarea convențională a segmentării semantice viziunea computerului dintr-o metodă pasivă ce permite sistemelor automate să identifice și să izoleze obiectele observate într-o intrare creativă, unde utilizatorul „pictează” o hartă falsă de segmentare semantică, iar sistemul generează imagini care sunt în concordanță cu relațiile pe care le înțelege din clasificarea și segmentarea unui anumit domeniu, cum ar fi peisajul.

Un cadru de învățare automată aplică segmentarea semantică diverselor scene exterioare, oferind paradigma arhitecturală ce permite dezvoltarea de sisteme interactive, în care utilizatorul pictează un bloc de segmentare semantică, iar sistemul umple blocul cu imagini relevante dintr-un set de date specific domeniului, cum ar fi setul de vederi stradale Mapillary din Germania, utilizat în demonstrația de randare neuronală GTA5 de la Intel. Sursa: http://ais.informatik.uni-freiburg.de/publications/papers/valada17icra.pdf
Sistemele de sinteză a imaginilor cu seturi de date pereche funcționează prin corelarea etichetelor semantice pe două seturi de date: un set de imagini bogat și complet, fie generat din imagini din lumea reală (cum este cazul setului Mapillary folosit pentru a îmbunătăți GTA5 în demonstrația Intel de ieri), fie din imagini sintetice, cum ar fi imaginile CGI.

Exemple de seturi de date pereche pentru un sistem de sinteză a imaginilor conceput pentru a crea personaje randate neuronal din schițe stângace. În stânga, mostre din setul de date CGI. În mijloc, mostre corespondente din setul de date „schiță”. În dreapta, randări neuronale care au tradus schițele înapoi în imagini de înaltă calitate.. Sursa: https://www.youtube.com/watch?v=miLIwQ7yPkA
Mediile exterioare sunt relativ neprevăzute atunci când se creează transformări de seturi de date pereche de acest tip, deoarece proeminențele sunt de obicei destul de limitate, topografia are un interval limitat de variație care poate fi surprins în mod cuprinzător într-un set de date și nu trebuie să ne ocupăm de crearea de oameni artificiali sau de navigarea prin Valea Stranie (încă).
Inversarea hărților de segmentare
Google a dezvoltat o versiune animată a schemei GauGAN, numită Natura Infinita, capabile să „halucineze” în mod deliberat peisaje fictive continue și nesfârșite prin traducerea hărților semantice false în imagini fotorealiste prin intermediul tehnologiei NVIDIA SWORDS sistem de umplere:

Sursa: https://www.youtube.com/watch?v=oXUf6anNAtc
Cu toate acestea, Infinite Nature folosește o singură imagine ca punct de plecare și folosește SPADE doar pentru a picta în secțiunile lipsă în cadre succesive, în timp ce SPADE însuși creează transformări de imagine direct din hărțile de segmentare.
Toată această capacitate pare să-i fi stârnit pe admiratorii sistemului Intel Image Enhancement – posibilitatea de a obține imagini fotorealiste de foarte înaltă calitate, chiar și în timp real (eventual), din intrări extrem de brute.
Înlocuirea texturilor și luminii cu redare neuronală
În cazul inputului pentru GTA5, unii s-au întrebat dacă vreuna dintre texturarea și iluminarea procedurală, bitmap și costisitoare din rezultatul motorului de joc va fi cu adevărat necesară în viitoarele sisteme de randare neuronală sau dacă ar putea fi posibilă transformarea inputului la nivel de wireframe, cu rezoluție scăzută, în videoclipuri fotorealist care depășesc capacitățile de umbrire, texturare și iluminare ale motoarelor de joc, creând scene hiperrealiste din inputul proxy „placeholder”.
Ar putea părea evident că aspectele generate de jocuri, cum ar fi reflexiile, texturile și alte tipuri de detalii de mediu, sunt surse esențiale de informații pentru un sistem de randare neuronală de tipul demonstrat de Intel. Totuși, au trecut câțiva ani de când NVIDIA... UNITATE (Rețele de traducere imagine-în-imagine nesupravegheate) au demonstrat că doar domeniul este important și că până și aspectele generale, cum ar fi „zi sau noapte”, sunt în esență probleme care trebuie gestionate prin transfer de stil:
În ceea ce privește intrarea necesară, acest lucru poate lăsa motorul de joc să aibă nevoie doar de a genera geometrie de bază și simulări fizice, deoarece motorul de randare neuronală poate supravopsi toate celelalte aspecte prin sintetizarea imaginilor dorite din setul de date capturat, folosind hărți semantice ca interpretare. strat.

Sistemul Intel îmbunătățește un cadru complet finisat și randat din GTA5, adăugând segmentare și hărți de adâncime evaluate - două aspecte care ar putea fi furnizate direct de un motor de joc simplificat. Sursa: https://www.youtube.com/watch?v=P1IcaBn3ej0
Abordarea de randare neuronală a Intel implică analiza cadrelor complet randate din bufferele GTA5, iar sistemul neuronal are sarcina suplimentară de a crea atât hărți de adâncime, cât și hărți de segmentare. Întrucât hărțile de adâncime sunt implicit disponibile în conductele 3D tradiționale (și sunt mai puțin solicitante de generat decât texturarea, ray-tracing-ul sau iluminarea globală), ar putea fi o utilizare mai bună a resurselor să se lase motorul jocului să le gestioneze.
Intrare redusă pentru un motor de redare neuronală
Prin urmare, implementarea actuală a rețelei de îmbunătățire a imaginii Intel poate implica o mulțime de cicluri de calcul redundante, deoarece motorul de joc generează texturare și iluminare costisitoare din punct de vedere computațional, de care motorul de randare neuronală nu are cu adevărat nevoie. Sistemul pare să fi fost proiectat în acest fel nu pentru că aceasta este neapărat o abordare optimă, ci pentru că este mai ușor să adaptați un motor de randare neuronală la o conductă existentă decât să creați un nou motor de joc care este optimizat pentru o abordare de redare neuronală.
Cea mai economică utilizare a resurselor într-un sistem de jocuri de această natură ar putea fi cooptarea completă a GPU-ului de către sistemul de redare neuronală, cu intrarea proxy redusă gestionată de CPU.
În plus, motorul de joc ar putea produce cu ușurință hărți reprezentative de segmentare în sine, dezactivând toate umbrirea și iluminarea din ieșirea sa. În plus, ar putea furniza video la o rezoluție mult mai mică decât este cerută în mod normal, deoarece videoclipul ar trebui doar să fie reprezentativ pe scară largă pentru conținut, detaliile de înaltă rezoluție fiind gestionate de motorul neural, eliberând și mai mult resursele locale de calcul.
Munca anterioară a Intel ISL cu segmentarea>Imagine
Traducerea directă a segmentării în videoclipuri fotorealist este departe de a fi ipotetică. În 2017, Intel ISL, creatorii furorului de ieri, au lansat inițial... cercetare capabil să realizeze sinteza video urbană direct din segmentarea semantică.

Segmentarea Intel ISL către imagini funcționează din 2017. Sursa: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis
Practic, pipeline-ul original din 2017 a fost doar extins pentru a se potrivi cu rezultatul complet randat al GTA5.
Redare neuronală în VFX
Redarea neuronală din hărțile de segmentare artificială pare să fie, de asemenea, o tehnologie promițătoare pentru VFX, cu posibilitatea de a traduce direct videogramele de bază direct în filmări cu efecte vizuale finite, prin generarea de seturi de date specifice domeniului luate fie din modele, fie din imagini sintetice (CGI).

Un sistem ipotetic de redare neuronală, în care acoperirea extinsă a fiecărui obiect țintă este extrasă într-un set de date contributiv și în care hărțile de segmentare generate artificial sunt folosite ca bază pentru o ieșire fotorealistă la rezoluție completă. Sursa: https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/
Dezvoltarea și adoptarea unor astfel de sisteme ar schimba locul efortului artistic de la un flux de lucru interpretativ la unul reprezentativ și ar ridica colectarea de date bazată pe domeniu de la un rol de sprijin la un rol central în artele vizuale.
Articolul a fost actualizat la 4:55 pentru a adăuga material despre cercetarea Intel ISL 2017.