ciot Redare neuronală: cât de scăzut puteți merge în ceea ce privește intrarea? - Unite.AI
Conectează-te cu noi

Inteligenta Artificiala

Redare neuronală: cât de scăzut puteți merge în ceea ce privește intrarea?

mm
Actualizat on

Ieri, o nouă lucrare extraordinară în sinteza imaginilor neuronale a atras atenția și imaginația internetului, deoarece cercetătorii Intel au dezvăluit o Noua metodă pentru sporirea realismului imaginilor sintetice.

Sistemul, așa cum este demonstrat în a video de la Intel, intervine direct în conducta de imagini pentru jocul video Grand Theft Auto V și îmbunătățește automat imaginile printr-un algoritm de sinteză a imaginilor antrenat pe o rețea neuronală convoluțională (CNN), folosind imagini din lumea reală de la Intel. Mapilar set de date și schimbând iluminarea și texturarea mai puțin realiste ale motorului de joc GTA.

Comentatorii, într-o gamă largă de reacții în comunități precum Reddit și Hacker News, presupun nu numai că redarea neuronală de acest tip ar putea înlocui efectiv producția mai puțin fotorealistă a motoarelor de jocuri tradiționale și CGI la nivel VFX, dar și că acest proces ar putea fi realizat cu mult mai multe intrări de bază decât a fost demonstrată în demo-ul Intel GTA5 — creând efectiv intrări proxy „pupapă” cu ieșiri masiv realiste.

Seturi de date pereche

Principiul a fost exemplificat de o nouă generație de sisteme GAN și de codificatoare/decodificatoare în ultimii trei ani, cum ar fi GauGAN de la NVIDIA, care generează imagini scenice fotorealiste din murdărie brute.

În mod efectiv, acest principiu inversează utilizarea convențională a segmentării semantice viziunea computerului dintr-o metodă pasivă care permite sistemelor de mașini să identifice și să izoleze obiectele observate într-o intrare creativă, în care utilizatorul „pictează” o hartă de segmentare semantică falsă, iar sistemul generează imagini care sunt în concordanță cu relațiile pe care le înțelege de la clasificarea și segmentarea unui anumit domeniu, cum ar fi peisajul.

Un cadru de învățare automată aplică segmentarea semantică la diferite scene exterioare, oferind paradigma arhitecturală care permite dezvoltarea sistemelor interactive, în care utilizatorul pictează un bloc de segmentare semantică și sistemul umple blocul cu imagini adecvate dintr-un set de date specific domeniului, cum ar fi Setul Mapillary Street View din Germania, utilizat în demonstrația de randare neuronală GTA5 de la Intel. Sursa: http://ais.informatik.uni-freiburg.de/publications/papers/valada17icra.pdf

Un cadru de învățare automată aplică segmentarea semantică la diferite scene exterioare, oferind paradigma arhitecturală care permite dezvoltarea sistemelor interactive, în care utilizatorul pictează un bloc de segmentare semantică și sistemul umple blocul cu imagini adecvate dintr-un set de date specific domeniului, cum ar fi Setul Mapillary Street View din Germania, utilizat în demonstrația de randare neuronală GTA5 de la Intel. Sursa: http://ais.informatik.uni-freiburg.de/publications/papers/valada17icra.pdf

Sistemele de sinteză a imaginilor cu seturi de date pereche funcționează prin corelarea etichetelor semantice pe două seturi de date: un set de imagini bogat și cu drepturi depline, fie generat din imagini din lumea reală (ca și setul Mapillary folosit pentru a îmbunătăți GTA5 în demonstrația Intel de ieri), fie din imagini sintetice, cum ar fi imagini CGI.

Exemple de seturi de date pereche pentru un sistem de sinteză a imaginilor conceput pentru a crea caractere redate neuronale din schițe stângace. În stânga, mostre din setul de date CGI. Mijloc, mostre corespunzătoare din setul de date „schiță”. Dreaptă, randări neuronale care au tradus schițele înapoi în imagini de înaltă calitate. Sursa: https://www.youtube.com/watch?v=miLIwQ7yPkA

Exemple de seturi de date pereche pentru un sistem de sinteză a imaginilor conceput pentru a crea caractere redate neuronale din schițe stângace. În stânga, mostre din setul de date CGI. Mijloc, mostre corespunzătoare din setul de date „schiță”. Dreapta, randări neuronale care au tradus schițele înapoi în imagini de înaltă calitate. Sursa: https://www.youtube.com/watch?v=miLIwQ7yPkA

Mediile exterioare sunt relativ neprovocate atunci când se creează transformări de seturi de date pereche de acest tip, deoarece proeminențele sunt de obicei destul de limitate, topografia are o gamă limitată de variații care pot fi capturate cuprinzător într-un set de date și nu trebuie să ne ocupăm de crearea de oameni artificiali. , sau negociind Valea Uncanny (încă).

Inversarea hărților de segmentare

Google a dezvoltat o versiune animată a schemei GauGAN, numită Natura Infinita, capabil să „halucineze” în mod deliberat peisaje fictive continue și fără sfârșit prin traducerea hărților semantice false în imagini fotorealiste prin intermediul NVIDIA SWORDS sistem de umplere:

Sursa: https://www.youtube.com/watch?v=oXUf6anNAtc

Sursa: https://www.youtube.com/watch?v=oXUf6anNAtc

Cu toate acestea, Infinite Nature folosește o singură imagine ca punct de plecare și folosește SPADE doar pentru a picta în secțiunile lipsă în cadre succesive, în timp ce SPADE însuși creează transformări de imagine direct din hărțile de segmentare.

Sursa: https://nvlabs.github.io/SPADE/

Sursa: https://nvlabs.github.io/SPADE/

Toată această capacitate pare să-i fi stârnit pe admiratorii sistemului Intel Image Enhancement – ​​posibilitatea de a obține imagini fotorealiste de foarte înaltă calitate, chiar și în timp real (eventual), din intrări extrem de brute.

Înlocuirea texturilor și luminii cu redare neuronală

În cazul intrării GTA5, unii s-au întrebat dacă texturile și iluminarea proceselor și bitmap costisitoare din punct de vedere computațional de la ieșirea motorului de joc va fi într-adevăr necesară în viitoarele sisteme de randare neuronală sau dacă ar putea fi posibilă transformarea low- rezoluție, intrare la nivel de wireframe în videoclipuri fotorealiste care depășesc capacitățile de umbrire, texturare și iluminare ale motoarelor de joc, creând scene hiperrealiste din intrarea proxy „substituent”.

Ar putea părea evident că fațetele generate de joc, cum ar fi reflexiile, texturile și alte tipuri de detalii de mediu sunt surse esențiale de informații pentru un sistem de redare neuronală de tipul demonstrat de Intel. Cu toate acestea, au trecut câțiva ani de la NVIDIA UNITATE (Unsupervised Image-to-image Translation Networks) a demonstrat că doar domeniul este important și că chiar și aspectele generale, cum ar fi „noaptea sau ziua” sunt în esență probleme care trebuie gestionate prin transferul de stil:

Day2NightImageTranslation-06

În ceea ce privește intrarea necesară, acest lucru poate lăsa motorul de joc să aibă nevoie doar de a genera geometrie de bază și simulări fizice, deoarece motorul de randare neuronală poate supravopsi toate celelalte aspecte prin sintetizarea imaginilor dorite din setul de date capturat, folosind hărți semantice ca interpretare. strat.

Sistemul Intel îmbunătățește un cadru complet finisat și redat de la GTA5, adăugând segmentare și hărți de adâncime evaluate - două fațete care ar putea fi furnizate direct de un motor de joc redus. Sursa: https://www.youtube.com/watch?v=P1IcaBn3ej0

Sistemul Intel îmbunătățește un cadru complet finisat și redat de la GTA5, adăugând segmentare și hărți de adâncime evaluate - două fațete care ar putea fi furnizate direct de un motor de joc redus. Sursa: https://www.youtube.com/watch?v=P1IcaBn3ej0

Abordarea de redare neuronală a Intel implică analiza cadrelor complet redate din bufferele GTA5, iar sistemul neuronal are sarcina suplimentară de a crea atât hărțile de adâncime, cât și hărțile de segmentare. Deoarece hărțile de adâncime sunt implicit disponibile în conductele 3D tradiționale (și sunt mai puțin solicitante de generat decât texturarea, ray-tracing sau iluminarea globală), ar putea fi o utilizare mai bună a resurselor să lași motorul de joc să le gestioneze.

Intrare redusă pentru un motor de redare neuronală

Prin urmare, implementarea actuală a rețelei de îmbunătățire a imaginii Intel poate implica o mulțime de cicluri de calcul redundante, deoarece motorul de joc generează texturare și iluminare costisitoare din punct de vedere computațional, de care motorul de randare neuronală nu are cu adevărat nevoie. Sistemul pare să fi fost proiectat în acest fel nu pentru că aceasta este neapărat o abordare optimă, ci pentru că este mai ușor să adaptați un motor de randare neuronală la o conductă existentă decât să creați un nou motor de joc care este optimizat pentru o abordare de redare neuronală.

Cea mai economică utilizare a resurselor într-un sistem de jocuri de această natură ar putea fi cooptarea completă a GPU-ului de către sistemul de redare neuronală, cu intrarea proxy redusă gestionată de CPU.

În plus, motorul de joc ar putea produce cu ușurință hărți reprezentative de segmentare în sine, dezactivând toate umbrirea și iluminarea din ieșirea sa. În plus, ar putea furniza video la o rezoluție mult mai mică decât este cerută în mod normal, deoarece videoclipul ar trebui doar să fie reprezentativ pe scară largă pentru conținut, detaliile de înaltă rezoluție fiind gestionate de motorul neural, eliberând și mai mult resursele locale de calcul.

Lucrările anterioare ale Intel ISL cu Segmentare>Imagine

Traducerea directă a segmentării în videoclipuri fotorealiste este departe de a fi ipotetică. În 2017, Intel ISL, creatorii furorii de ieri, a lansat inițiala cercetare capabil să realizeze sinteza video urbană direct din segmentarea semantică.

Intel ISL - segmentare la imagine

Segmentarea Intel ISL la imagine funcționează din 2017. Sursa: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis

De fapt, acea conductă inițială din 2017 a fost doar extinsă pentru a se potrivi cu producția complet redată a lui GTA5.

Sinteza imaginilor fotografice cu rețele de rafinament în cascadă

Redare neuronală în VFX

Redarea neuronală din hărțile de segmentare artificială pare să fie, de asemenea, o tehnologie promițătoare pentru VFX, cu posibilitatea de a traduce direct videogramele de bază direct în filmări cu efecte vizuale finite, prin generarea de seturi de date specifice domeniului luate fie din modele, fie din imagini sintetice (CGI).

Un sistem ipotetic de redare neuronală, în care acoperirea extinsă a fiecărui obiect țintă este extrasă într-un set de date contributiv și în care hărțile de segmentare generate artificial sunt utilizate ca bază pentru o ieșire fotorealistă la rezoluție completă. Sursa: https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/

Un sistem ipotetic de redare neuronală, în care acoperirea extinsă a fiecărui obiect țintă este extrasă într-un set de date contributiv și în care hărțile de segmentare generate artificial sunt folosite ca bază pentru o ieșire fotorealistă la rezoluție completă. Sursa: https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/

Dezvoltarea și adoptarea unor astfel de sisteme ar schimba locul efortului artistic de la un flux de lucru interpretativ la unul reprezentativ și ar ridica colectarea de date bazată pe domeniu de la un rol de sprijin la un rol central în artele vizuale.

Îmbunătățirea îmbunătățirii fotorealismului


Articolul a fost actualizat la 4:55 pentru a adăuga material despre cercetarea Intel ISL 2017.