Artificial Intelligence
Neurale weergave: hoe laag kun je gaan in termen van invoer?

Gisteren trok buitengewoon nieuw werk op het gebied van neurale beeldsynthese de aandacht en de verbeelding van het internet, zoals onderzoekers van Intel onthulden Nieuwe methode voor het verbeteren van het realisme van synthetische afbeeldingen.
Het systeem, zoals gedemonstreerd in a video- van Intel, grijpt rechtstreeks in op de beeldpijplijn voor de Grand Theft Auto V-videogame en verbetert de beelden automatisch via een beeldsynthese-algoritme dat is getraind op een convolutioneel neuraal netwerk (CNN), waarbij gebruik wordt gemaakt van beelden uit de echte wereld van de Mapillair dataset en het verwisselen van de minder realistische belichting en textuur van de GTA-game-engine.
Commentatoren stellen in een breed scala van reacties in gemeenschappen zoals Reddit en Hacker News niet alleen dat neurale weergave van dit type effectief de minder fotorealistische output van traditionele game-engines en CGI op VFX-niveau zou kunnen vervangen, maar dat dit proces zou kunnen worden bereikt met veel meer basisinvoer dan werd gedemonstreerd in de Intel GTA5-demo - waardoor in feite 'marionet'-proxy-invoer wordt gecreëerd met enorm realistische uitvoer.
Gepaarde datasets
Het principe is de afgelopen drie jaar geĂŻllustreerd door een nieuwe generatie GAN- en encoder-/decodersystemen, zoals NVIDIA's GauGAN, dat fotorealistische landschappelijke beelden genereert uit ruwe klodders.
In feite zet dit principe het conventionele gebruik van semantische segmentatie om computer visie van een passieve methode waarmee machinesystemen geobserveerde objecten kunnen identificeren en isoleren tot een creatieve input, waarbij de gebruiker een nep-semantische segmentatiekaart 'schildert' en het systeem beelden genereert die consistent zijn met de relaties die het begrijpt door het al geclassificeerd en gesegmenteerd te hebben van een bepaald domein, zoals landschap.

Een machine learning-framework past semantische segmentatie toe op verschillende buitenscènes en biedt het architecturale paradigma dat de ontwikkeling van interactieve systemen mogelijk maakt, waarbij de gebruiker een semantisch segmentatieblok schildert en het systeem het blok vult met passende beelden uit een domeinspecifieke dataset, zoals Duitse Mapillary Street View-set, gebruikt in Intel's GTA5 neurale rendering-demo. Bron: http://ais.informatik.uni-freiburg.de/publications/papers/valada17icra.pdf
Gepaarde dataset-beeldsynthesesystemen werken door semantische labels op twee datasets te correleren: een rijke en volwaardige beeldset, ofwel gegenereerd op basis van real-world beelden (zoals met de Mapillary-set die werd gebruikt om GTA5 te verbeteren in de Intel-demo van gisteren) of van synthetische beelden, zoals CGI-afbeeldingen.

Gepaarde datasetvoorbeelden voor een beeldsynthesesysteem dat is ontworpen om neuraal weergegeven karakters te creëren uit onhandige schetsen. Aan de linkerkant voorbeelden van de CGI-dataset. Midden, overeenkomstige voorbeelden uit de 'sketch' dataset. Juist, neurale weergaven die schetsen hebben terugvertaald naar afbeeldingen van hoge kwaliteit. Bron: https://www.youtube.com/watch?v=miLIwQ7yPkA
Buitenomgevingen zijn relatief eenvoudig bij het maken van dit soort gepaarde dataset-transformaties, omdat uitsteeksels meestal vrij beperkt zijn, de topografie een beperkt variantiebereik heeft dat volledig in een dataset kan worden vastgelegd, en we niet te maken hebben met het creëren van kunstmatige mensen , of (nog) onderhandelen over de Uncanny Valley.
Segmentatiekaarten omkeren
Google heeft een geanimeerde versie van het GauGAN-schema ontwikkeld, genaamd Oneindige natuur, in staat om opzettelijk continue en oneindige fictieve landschappen te 'hallucineren' door valse semantische kaarten te vertalen in fotorealistische beelden via NVIDIA's ZWAARDEN infill systeem:

Bron: https://www.youtube.com/watch?v=oXUf6anNAtc
Infinite Nature gebruikt echter een enkel beeld als uitgangspunt en gebruikt SPADE alleen om de ontbrekende secties in opeenvolgende frames in te schilderen, terwijl SPADE zelf beeldtransformaties rechtstreeks vanuit segmentatiekaarten maakt.
Het is dit vermogen dat bewonderaars van het Intel Image Enhancement-systeem lijkt te hebben geroerd - de mogelijkheid om fotorealistische beelden van zeer hoge kwaliteit af te leiden, zelfs in realtime (uiteindelijk), uit extreem ruwe input.
Texturen en verlichting vervangen door neurale weergave
In het geval van de GTA5-invoer hebben sommigen zich afgevraagd of een van de rekenkundig dure procedurele en bitmaptexturen en verlichting van de uitvoer van de game-engine echt nodig zal zijn in toekomstige neurale weergavesystemen, of dat het mogelijk zou kunnen zijn om lage- resolutie, wireframe-invoer in fotorealistische video die beter presteert dan de schaduw-, textuur- en belichtingsmogelijkheden van game-engines, waardoor hyperrealistische scènes worden gecreëerd op basis van 'placeholder' proxy-invoer.
Het lijkt misschien voor de hand liggend dat door games gegenereerde facetten zoals reflecties, texturen en andere soorten omgevingsdetail essentiële informatiebronnen zijn voor een neuraal weergavesysteem van het type dat door Intel is gedemonstreerd. Toch is het een aantal jaren geleden sinds NVIDIA EENHEID (UNsupervised Image-to-image Translation Networks) toonden aan dat alleen het domein belangrijk is, en dat zelfs ingrijpende aspecten zoals 'nacht of dag' in wezen kwesties zijn die moeten worden afgehandeld door stijloverdracht:
In termen van vereiste invoer hoeft de game-engine mogelijk alleen basisgeometrie en fysica-simulaties te genereren, aangezien de neurale rendering-engine alle andere aspecten kan overschilderen door de gewenste beelden uit de vastgelegde dataset te synthetiseren, met behulp van semantische kaarten als interpretatie. laag.

Het systeem van Intel verbetert een volledig afgewerkt en gerenderd frame van GTA5, met toevoeging van segmentatie en geëvalueerde dieptekaarten - twee facetten die mogelijk rechtstreeks kunnen worden geleverd door een uitgeklede game-engine. Bron: https://www.youtube.com/watch?v=P1IcaBn3ej0
De neurale weergavebenadering van Intel omvat de analyse van volledig weergegeven frames uit de GTA5-buffers, en het neurale systeem heeft de extra last om zowel de dieptekaarten als de segmentatiekaarten te maken. Aangezien dieptekaarten impliciet beschikbaar zijn in traditionele 3D-pijplijnen (en minder veeleisend zijn om te genereren dan texturen, ray-tracing of globale verlichting), kan het een beter gebruik van bronnen zijn om de game-engine ze te laten verwerken.
Uitgeklede input voor een neurale rendering-engine
De huidige implementatie van het Intel-beeldverbeteringsnetwerk kan daarom een ​​groot aantal redundante computercycli met zich meebrengen, aangezien de game-engine rekenkundig dure texturen en verlichting genereert die de neurale rendering-engine niet echt nodig heeft. Het systeem lijkt op deze manier te zijn ontworpen, niet omdat dit noodzakelijkerwijs een optimale aanpak is, maar omdat het gemakkelijker is om een ​​neurale rendering-engine aan te passen aan een bestaande pijplijn dan om een ​​nieuwe game-engine te maken die is geoptimaliseerd voor een neurale rendering-benadering.
Het meest economische gebruik van bronnen in een spelsysteem van deze aard zou volledige coöptatie van de GPU door het neurale weergavesysteem kunnen zijn, waarbij de uitgeklede proxy-invoer door de CPU wordt afgehandeld.
Bovendien zou de game-engine gemakkelijk zelf representatieve segmentatiekaarten kunnen produceren door alle schaduwen en verlichting in de uitvoer uit te schakelen. Bovendien zou het video kunnen leveren met een veel lagere resolutie dan normaal vereist is, aangezien de video alleen in grote lijnen representatief hoeft te zijn voor de inhoud, waarbij details met hoge resolutie worden verwerkt door de neurale engine, waardoor lokale rekenbronnen verder worden vrijgemaakt.
Eerder werk van Intel ISL met Segmentatie>Afbeelding
De directe vertaling van segmentatie naar fotorealistische video is verre van hypothetisch. In 2017 bracht Intel ISL, makers van de furore van gisteren, de eerste uit onderzoek in staat om stedelijke videosynthese rechtstreeks uit semantische segmentatie uit te voeren.

Intel ISL's segmentatie naar afbeelding werkt vanaf 2017. Bron: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis
In feite is die originele pijplijn uit 2017 alleen maar verlengd om te passen in de volledig weergegeven output van GTA5.
Neurale weergave in VFX
Neurale weergave van kunstmatige segmentatiekaarten lijkt ook een veelbelovende technologie voor VFX, met de mogelijkheid om zeer eenvoudige videogrammen rechtstreeks te vertalen naar afgewerkte beelden met visuele effecten, door domeinspecifieke datasets te genereren die zijn ontleend aan modellen of synthetische (CGI) beelden.

Een hypothetisch neuraal weergavesysteem, waarbij uitgebreide dekking van elk doelobject wordt geabstraheerd in een bijdragende dataset, en waar kunstmatig gegenereerde segmentatiekaarten worden gebruikt als basis voor fotorealistische uitvoer met volledige resolutie. Bron: https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/
De ontwikkeling en acceptatie van dergelijke systemen zou de plaats van artistieke inspanning verschuiven van een interpretatieve naar een representatieve workflow, en domeingestuurde gegevensverzameling verheffen van een ondersteunende naar een centrale rol in de beeldende kunst.
Artikel bijgewerkt om 4:55 uur om materiaal toe te voegen over Intel ISL 2017-onderzoek.