Kunsmatige Intelligensie

Neurale weergawe: Hoe laag kan jy daal in terme van insette?

Opgedateer on Desember 9, 2022

Gister het 'n buitengewone nuwe werk in neurale beeldsintese die aandag en die verbeelding van die internet getrek, soos Intel-navorsers onthul het Nuwe metode vir die verbetering van die realisme van sintetiese beelde.

Die stelsel, soos gedemonstreer in a video van Intel, gryp direk in in die beeldpyplyn vir die Grand Theft Auto V-videospeletjie, en verbeter die beelde outomaties deur 'n beeldsintese-algoritme wat op 'n konvolusionele neurale netwerk (CNN) opgelei is, met behulp van werklike wêreldbeelde van die Mapillêre datastel, en die minder realistiese beligting en tekstuur van die GTA-speletjie-enjin uitruil.

Kommentatore, in 'n wye reeks reaksies in gemeenskappe soos Reddit en Hacker News, stel nie net dat neurale weergawe van hierdie tipe effektief die minder fotorealistiese uitset van tradisionele speletjie-enjins en VFX-vlak CGI kan vervang nie, maar dat hierdie proses kan wees bereik met baie meer basiese insette as wat in die Intel GTA5-demo gedemonstreer is - effektief skep van 'pop'-instaanbedienerinsette met massief realistiese uitsette.

Gepaarde datastelle

Die beginsel is oor die afgelope drie jaar geïllustreer deur 'n nuwe generasie GAN- en enkodeerder-/dekodeerderstelsels, soos NVIDIA se GauGAN, wat fotorealistiese natuurskoonbeelde van rowwe daubs genereer.

Hierdie beginsel draai effektief die konvensionele gebruik van semantiese segmentering om in rekenaarvisie van 'n passiewe metode wat masjienstelsels toelaat om waargenome voorwerpe te identifiseer en te isoleer in 'n kreatiewe inset, waar die gebruiker 'n faux semantiese segmenteringskaart 'verf' en die stelsel beeldmateriaal genereer wat ooreenstem met die verwantskappe wat dit verstaan deur 'n bepaalde geklassifiseer en gesegmenteer te hê. domein, soos natuurskoon.

'n Masjienleerraamwerk pas semantiese segmentering toe op verskeie buitetonele, wat die argitektoniese paradigma verskaf wat die ontwikkeling van interaktiewe stelsels toelaat, waar die gebruiker 'n semantiese segmenteringsblok verf en die stelsel die blok vul met toepaslike beeldmateriaal van 'n domeinspesifieke datastel, soos bv. Duitsland se Mapillary Street View-stel, gebruik in Intel se GTA5 neurale weergawe-demo. Bron: http://ais.informatik.uni-freiburg.de/publications/papers/valada17icra.pdf

Gepaarde datastelbeeldsintesestelsels werk deur semantiese etikette op twee datastelle te korreleer: 'n ryk en volwaardige beeldstel, óf gegenereer uit werklike beelde (soos met die Mapillary-stel wat gebruik word om GTA5 in gister se Intel-demo te verbeter) óf uit sintetiese beelde, soos CGI-beelde.

Gepaarde datastelvoorbeelde vir 'n beeldsintesestelsel wat ontwerp is om neuraal-weergegee karakters uit lomp sketse te skep. Aan die linkerkant, monsters van die CGI-datastel. Middel, ooreenstemmende monsters uit die 'skets'-datastel. Reg, neurale weergawes wat sketse terugvertaal het in beelde van hoë gehalte. Bron: https://www.youtube.com/watch?v=miLIwQ7yPkA

Buite-omgewings is relatief onuitdagend wanneer gepaarde datasteltransformasies van hierdie soort geskep word, want uitsteeksels is gewoonlik redelik beperk, die topografie het 'n beperkte verskeidenheid van variansie wat omvattend in 'n datastel vasgevang kan word, en ons hoef nie te doen met die skep van kunsmatige mense nie. , of onderhandel oor die Uncanny Valley (nog).

Omkeer Segmentasie Kaarte

Google het 'n geanimeerde weergawe van die GauGAN-skema ontwikkel, genaamd Oneindige Natuur, in staat om doelbewus aaneenlopende en nimmereindigende fiktiewe landskappe te 'hallusineer' deur vals semantiese kaarte te vertaal in fotorealistiese beelde via NVIDIA's GRAAF invul stelsel:

Bron: https://www.youtube.com/watch?v=oXUf6anNAtc

Infinite Nature gebruik egter 'n enkele beeld as 'n beginpunt en gebruik SPADE bloot om die ontbrekende gedeeltes in opeenvolgende rame te verf, terwyl SPADE self beeldtransformasies direk vanaf segmentasiekaarte skep.

Bron: https://nvlabs.github.io/SPADE/

Dit is hierdie kapasiteit wat blykbaar bewonderaars van die Intel Image Enhancement-stelsel aangewakker het – die moontlikheid om fotorealistiese beelde van baie hoë gehalte af te lei, selfs in reële tyd (uiteindelik), uit uiters kru insette.

Vervang teksture en beligting met neurale weergawe

In die geval van die GTA5-invoer, het sommige gewonder of enige van die berekeningsduur prosedurele en bitmap-teksturering en beligting van die speletjie-enjin-uitset werklik nodig gaan wees in toekomstige neurale weergawestelsels, of of dit moontlik is om lae- resolusie, draadraamvlak-invoer in fotorealistiese video wat beter as die skadu-, tekstuur- en beligtingsvermoëns van speletjie-enjins presteer, wat hiperrealistiese tonele skep vanaf 'plekhouer'-instaanbedienerinvoer.

Dit lyk dalk voor die hand liggend dat speletjie-gegenereerde fasette soos refleksies, teksture en ander soorte omgewingsdetail noodsaaklike bronne van inligting is vir 'n neurale weergawestelsel van die tipe wat deur Intel gedemonstreer word. Tog is dit 'n paar jaar sedert NVIDIA s'n D (Onbeheerde beeld-na-beeld-vertaalnetwerke) het getoon dat slegs die domein belangrik is, en dat selfs omvattende aspekte soos 'nag of dag' in wese kwessies is wat deur styloordrag hanteer moet word:

Dag2NagBeeldvertaling-06

Watch this video on YouTube

Wat die vereiste insette betref, laat dit moontlik dat die speletjie-enjin slegs basiese meetkunde- en fisika-simulasies hoef te genereer, aangesien die neurale weergawe-enjin alle ander aspekte kan oorverf deur die verlangde beeldmateriaal uit die vasgelê datastel te sintetiseer, met behulp van semantiese kaarte as 'n interpretasie laag.

Intel se stelsel verbeter 'n heeltemal voltooide en gelewerde raam vanaf GTA5, en voeg segmentering en geëvalueerde dieptekaarte by - twee fasette wat moontlik direk deur 'n gestroopte speletjie-enjin verskaf kan word. Bron: https://www.youtube.com/watch?v=P1IcaBn3ej0

Intel se neurale weergawe-benadering behels die ontleding van volledig gelewerde rame vanaf die GTA5-buffers, en die neurale stelsel het die bykomende las om beide die dieptekaarte en die segmenteringskaarte te skep. Aangesien dieptekaarte implisiet beskikbaar is in tradisionele 3D-pyplyne (en minder veeleisend is om te genereer as teksturering, straalopsporing of globale beligting), kan dit 'n beter gebruik van hulpbronne wees om die spelenjin dit te laat hanteer.

Gestroopte insette vir 'n neurale weergawe-enjin

Die huidige implementering van die Intel-beeldverbeteringsnetwerk kan dus 'n groot deel van oortollige rekenaarsiklusse behels, aangesien die speletjie-enjin berekeningsduur tekstuur en beligting genereer wat die neurale weergawe-enjin nie regtig nodig het nie. Dit lyk asof die stelsel op hierdie manier ontwerp is, nie omdat dit noodwendig 'n optimale benadering is nie, maar omdat dit makliker is om 'n neurale weergawe-enjin aan te pas by 'n bestaande pyplyn as om 'n nuwe speletjie-enjin te skep wat vir 'n neurale weergawe-benadering geoptimaliseer is.

Die mees ekonomiese gebruik van hulpbronne in 'n speletjiestelsel van hierdie aard kan die volledige koöptering van die GPU deur die neurale weergawestelsel wees, met die gestroopte proxy-invoer wat deur die SVE hanteer word.

Verder kan die speletjie-enjin maklik self verteenwoordigende segmenteringskaarte produseer deur alle skadu en beligting in sy uitset af te skakel. Boonop kan dit video teen 'n baie laer resolusie verskaf as wat normaalweg daarvan vereis word, aangesien die video net breedweg verteenwoordigend van die inhoud hoef te wees, met hoë resolusie-detail wat deur die neurale enjin hanteer word, wat plaaslike rekenaarhulpbronne verder bevry.

Intel ISL se vorige werk met segmentering> beeld

Die direkte vertaling van segmentering na fotorealistiese video is ver van hipoteties. In 2017 het Intel ISL, skeppers van gister se woede, aanvanklike vrygestel navorsing in staat om stedelike videosintese direk vanaf semantiese segmentering uit te voer.

Intel ISL se segmentering na beeld werk vanaf 2017. Bron: https://awesomeopensource.com/project/CQFIO/PhotographicImageSynthesis

In werklikheid is daardie oorspronklike 2017-pyplyn bloot uitgebrei om by GTA5 se volledig gelewerde uitset te pas.

Fotografiese beeldsintese met kaskade-verfyningsnetwerke

Photographic Image Synthesis with Cascaded Refinement Networks

Watch this video on YouTube

Neurale weergawe in VFX

Neurale weergawe van kunsmatige segmenteringskaarte blyk ook 'n belowende tegnologie vir VFX te wees, met die moontlikheid om baie basiese videogramme direk in voltooide visuele effekte-materiaal te vertaal, deur domeinspesifieke datastelle te genereer wat óf van modelle óf sintetiese (CGI) beelde geneem is.

'n Hipotetiese neurale weergawestelsel, waar uitgebreide dekking van elke teikenvoorwerp in 'n bydraende datastel geabstraheer word, en waar kunsmatig-gegenereerde segmenteringskaarte gebruik word as die basis vir volle resolusie fotorealistiese uitset. Bron: https://rossdawson.com/futurist/implications-of-ai/comprehensive-guide-ai-artificial-intelligence-visual-effects-vfx/

Die ontwikkeling en aanvaarding van sulke stelsels sal die lokus van artistieke inspanning verskuif van 'n interpretatiewe na 'n verteenwoordigende werkvloei, en domeingedrewe data-insameling verhef van 'n ondersteunende na 'n sentrale rol in die visuele kunste.

Verbetering van Fotorealisme Verbetering