Kunsmatige Intelligensie
Neurale weergawe: Hoe laag kan jy daal in terme van insette?
Gister het 'n buitengewone nuwe werk in neurale beeldsintese die aandag en die verbeelding van die internet getrek, soos Intel-navorsers onthul het Nuwe metode vir die verbetering van die realisme van sintetiese beelde.
Die stelsel, soos gedemonstreer in a video van Intel, gryp direk in in die beeldpyplyn vir die Grand Theft Auto V-videospeletjie, en verbeter die beelde outomaties deur 'n beeldsintese-algoritme wat op 'n konvolusionele neurale netwerk (CNN) opgelei is, met behulp van werklike wêreldbeelde van die Mapillêre datastel, en die minder realistiese beligting en tekstuur van die GTA-speletjie-enjin uitruil.
Kommentatore, in 'n wye reeks reaksies in gemeenskappe soos Reddit en Hacker News, stel nie net dat neurale weergawe van hierdie tipe effektief die minder fotorealistiese uitset van tradisionele speletjie-enjins en VFX-vlak CGI kan vervang nie, maar dat hierdie proses kan wees bereik met baie meer basiese insette as wat in die Intel GTA5-demo gedemonstreer is - effektief skep van 'pop'-instaanbedienerinsette met massief realistiese uitsette.
Gepaarde datastelle
Die beginsel is oor die afgelope drie jaar geïllustreer deur 'n nuwe generasie GAN- en enkodeerder-/dekodeerderstelsels, soos NVIDIA se GauGAN, wat fotorealistiese natuurskoonbeelde van rowwe daubs genereer.
Hierdie beginsel draai effektief die konvensionele gebruik van semantiese segmentering om in rekenaarvisie van 'n passiewe metode wat masjienstelsels toelaat om waargenome voorwerpe te identifiseer en te isoleer in 'n kreatiewe inset, waar die gebruiker 'n faux semantiese segmenteringskaart 'verf' en die stelsel beeldmateriaal genereer wat ooreenstem met die verwantskappe wat dit verstaan deur 'n bepaalde geklassifiseer en gesegmenteer te hê. domein, soos natuurskoon.
Gepaarde datastelbeeldsintesestelsels werk deur semantiese etikette op twee datastelle te korreleer: 'n ryk en volwaardige beeldstel, óf gegenereer uit werklike beelde (soos met die Mapillary-stel wat gebruik word om GTA5 in gister se Intel-demo te verbeter) óf uit sintetiese beelde, soos CGI-beelde.
Buite-omgewings is relatief onuitdagend wanneer gepaarde datasteltransformasies van hierdie soort geskep word, want uitsteeksels is gewoonlik redelik beperk, die topografie het 'n beperkte verskeidenheid van variansie wat omvattend in 'n datastel vasgevang kan word, en ons hoef nie te doen met die skep van kunsmatige mense nie. , of onderhandel oor die Uncanny Valley (nog).
Omkeer Segmentasie Kaarte
Google het 'n geanimeerde weergawe van die GauGAN-skema ontwikkel, genaamd Oneindige Natuur, in staat om doelbewus aaneenlopende en nimmereindigende fiktiewe landskappe te 'hallusineer' deur vals semantiese kaarte te vertaal in fotorealistiese beelde via NVIDIA's GRAAF invul stelsel:
Infinite Nature gebruik egter 'n enkele beeld as 'n beginpunt en gebruik SPADE bloot om die ontbrekende gedeeltes in opeenvolgende rame te verf, terwyl SPADE self beeldtransformasies direk vanaf segmentasiekaarte skep.
Dit is hierdie kapasiteit wat blykbaar bewonderaars van die Intel Image Enhancement-stelsel aangewakker het – die moontlikheid om fotorealistiese beelde van baie hoë gehalte af te lei, selfs in reële tyd (uiteindelik), uit uiters kru insette.
Vervang teksture en beligting met neurale weergawe
In die geval van die GTA5-invoer, het sommige gewonder of enige van die berekeningsduur prosedurele en bitmap-teksturering en beligting van die speletjie-enjin-uitset werklik nodig gaan wees in toekomstige neurale weergawestelsels, of of dit moontlik is om lae- resolusie, draadraamvlak-invoer in fotorealistiese video wat beter as die skadu-, tekstuur- en beligtingsvermoëns van speletjie-enjins presteer, wat hiperrealistiese tonele skep vanaf 'plekhouer'-instaanbedienerinvoer.
Dit lyk dalk voor die hand liggend dat speletjie-gegenereerde fasette soos refleksies, teksture en ander soorte omgewingsdetail noodsaaklike bronne van inligting is vir 'n neurale weergawestelsel van die tipe wat deur Intel gedemonstreer word. Tog is dit 'n paar jaar sedert NVIDIA s'n D (Onbeheerde beeld-na-beeld-vertaalnetwerke) het getoon dat slegs die domein belangrik is, en dat selfs omvattende aspekte soos 'nag of dag' in wese kwessies is wat deur styloordrag hanteer moet word:
Wat die vereiste insette betref, laat dit moontlik dat die speletjie-enjin slegs basiese meetkunde- en fisika-simulasies hoef te genereer, aangesien die neurale weergawe-enjin alle ander aspekte kan oorverf deur die verlangde beeldmateriaal uit die vasgelê datastel te sintetiseer, met behulp van semantiese kaarte as 'n interpretasie laag.
Intel se neurale weergawe-benadering behels die ontleding van volledig gelewerde rame vanaf die GTA5-buffers, en die neurale stelsel het die bykomende las om beide die dieptekaarte en die segmenteringskaarte te skep. Aangesien dieptekaarte implisiet beskikbaar is in tradisionele 3D-pyplyne (en minder veeleisend is om te genereer as teksturering, straalopsporing of globale beligting), kan dit 'n beter gebruik van hulpbronne wees om die spelenjin dit te laat hanteer.
Gestroopte insette vir 'n neurale weergawe-enjin
Die huidige implementering van die Intel-beeldverbeteringsnetwerk kan dus 'n groot deel van oortollige rekenaarsiklusse behels, aangesien die speletjie-enjin berekeningsduur tekstuur en beligting genereer wat die neurale weergawe-enjin nie regtig nodig het nie. Dit lyk asof die stelsel op hierdie manier ontwerp is, nie omdat dit noodwendig 'n optimale benadering is nie, maar omdat dit makliker is om 'n neurale weergawe-enjin aan te pas by 'n bestaande pyplyn as om 'n nuwe speletjie-enjin te skep wat vir 'n neurale weergawe-benadering geoptimaliseer is.
Die mees ekonomiese gebruik van hulpbronne in 'n speletjiestelsel van hierdie aard kan die volledige koöptering van die GPU deur die neurale weergawestelsel wees, met die gestroopte proxy-invoer wat deur die SVE hanteer word.
Verder kan die speletjie-enjin maklik self verteenwoordigende segmenteringskaarte produseer deur alle skadu en beligting in sy uitset af te skakel. Boonop kan dit video teen 'n baie laer resolusie verskaf as wat normaalweg daarvan vereis word, aangesien die video net breedweg verteenwoordigend van die inhoud hoef te wees, met hoë resolusie-detail wat deur die neurale enjin hanteer word, wat plaaslike rekenaarhulpbronne verder bevry.
Intel ISL se vorige werk met segmentering> beeld
Die direkte vertaling van segmentering na fotorealistiese video is ver van hipoteties. In 2017 het Intel ISL, skeppers van gister se woede, aanvanklike vrygestel navorsing in staat om stedelike videosintese direk vanaf semantiese segmentering uit te voer.
In werklikheid is daardie oorspronklike 2017-pyplyn bloot uitgebrei om by GTA5 se volledig gelewerde uitset te pas.
Neurale weergawe in VFX
Neurale weergawe van kunsmatige segmenteringskaarte blyk ook 'n belowende tegnologie vir VFX te wees, met die moontlikheid om baie basiese videogramme direk in voltooide visuele effekte-materiaal te vertaal, deur domeinspesifieke datastelle te genereer wat óf van modelle óf sintetiese (CGI) beelde geneem is.
Die ontwikkeling en aanvaarding van sulke stelsels sal die lokus van artistieke inspanning verskuif van 'n interpretatiewe na 'n verteenwoordigende werkvloei, en domeingedrewe data-insameling verhef van 'n ondersteunende na 'n sentrale rol in die visuele kunste.
Artikel is 4:55 opgedateer om materiaal oor Intel ISL 2017-navorsing by te voeg.