stomp NeRF beweeg nog 'n stap nader aan die vervanging van CGI - Unite.AI
Verbinding met ons

Kunsmatige Intelligensie

NeRF beweeg nog 'n stap nader aan die vervanging van CGI

mm
Opgedateer on

Navorsers by MIT en Google het 'n groot stap geneem om een ​​van die mees fundamentele struikelblokke op te los vir 'n opkomende KI-gedrewe tegnologie wat uiteindelik CGI kan vervang - die skeiding van neurale uitstralingsveld (NeRF) beelde in sy samestellende visuele komponente, sodat die beelde kan word hertekstuur en weer verlig.

Die nuwe benadering, genoem NeRFactor, verdeel effektief vasgelegde beelde in per-voorwerp-normale (waaraan teksture toegeken kan word), ligsigbaarheid, albedo (die proporsie van toevallige lig wat weg van 'n oppervlak gereflekteer word) en Bidirectional Reflectance Distribution Functions (BRDF's).

Met hierdie fasette geïsoleer, is dit moontlik om nie net teksture vir individuele voorwerpe of objekgroepe om te skakel nie, maar ook om nuwe en unieke beligtingsbronne en skadu-implementerings by te voeg, met afslag op enige wat vasgevang is deur die multi-kamera-skikkings wat insette vir NeRF-beelde genereer.

Normale, sigbaarheid, albedo en BRDF geskei onder NeRFactor. Bron: https://www.youtube.com/watch?v=UUVSPJlwhPg

Normale, sigbaarheid, albedo en BRDF geskei onder NeRFactor. Bron: https://www.youtube.com/watch?v=UUVSPJlwhPg

Die model ondersteun sagte of harde skaduwees van arbitrêre, gebruiker-gedefinieerde beligtingsbronne, en skei die vier aspekte van vasgelê video programmaties, met behulp van 'n rekonstruksieverlies, data van vorige berekeninge van BRDF, en basiese eenvoudige gladheidsregulasie.

NeRFactor se werkvloei, wat afsonderlike uitvoerbare fasette van beelde onttrek wat van verskeie kamera-skikkings afgelei is. Bron: https://arxiv.org/pdf/2106.01970.pdf

NeRFactor gebruik 'n HDR-ligsonde, 'n goed gevestigde benadering wat die visuele nywerheid- en kunstetoneel sedert sy inleiding in 1998, om moontlike roetes vir strale te evalueer, wat arbitrêre beligting moontlik maak. Aangesien dit 'n onregeerbare aantal moontlike parameters genereer, word die ligsonde deur 'n multi-laag perseptron (MLP) gefiltreer, wat die waargenome meetkunde na die sonde karteer sonder om 'n volledige beligtingsvolumekaart vir die modelruimte te probeer bereken.

Twee neurale uitstralingsveldmodelle word gebruik om vyf beligtingsmodelle moontlik onder NeRFactor te demonstreer. Klik op prent vir hoër resolusie.

Rede tot nadenke

Die nuwe navorsing is miskien die belangrikste in die skeiding van die lae van gevange beelde wat refleksie beheer. Dit bly een van die grootste uitdagings vir neurale uitstralingsveldbeelde, aangesien 'n werklik nuwe en buigsame NeRF-stelsel nie net in staat sal wees om teksture te vervang nie, maar ook 'n manier sal benodig om bewegende voorwerpe te reflekteer (behalwe net die algemene vaste omgewing) wat normaalweg in 'n CGI-werkvloei verreken sou word.

Hierdie probleem is onlangs opgemerk met betrekking tot Intel's indrukwekkende nuwe navorsing in die transformasie van videospeletjie-materiaal in fotorealistiese video via konvolusionele neurale netwerke. In sulke werkvloeie sal baie 'gebakte' aspekte van die bronmateriaal diskreet en omruilbaar moet word, en dit is waarskynlik makliker om op te los vir herbeligting (wat 'n funksie is van die meetkunde wat in NeRF weergegee word) as vir refleksies (wat gebruik maak van ' off-screen' geometrie wat heeltemal buite die bestek van die model is).

Daarom bring die isolering van die lae in NeRF-video wat refleksie vergemaklik, NeRF 'n stap nader aan die oplossing van sy 'refleksie-uitdaging'.

NeRFactor: neurale faktorisering van vorm en refleksie onder 'n onbekende beligting

Die gebruik van 'n HDR-omgewing los reeds die kwessie van die generering van wêreldomgewingsrefleksies op (dws lug, landskappe en ander 'vaste' omgewingsfaktore), maar nuwe benaderings sal nodig wees om bewegende en dinamiese refleksies in te voer.

Fotogrammetrie Met NeRF

Neural Radiance Field-beelde gebruik masjienleeranalise om 'n heeltemal volumetriese ruimte te ontwikkel vanaf 'n toneel of voorwerp wat vanuit 'n aantal hoeke vasgevang is.

Verskeie NeRF-gebaseerde skemas wat die afgelope jaar na vore gekom het, het 'n uiteenlopende aantal bydraende kameratoestelle gebruik; sommige gebruik 16 of meer kameras, ander so min as een of twee. In alle gevalle word die intermediêre standpunte 'invul' (dws geïnterpreteer) sodat die toneel of voorwerp vloeiend navigeer kan word.

Die resulterende entiteit is 'n heeltemal volumetriese ruimte, met 'n intrinsieke 3D-begrip wat op baie maniere ontgin kan word, insluitend die vermoë om tradisionele CG-maskers te genereer uit die 3D-ontleed som van die insetbeelde.

NeRF in die konteks van 'n 'nuwe CGI'

Neurale uitstraling veld beelde is getrek direk vanaf beelde van die werklike wêreld, insluitend bewegende beelde van mense, voorwerpe en tonele. Daarteenoor 'bestudeer' en interpreteer 'n CGI-metodologie die wêreld, wat vereis dat geskoolde werkers gaas, uitrustings en teksture bou wat gebruik maak van werklike wêreldbeelde (dws gesig- en omgewingsopnames). Dit bly 'n wesenlik interpreterende en ambagsmatige benadering wat duur en moeisaam is.

Daarbenewens het CGI voortdurende probleme gehad met die 'uncanny valley'-effek in sy pogings om menslike gelykenisse te herskep, wat geen beperking op 'n NeRF-gedrewe benadering bied nie, wat bloot video of beelde van regte mense vasvang en dit manipuleer.

Verder kan NeRF tradisionele CGI-styl maasgeometrie direk vanaf foto's genereer soos nodig, en in werklikheid baie van die handprosedures vervang wat nog altyd nodig was in rekenaar-gegenereerde beelde.

Uitdagings vir NeRF

Hierdie jongste navorsing van MIT en Google kom in die konteks van 'n ware vloed van NeRF-vraestelle oor die afgelope jaar, waarvan baie oplossings gebied het vir die verskillende uitdagings wat deur die aanvanklike 2020-referaat gebring is.

In April het innovasie van 'n Chinese navorsingskonsortium 'n manier gebied om diskreet isoleer die individuele tydlyne van fasette in 'n NeRF-toneel, insluitend mense.

ST-NeRF

Die Chinese navorsing stel eindgebruikers in staat om vasgelegde elemente te kopieer, te plak en die grootte daarvan te verander, en hulle van die liniêre tydlyn van die oorspronklike bronvideo te ontwrig. Bron: https://www.youtube.com/watch?v=Wp4HfOwFGP4

Hierdie benadering maak dit nie net moontlik om die toneel te herverbeeld vanuit enige hoek wat deur die kamera-skikking vasgevang word nie (en nie net die enkele aansig wat in 'n tipiese video-opname voorgestel word nie), maar maak ook veelsydige samestelling moontlik - en selfs die vermoë om twee fasette uit dieselfde voor te stel. beeldmateriaal wat in hul eie individuele tydraamwerke loop (of selfs agteruit loop, soos nodig).

Twee afsonderlike NeRF-fasette loop teen verskillende spoed in dieselfde toneel. Bron: https://www.youtube.com/watch?v=Wp4HfOwFGP4

Die Chinese navorsing stel eindgebruikers in staat om vasgelegde elemente te kopieer, te plak en die grootte daarvan te verander, en hulle van die liniêre tydlyn van die oorspronklike bronvideo te ontwrig. Bron: https://www.youtube.com/watch?v=Wp4HfOwFGP4

Een van die grootste uitdagings vir NeRF is om die aansienlike hulpbronne te verminder wat nodig is om 'n toneel op te lei, en dit is in 'n aantal onlangse referate aangespreek. Die Max Planck-instituut vir intelligente stelsels is byvoorbeeld onlangs bekendgestel KiloNeRF, wat nie net leweringstye met 'n faktor van 1000 versnel nie, maar selfs NeRF in staat stel om interaktief te werk.

KiloNeRF loop 'n interaktiewe omgewing teen 50 fps op 'n GTX 1080ti. Bron: https://github.com/creiser/kilonerf

KiloNeRF loop 'n interaktiewe omgewing teen 50 fps op 'n GTX 1080ti. Bron: https://github.com/creiser/kilonerf

Die NeRF-spoedinnovasie wat werklik die verbeelding van navorsers en publiek in 2021 aangegryp het, was egter die PlenOctrees samewerking, gelei deur UC Berkeley, wat intydse weergawe van Neural Radiance Fields bied:

PlenOctrees vir intydse weergawe van neurale uitstralingsvelde

Die effek van PlenOctrees interaktiewe vermoëns is weergegee in 'n lewendige, webgebaseerde koppelvlak.

Regstreekse interaktiewe beweging van 'n PlenOctrees-voorwerp in Firefox (beweging is gladder en meer dinamies as wat hierdie GIF verteenwoordig). Bron: http://alexyu.net/plenoctrees/demo/

Regstreekse interaktiewe beweging van 'n PlenOctrees-voorwerp in Firefox (beweging is gladder en meer dinamies as wat hierdie GIF verteenwoordig). Bron: http://alexyu.net/plenoctrees/demo/

Daarbenewens Rekursief-NeRF (uit 'n referaat van Mei 2021 deur navorsers aan die Tsinghua Universiteit) bied rekursiewe lewering van hoë gehalte op aanvraag. In plaas daarvan om die gebruiker te verplig om hele tonele weer te gee, insluitend dele wat dalk nie gesien kan word nie, verskaf Recursive-NeRF iets soortgelyk aan JPEG se verliesryke kompressie, en kan dit diskrete sub-NeRF's genereer om ekstra beelde op aanvraag te hanteer - wat 'n groot besparing in rekenaarhulpbronne behaal .

Behou detail terwyl onnodige weergawe-berekeninge met Rekursiewe-NeRF gestort word. Bron: https://arxiv.org/pdf/2105.09103.pdf

Behou detail terwyl onnodige weergawe-berekeninge met Rekursiewe-NeRF gestort word. Klik op prent vir hoër resolusie. Bron: https://arxiv.org/pdf/2105.09103.pdf

Ander benaderings sluit in FastNeRF, wat daarop aanspraak maak om hoëgetroue neurale weergawe teen 200fps te bereik.

Daar is opgemerk dat baie van die optimaliseringstegnieke vir NeRF behels die toneel 'bak', deur te verbind tot aspekte wat verlang word om weergegee te word en ander fasette weg te gooi, wat verkenning beperk, maar interaktiwiteit aansienlik versnel.

Die nadeel hiervan is dat die stres van die GPU na die berging beweeg, omdat gebakte tonele 'n buitensporige hoeveelheid skyfspasie in beslag neem; tot 'n mate kan dit versag word deur die gebakte data af te steek, alhoewel dit ook 'n sekere verbintenis behels, in terme van die afsluiting van weë van eksplorasie of interaktiwiteit.

Met betrekking tot bewegingsopname en rigging, 'n nuwe benadering van Zheijang en Cornell universiteite, in Mei onthul, het 'n metode aangebied om animeerbare mense te herskep deur gebruik te maak van mengselgewigvelde en skeletstrukture wat uit insetvideo geïnterpreteer is:

Afgeleide skeletstruktuur in Animatable NeRF. Bron: https://www.youtube.com/watch?v=eWOSWbmfJo4

Afgeleide skeletstruktuur in Animatable NeRF. Bron: https://www.youtube.com/watch?v=eWOSWbmfJo4

Wanneer sal NeRF sy 'Jurassic Park'-oomblik hê?

Ten spyte van die vinnige tempo van vordering met beeldsintese via neurale uitstralingsvelde, is dit eers in hierdie tydperk dat enige soort 'wet van termodinamika' vasgestel sal word vir hoe ontplooibaar NeRF kan word. In terme van 'n tydlyn analoog aan die geskiedenis van CGI, beweeg NeRF tans rondom 1973, net voor die eerste gebruik van CGI in Westworld.

Dit beteken nie dat NeRF noodwendig nege jaar sal hoef te wag vir sy ekwivalent nie Toorn van Khan mylpaal, of dekades vir die soortgelyke deurbrake wat CGI behaal het onder James Cameron se entoesiastiese beskerming in 1989's Die Abyss of 1991's Terminator 2 – en dan, die tegnologie is werklik revolusionêr wegbreek oomblik in 1993's Jurassic Park.

Die beeldtoneel het baie verander sedert die lang tydperk van stagnasie vir fotochemiese visuele effekte, wat rolprent- en televisieproduksie van die geboorte van rolprentkuns tot die vroeë 1990's oorheers het. Die koms van die PC-revolusie en die versnelling van Moore se wet het gelei tot die CGI-revolusie, wat andersins moontlik reeds in die 1960's kon plaasvind.

Dit moet nog gesien word of daar enige hindernis is wat so onverbiddelik is dat dit NeRF se vordering so lank kan hou – en of daaropvolgende innovasies in rekenaarvisie dalk nie intussen NeRF heeltemal verbysteek as die sleutelaanspraakmaker op CGI se kroon, wat neurale uitstralingsvelde kenmerk. as die kortstondige 'faksmasjien' van neurale beeldsintese.

NeRF is nog nie in enige konteks buite akademiese navorsing gebruik nie; maar dit is opmerklik dat groot rolspelers soos Google Research, en baie van die mees prominente rekenaarvisie-navorsingslaboratoriums meeding om die nuutste NeRF-deurbraak.

Baie van NeRF se grootste struikelblokke is vanjaar direk aangespreek; as daaropvolgende navorsing 'n oplossing bied vir die 'refleksiekwessie', en die vele stringe van NeRF-optimaliserende navorsing saamsmelt tot 'n beslissende oplossing vir die tegnologie se aansienlike verwerkings- en/of bergingsvereistes, het NeRF werklik 'n kans om 'die nuwe CGI te word nie. ' in die volgende vyf jaar.

 

Skrywer oor masjienleer, kunsmatige intelligensie en groot data.
Persoonlike webwerf: martinanderson.ai
Kontak: [e-pos beskerm]
Twitter: @manders_ai