Artificial Intelligence

Op weg naar real-time AI-mensen met neurale Lumigraph-weergave

Bijgewerkt on 9 december 2022

Ondanks de huidige golf van belangstelling voor neurale stralingsvelden (Nerf), een technologie die in staat is om door AI gegenereerde 3D-omgevingen en -objecten te creëren, vereist deze nieuwe benadering van beeldsynthesetechnologie nog steeds veel trainingstijd en mist een implementatie die realtime, zeer responsieve interfaces mogelijk maakt.

Een samenwerking tussen enkele indrukwekkende namen in de industrie en de academische wereld biedt echter een nieuwe kijk op deze uitdaging (algemeen bekend als Novel View Synthesis of NVS).

Het onderzoek papier, recht hebben Neurale Lumigraph-weergave, claimt een verbetering ten opzichte van de state-of-the-art van ongeveer twee ordes van grootte, wat verschillende stappen vertegenwoordigt in de richting van real-time CG-weergave via machine learning-pijplijnen.

Neural Lumigraph Rendering (rechts) biedt een betere resolutie van mengartefacten en verbeterde afhandeling van occlusie ten opzichte van eerdere methoden. Bron: https://www.youtube.com/watch?v=maVF-7×9644

Hoewel credits voor het artikel alleen Stanford University en holografisch display-technologiebedrijf Raxium (momenteel actief in sluipmodus), omvatten de bijdragers een belangrijke machine learning architect bij Google, een computer wetenschapper bij Adobe, en de CTO at Verhaalbestand (wat maakte headlines onlangs met een AI-versie van William Shatner).

Met betrekking tot de recente publiciteitsblitz van Shatner lijkt StoryFile het NLR te gebruiken in zijn nieuwe proces voor het creëren van interactieve, door AI gegenereerde entiteiten op basis van de kenmerken en verhalen van individuele mensen.

William Shatner om zijn leven te behouden door middel van AI

William Shatner to preserve his life through AI

Watch this video on YouTube

StoryFile overweegt het gebruik van deze technologie in museumdisplays, online interactieve verhalen, holografische displays, augmented reality (AR) en erfgoeddocumentatie – en lijkt ook potentiële nieuwe toepassingen van het NLR te zien in wervingsgesprekken en virtuele datingapplicaties:

Voorgesteld gebruik van een online video van StoryFile. Bron: https://www.youtube.com/watch?v=2K9J6q5DqRc

Volumetrische opname voor nieuwe weergavesynthese-interfaces en video

Het principe van volumetrische vastlegging, over het hele scala aan artikelen die zich over het onderwerp ophopen, is het idee om stilstaande beelden of video's van een onderwerp te maken en machine learning te gebruiken om de gezichtspunten die niet door het origineel werden gedekt 'in te vullen'. arsenaal aan camera's.

Bron: https://research.fb.com/wp-content/uploads/2019/06/Neural-Volumes-Learning-Dynamic-Renderable-Volumes-from-Images.pdf

In de bovenstaande afbeelding, afkomstig uit het AI 2019 AI-onderzoek van Facebook (zie hieronder), zien we de vier stadia van volumetrische opname: meerdere camera's verkrijgen afbeeldingen/beelden; encoder/decoder-architectuur (of andere architecturen) berekent en voegt de relativiteit van views samen; ray-marching algoritmen berekenen de voxels (of andere XYZ ruimtelijke geometrische eenheden) van elk punt in de volumetrische ruimte; en (in de meest recente artikelen) vindt training plaats om een complete entiteit te synthetiseren die in realtime kan worden gemanipuleerd.

Het is deze vaak uitgebreide en data-intensieve trainingsfase die er tot op heden voor heeft gezorgd dat de synthese van nieuwe weergaven buiten het domein van real-time of zeer responsieve vastlegging bleef.

Het feit dat Novel View Synthesis een complete 3D-kaart van een volumetrische ruimte maakt, betekent dat het relatief triviaal is om deze punten samen te voegen tot een traditionele computer gegenereerde mesh, waardoor een CGI-mens (of een ander relatief begrensd object) effectief wordt vastgelegd en weergegeven. de vlieg.

Benaderingen die NeRF gebruiken, vertrouwen op puntenwolken en dieptekaarten om de interpolaties tussen de schaarse gezichtspunten van de vastlegapparaten te genereren:

NeRF kan volumetrische diepte genereren door berekening van dieptekaarten, in plaats van het genereren van CG-meshes. Bron: https://www.youtube.com/watch?v=JuH79E8rdKc

Hoewel NeRF is in staat van het berekenen van mazen, gebruiken de meeste implementaties dit niet om volumetrische scènes te genereren.

Daarentegen is de impliciete differentieerbare renderer (IDR) benadering, gepubliceerde door het Weizmann Institute of Science in oktober 2020, hangt af van het benutten van 3D-mesh-informatie die automatisch wordt gegenereerd op basis van capture-arrays:

Voorbeelden van IDR-opnamen omgezet in interactieve CGI-meshes. Bron: https://www.youtube.com/watch?v=C55y7RhJ1fE

Hoewel NeRF de mogelijkheid van IDR voor vormschatting mist, kan IDR de beeldkwaliteit van NeRF niet evenaren, en beide vereisen uitgebreide middelen om te trainen en te verzamelen (hoewel recente innovaties in NeRF begin naar dit aanpakken).

NLR's Custom camera rig met 16 GoPro HERO7 en 6 centrale Back-Bone H7PRO camera's. Voor 'realtime' weergave werken deze met minimaal 60 fps. Bron: https://arxiv.org/pdf/2103.11571.pdf

In plaats daarvan maakt Neural Lumigraph Rendering gebruik van SIREN (Sinusoidal Representation Networks) om de sterke punten van elke benadering op te nemen in zijn eigen raamwerk, dat bedoeld is om uitvoer te genereren die direct bruikbaar is in bestaande real-time grafische pijplijnen.

SIREN is gebruikt voor soortgelijke uitvoeringen over het afgelopen jaar, en vertegenwoordigt nu een populaire API-aanroep voor hobbyistische Colabs in gemeenschappen voor beeldsynthese; de innovatie van het NLR is echter om SIREN's toe te passen op tweedimensionale multi-view beeldtoezicht, wat problematisch is vanwege de mate waarin SIREN een overgefitte in plaats van gegeneraliseerde output produceert.

Nadat de CG-mesh is geëxtraheerd uit de array-afbeeldingen, wordt de mesh gerasterd via OpenGL en worden de hoekpuntposities van de mesh toegewezen aan de juiste pixels, waarna de vermenging van de verschillende bijdragende kaarten wordt berekend.

De resulterende mesh is algemener en representatiever dan die van NeRF (zie onderstaande afbeelding), vereist minder berekening en past geen overdreven details toe op gebieden (zoals een gladde gezichtshuid) die er niet van kunnen profiteren:

Bron: https://arxiv.org/pdf/2103.11571.pdf

Aan de negatieve kant heeft het NLR nog geen capaciteit voor dynamische verlichting of opnieuw oplichten, en uitvoer is beperkt tot schaduwkaarten en andere belichtingsoverwegingen die zijn verkregen op het moment van vastleggen. De onderzoekers zijn van plan dit in toekomstig werk aan te pakken.

Bovendien geeft het artikel toe dat de vormen die door het NLR worden gegenereerd niet zo nauwkeurig zijn als sommige alternatieve benaderingen, zoals Pixelgewijze weergaveselectie voor ongestructureerde multi-view stereo, of het eerder genoemde onderzoek van het Weizmann Institute.

De opkomst van volumetrische beeldsynthese

Het idee om 3D-entiteiten te creëren uit een beperkte reeks foto's met neurale netwerken dateert van vóór NeRF, met visionaire artikelen die teruggaan tot 2007 of eerder. In 2019 produceerde de AI-onderzoeksafdeling van Facebook een baanbrekend onderzoekspaper, Neurale volumes: dynamisch renderbare volumes leren van afbeeldingen, die voor het eerst responsieve interfaces voor synthetische mensen mogelijk maakte, gegenereerd door op machine learning gebaseerde volumetrische vastlegging.

Het onderzoek van Facebook uit 2019 maakte het mogelijk een responsieve gebruikersinterface te creëren voor een volumetrisch persoon. Bron: https://research.fb.com/publications/neural-volumes-learning-dynamic-renderable-volumes-from-images/

Gerelateerde onderwerpen:kunstmatige intelligentie afbeeldingen Machine leren

FIDO Alliance vestigt nieuwe standaard voor IoT-apparaten

Mis het niet

#420: Cannabis en machinaal leren, een joint venture

Martin Anderson

Schrijver over machine learning, kunstmatige intelligentie en big data.
Persoonlijke site: martinanderson.ai
Contact: [e-mail beveiligd]
Twitter: @manders_ai