Artificial Intelligence
Op weg naar real-time AI-mensen met neurale Lumigraph-weergave
Ondanks de huidige golf van belangstelling voor neurale stralingsvelden (Nerf), een technologie die in staat is om door AI gegenereerde 3D-omgevingen en -objecten te creëren, vereist deze nieuwe benadering van beeldsynthesetechnologie nog steeds veel trainingstijd en mist een implementatie die realtime, zeer responsieve interfaces mogelijk maakt.
Een samenwerking tussen enkele indrukwekkende namen in de industrie en de academische wereld biedt echter een nieuwe kijk op deze uitdaging (algemeen bekend als Novel View Synthesis of NVS).
Het onderzoek papier, recht hebben Neurale Lumigraph-weergave, claimt een verbetering ten opzichte van de state-of-the-art van ongeveer twee ordes van grootte, wat verschillende stappen vertegenwoordigt in de richting van real-time CG-weergave via machine learning-pijplijnen.
Hoewel credits voor het artikel alleen Stanford University en holografisch display-technologiebedrijf Raxium (momenteel actief in sluipmodus), omvatten de bijdragers een belangrijke machine learning architect bij Google, een computer wetenschapper bij Adobe, en de CTO at Verhaalbestand (wat maakte headlines onlangs met een AI-versie van William Shatner).
Met betrekking tot de recente publiciteitsblitz van Shatner lijkt StoryFile het NLR te gebruiken in zijn nieuwe proces voor het creëren van interactieve, door AI gegenereerde entiteiten op basis van de kenmerken en verhalen van individuele mensen.
StoryFile overweegt het gebruik van deze technologie in museumdisplays, online interactieve verhalen, holografische displays, augmented reality (AR) en erfgoeddocumentatie – en lijkt ook potentiële nieuwe toepassingen van het NLR te zien in wervingsgesprekken en virtuele datingapplicaties:
Volumetrische opname voor nieuwe weergavesynthese-interfaces en video
Het principe van volumetrische vastlegging, over het hele scala aan artikelen die zich over het onderwerp ophopen, is het idee om stilstaande beelden of video's van een onderwerp te maken en machine learning te gebruiken om de gezichtspunten die niet door het origineel werden gedekt 'in te vullen'. arsenaal aan camera's.
In de bovenstaande afbeelding, afkomstig uit het AI 2019 AI-onderzoek van Facebook (zie hieronder), zien we de vier stadia van volumetrische opname: meerdere camera's verkrijgen afbeeldingen/beelden; encoder/decoder-architectuur (of andere architecturen) berekent en voegt de relativiteit van views samen; ray-marching algoritmen berekenen de voxels (of andere XYZ ruimtelijke geometrische eenheden) van elk punt in de volumetrische ruimte; en (in de meest recente artikelen) vindt training plaats om een complete entiteit te synthetiseren die in realtime kan worden gemanipuleerd.
Het is deze vaak uitgebreide en data-intensieve trainingsfase die er tot op heden voor heeft gezorgd dat de synthese van nieuwe weergaven buiten het domein van real-time of zeer responsieve vastlegging bleef.
Het feit dat Novel View Synthesis een complete 3D-kaart van een volumetrische ruimte maakt, betekent dat het relatief triviaal is om deze punten samen te voegen tot een traditionele computer gegenereerde mesh, waardoor een CGI-mens (of een ander relatief begrensd object) effectief wordt vastgelegd en weergegeven. de vlieg.
Benaderingen die NeRF gebruiken, vertrouwen op puntenwolken en dieptekaarten om de interpolaties tussen de schaarse gezichtspunten van de vastlegapparaten te genereren:
Hoewel NeRF is in staat van het berekenen van mazen, gebruiken de meeste implementaties dit niet om volumetrische scènes te genereren.
Daarentegen is de impliciete differentieerbare renderer (IDR) benadering, gepubliceerde door het Weizmann Institute of Science in oktober 2020, hangt af van het benutten van 3D-mesh-informatie die automatisch wordt gegenereerd op basis van capture-arrays:
Hoewel NeRF de mogelijkheid van IDR voor vormschatting mist, kan IDR de beeldkwaliteit van NeRF niet evenaren, en beide vereisen uitgebreide middelen om te trainen en te verzamelen (hoewel recente innovaties in NeRF begin naar dit aanpakken).
In plaats daarvan maakt Neural Lumigraph Rendering gebruik van SIREN (Sinusoidal Representation Networks) om de sterke punten van elke benadering op te nemen in zijn eigen raamwerk, dat bedoeld is om uitvoer te genereren die direct bruikbaar is in bestaande real-time grafische pijplijnen.
SIREN is gebruikt voor soortgelijke uitvoeringen over het afgelopen jaar, en vertegenwoordigt nu een populaire API-aanroep voor hobbyistische Colabs in gemeenschappen voor beeldsynthese; de innovatie van het NLR is echter om SIREN's toe te passen op tweedimensionale multi-view beeldtoezicht, wat problematisch is vanwege de mate waarin SIREN een overgefitte in plaats van gegeneraliseerde output produceert.
Nadat de CG-mesh is geëxtraheerd uit de array-afbeeldingen, wordt de mesh gerasterd via OpenGL en worden de hoekpuntposities van de mesh toegewezen aan de juiste pixels, waarna de vermenging van de verschillende bijdragende kaarten wordt berekend.
De resulterende mesh is algemener en representatiever dan die van NeRF (zie onderstaande afbeelding), vereist minder berekening en past geen overdreven details toe op gebieden (zoals een gladde gezichtshuid) die er niet van kunnen profiteren:
Aan de negatieve kant heeft het NLR nog geen capaciteit voor dynamische verlichting of opnieuw oplichten, en uitvoer is beperkt tot schaduwkaarten en andere belichtingsoverwegingen die zijn verkregen op het moment van vastleggen. De onderzoekers zijn van plan dit in toekomstig werk aan te pakken.
Bovendien geeft het artikel toe dat de vormen die door het NLR worden gegenereerd niet zo nauwkeurig zijn als sommige alternatieve benaderingen, zoals Pixelgewijze weergaveselectie voor ongestructureerde multi-view stereo, of het eerder genoemde onderzoek van het Weizmann Institute.
De opkomst van volumetrische beeldsynthese
Het idee om 3D-entiteiten te creëren uit een beperkte reeks foto's met neurale netwerken dateert van vóór NeRF, met visionaire artikelen die teruggaan tot 2007 of eerder. In 2019 produceerde de AI-onderzoeksafdeling van Facebook een baanbrekend onderzoekspaper, Neurale volumes: dynamisch renderbare volumes leren van afbeeldingen, die voor het eerst responsieve interfaces voor synthetische mensen mogelijk maakte, gegenereerd door op machine learning gebaseerde volumetrische vastlegging.