Connect with us

Intelligence artificielle

NeRFocus: Apportant un contrôle de mise au point léger aux champs de radiance neuronaux

mm

De nouvelles recherches en Chine offrent une méthode pour atteindre un contrôle abordable sur les effets de profondeur de champ pour les champs de radiance neuronaux (NeRF), permettant à l’utilisateur final de commuter la mise au point et de changer dynamiquement la configuration de l’objectif virtuel dans l’espace de rendu.

Intitulé NeRFocus, la technique met en œuvre une nouvelle approche d’imagerie « à objectif mince » pour la traversée de la mise au point, et innove la formation P, une stratégie de formation probabiliste qui élimine le besoin de jeux de données dédiés de profondeur de champ, et simplifie un flux de travail de formation avec mise au point.

L’article article est intitulé NeRFocus: Neural Radiance Field for 3D Synthetic Defocus, et provient de quatre chercheurs de l’École doctorale de Shenzhen à l’Université de Pékin, et du Laboratoire Peng Cheng à Shenzhen, un institut financé par le gouvernement provincial du Guangdong.

Adresse du locus de l’attention fovéale dans NeRF

Si NeRF doit un jour prendre sa place en tant que technologie de conduite valable pour la réalité virtuelle et la réalité augmentée, il aura besoin d’une méthode légère pour permettre un rendu fovéal réaliste, où la majorité des ressources de rendu s’accumulent autour du regard de l’utilisateur, plutôt que d’être distribuées de manière indiscriminée à une résolution inférieure sur l’ensemble de l’espace visuel disponible.

À partir de l'article de 2021 Foveated Neural Radiance Fields for Real-Time and Egocentric Virtual Reality, nous voyons le locus d'attention dans un nouveau schéma de rendu fovéal pour NeRF. Source: https://arxiv.org/pdf/2103.16365.pdf

À partir de l’article de 2021 Foveated Neural Radiance Fields for Real-Time and Egocentric Virtual Reality, nous voyons le locus d’attention dans un nouveau schéma de rendu fovéal pour NeRF. Source: https://arxiv.org/pdf/2103.16365.pdf

Une partie essentielle de l’authenticité des déploiements futurs de NeRF égocentrique sera la capacité du système à refléter la capacité de l’œil humain à commuter la mise au point sur un plan de perspective récessif (voir la première image ci-dessus).

Ce gradient de mise au point est également un indicateur perceptuel de l’échelle de la scène ; la vue d’un hélicoptère volant au-dessus d’une ville n’aura pas de champs de mise au point navigables, car toute la scène se trouve au-delà de la capacité de mise au point la plus externe de l’utilisateur, tandis que l’examen d’une miniature ou d’une scène de « champ proche » ne permettra pas seulement de « commuter la mise au point », mais devrait, pour des raisons de réalisme, contenir une profondeur de champ étroite par défaut.

En dessous se trouve une vidéo démontrant les capacités initiales de NeRFocus, fournie par l’auteur correspondant de l’article :

Au-delà des plans focaux restreints

Conscients des exigences de contrôle de la mise au point, un certain nombre de projets NeRF ces dernières années ont prévu des dispositions pour cela, bien que toutes les tentatives à ce jour soient essentiellement des solutions de contournement ou impliquent des routines de post-traitement notables qui les rendent peu susceptibles de contribuer aux environnements en temps réel finalement envisagés pour les technologies de champs de radiance neuronaux.

Le contrôle de la mise au point synthétique dans les cadres de rendu neuronaux a été tenté par diverses méthodes au cours des 5-6 dernières années – par exemple, en utilisant un réseau de segmentation pour clôturer les données de premier plan et d’arrière-plan, puis pour défausser génériquement l’arrière-plan – une solution courante pour les effets de mise au point à deux plans simples.

À partir de l'article Automatic Portrait Segmentation for Image Stylization, une séparation de plans de mise au point de style animation

À partir de l’article ‘Automatic Portrait Segmentation for Image Stylization’, une séparation de plans de mise au point de style animation Source: https://jiaya.me/papers/portrait_eg16.pdf

Les représentations multiplans ajoutent quelques « cellules d’animation » virtuelles à ce paradigme, par exemple en utilisant l’estimation de la profondeur pour découper la scène en un gradient de plans de mise au point distincts et gérables, puis en orchestrant des noyaux dépendants de la profondeur pour synthétiser le flou.

De plus, et très pertinent pour les environnements AR/VR potentiels, la disparité entre les deux points de vue d’un dispositif de caméra stéréo peut être utilisée comme proxy de profondeur – une méthode proposée par Google Research en 2015.

À partir de l'article dirigé par Google Fast Bilateral-Space Stereo for Synthetic Defocus, la différence entre les deux points de vue fournit une carte de profondeur qui peut faciliter le flou. Cependant, cette approche est peu authentique dans la situation envisagée ci-dessus, où la photo est clairement prise avec un objectif de 35-50mm (standard SLR), mais le défaussement extrême de l'arrière-plan ne se produirait jamais qu'avec un objectif dépassant 200mm, qui a le type de plan focal fortement contraint qui produit une profondeur de champ étroite dans les environnements de taille humaine normaux

À partir de l’article dirigé par Google Fast Bilateral-Space Stereo for Synthetic Defocus, la différence entre les deux points de vue fournit une carte de profondeur qui peut faciliter le flou. Cependant, cette approche est peu authentique dans la situation envisagée ci-dessus, où la photo est clairement prise avec un objectif de 35-50mm (standard SLR), mais le défaussement extrême de l’arrière-plan ne se produirait jamais qu’avec un objectif dépassant 200mm, qui a le type de plan focal fortement contraint qui produit une profondeur de champ étroite dans les environnements de taille humaine normaux Source

Les approches de ce type tendent à démontrer des artefacts de bord, car ils tentent de représenter deux sphères de mise au point distinctes et limitées par des bords comme un gradient de mise au point continu.

En 2021, l’initiative RawNeRF a offert une fonctionnalité HDR, avec un contrôle accru sur les situations de faible luminosité, et une capacité apparemment impressionnante à commuter la mise au point :

RawNeRF commute la mise au point de manière magnifique (même si, dans ce cas, de manière peu authentique, en raison de plans de mise au point irréalistes), mais cela se fait au prix d'un coût de calcul élevé. Source: https://bmild.github.io/rawnerf/

RawNeRF commute la mise au point de manière magnifique (même si, dans ce cas, de manière peu authentique, en raison de plans de mise au point irréalistes), mais cela se fait au prix d’un coût de calcul élevé. Source: https://bmild.github.io/rawnerf/

Cependant, RawNeRF nécessite une précalcul pour ses représentations multiplans du NeRF formé, aboutissant à un flux de travail qui ne peut pas être facilement adapté à des implémentations plus légères ou à plus faible latence de NeRF.

Modélisation d’un objectif virtuel

NeRF lui-même est basé sur le modèle d’imagerie à trou de serrure, qui rend toute la scène nettement de manière similaire à une scène CGI par défaut (avant les différentes approches qui rendent le flou comme un effet de post-traitement ou inné basé sur la profondeur de champ).

NeRFocus crée un objectif virtuel « mince » (plutôt qu’une « ouverture sans verre ») qui calcule le chemin du faisceau de chaque pixel entrant et le rend directement, inversant effectivement le processus standard de capture d’image, qui fonctionne post facto sur l’entrée lumineuse qui a déjà été affectée par les propriétés réfractives de la conception de l’objectif.

Ce modèle introduit une gamme de possibilités pour le rendu de contenu à l’intérieur du frustum (le plus grand cercle d’influence dépeint dans l’image ci-dessus).

Le calcul de la couleur et de la densité correctes pour chaque perceptron multi-couche (MLP) dans cette gamme plus large de possibilités est une tâche supplémentaire. Cela a été résolu auparavant en appliquant une formation supervisée à un grand nombre d’images DLSR, impliquant la création de jeux de données supplémentaires pour un flux de travail de formation probabiliste – impliquant essentiellement la préparation et le stockage laborieux de ressources calculées multiples qui peuvent ou non être nécessaires.

NeRFocus surmonte cela grâce à la formation P, où les jeux de données de formation sont générés sur la base d’opérations de flou de base. Ainsi, le modèle est formé avec des opérations de flou innées et navigables.

Le diamètre de l'ouverture est réglé sur zéro pendant la formation, et des probabilités prédéfinies sont utilisées pour choisir un noyau de flou au hasard. Ce diamètre obtenu est utilisé pour mettre à l'échelle les diamètres de chaque cône composite, permettant au MLP de prédire avec précision la radiance et la densité des frustums (les larges cercles dans les images ci-dessus, représentant la zone de transformation pour chaque pixel)

Le diamètre de l’ouverture est réglé sur zéro pendant la formation, et des probabilités prédéfinies sont utilisées pour choisir un noyau de flou au hasard. Ce diamètre obtenu est utilisé pour mettre à l’échelle les diamètres de chaque cône composite, permettant au MLP de prédire avec précision la radiance et la densité des frustums (les larges cercles dans les images ci-dessus, représentant la zone de transformation maximale pour chaque pixel)

Les auteurs de l’article observent que NeRFocus est potentiellement compatible avec l’approche HDR de RawNeRF, qui pourrait potentiellement aider dans le rendu de certaines sections difficiles, telles que les éclairages speculaires défaussés, et de nombreux autres effets à forte intensité de calcul qui ont mis au défi les flux de travail CGI pendant trente ans ou plus.

Le processus n’entraîne pas d’exigences supplémentaires en termes de temps et/ou de paramètres par rapport aux approches antérieures telles que NeRF de base et Mip-NeRF (et, probablement Mip-NeRF 360, bien que cela ne soit pas abordé dans l’article), et est applicable en tant qu’extension générale à la méthodologie centrale des champs de radiance neuronaux.

 

Publié pour la première fois le 12 mars 2022.

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.