Inteligencia Artificial
Imagen salpicada: reconstrucción 3D ultrarrápida de vista única

La reconstrucción de objetos 3D de vista única con redes convolucionales ha demostrado capacidades notables. Los modelos de reconstrucción 3D de vista única generan el modelo 3D de cualquier objeto utilizando una única imagen como referencia, lo que lo convierte en uno de los temas de investigación más candentes en visión por computadora.

Por ejemplo, consideremos la motocicleta de la imagen de arriba. Generar su estructura 3D requiere un proceso complejo que primero combina señales de imágenes de bajo nivel con información semántica de alto nivel y conocimiento sobre la disposición estructural de las piezas.
Debido al complejo proceso, la reconstrucción 3D de vista única ha sido un gran desafío en la visión por computadora. En un intento por mejorar la eficiencia de la reconstrucción 3D de vista única, los desarrolladores han trabajado en Splatter Image, un método que tiene como objetivo lograr una construcción ultrarrápida de formas 3D de vista única y apariencia 3D de los objetos. En esencia, el marco Splatter Image utiliza el método Gaussian Splatting para analizar representaciones 3D, aprovechando la velocidad y la calidad que ofrece.
Recientemente, el método Gaussian Splatting ha sido implementado por numerosos modelos de reconstrucción de múltiples vistas para renderizado en tiempo real, escalado mejorado y entrenamiento rápido. Dicho esto, Splatter Image es el primer marco que implementa el método Gaussian Splatting para tareas de reconstrucción de vista única.
En este artículo, exploraremos cómo el marco Splatter Image emplea Gaussian Splatting para lograr una reconstrucción 3D de vista única ultrarrápida. Entonces empecemos.
Imagen salpicada: un intento de reconstrucción 3D ultrarrápida de vista única
Como se mencionó anteriormente, Splatter Image es un enfoque ultrarrápido para la reconstrucción de objetos 3D de vista única basado en el método Gaussian Splatting. Splatter Image es el primer marco de visión por computadora que implementa Gaussian Splatting para la generación de objetos 3D monoculares, ya que tradicionalmente, Gaussian Splatting ha estado impulsando marcos de reconstrucción de objetos 3D de múltiples vistas. Sin embargo, lo que separa el marco Splatter Image de los métodos anteriores es que es un enfoque basado en el aprendizaje, y la reconstrucción en las pruebas solo requiere la evaluación de avance de la red neuronal.
Splatter Image se basa fundamentalmente en las cualidades de renderizado de Gaussian Splatting y su alta velocidad de procesamiento para generar reconstrucciones 3D. El marco Splatter Image presenta un diseño sencillo: el marco utiliza una red neuronal de imagen a imagen 2D para predecir una gaussiana 3D por píxel de la imagen de entrada y asigna la imagen de entrada a una gaussiana 3D por píxel. Los gaussianos 3D resultantes tienen la forma de una imagen, conocida como imagen de salpicadura, y los gaussianos también proporcionan una representación de 360 grados de la imagen. El proceso se demuestra en la siguiente imagen.

Aunque el proceso es simple y directo, existen algunos desafíos clave que enfrenta el marco Splatter Image cuando se utiliza Gaussian Splatting para generar gaussianos 3D para representaciones 3D de vista única. El primer obstáculo importante es diseñar una red neuronal que acepte la imagen de un objeto como entrada y genere una mezcla gaussiana correspondiente que represente todos los lados de la imagen como salida. Para abordar esto, Splatter Image aprovecha el hecho de que, aunque la mezcla gaussiana generada es un conjunto o una colección desordenada de elementos, aún se puede almacenar en una estructura de datos ordenada. En consecuencia, el marco utiliza una imagen 2D como contenedor para los gaussianos 3D, como resultado de lo cual cada píxel del contenedor contiene los parámetros de un gaussiano, incluidas sus propiedades como forma, opacidad y color.
Al almacenar conjuntos gaussianos 3D en una imagen, el marco Splatter Image puede reducir los obstáculos de reconstrucción que se enfrentan al aprender una red neuronal de imagen a imagen. Al utilizar este enfoque, el proceso de reconstrucción sólo se puede implementar utilizando operadores 2D eficientes en lugar de depender de operadores 3D. Además, en el marco de Splatter Image, la representación 3D es una mezcla de gaussianos 3D que le permiten explotar las ventajas de velocidad de renderizado y eficiencia de memoria que ofrece Gaussian Splatting, que mejora la eficiencia tanto en el entrenamiento como en la inferencia. Avanzando, el marco Splatter Image no solo genera representaciones 3D de vista única, sino que también demuestra una eficiencia notable, ya que puede entrenarse incluso en una sola GPU en puntos de referencia de objetos 3D estándar. Además, el marco Splatter Image se puede ampliar para tomar varias imágenes como entrada. Puede lograrlo registrando las mezclas gaussianas individuales en una referencia común y luego tomando la combinación de las mezclas gaussianas predichas a partir de vistas individuales. El marco también inyecta capas ligeras de atención cruzada en su arquitectura que permiten que diferentes vistas se comuniquen entre sí durante la predicción.
Desde un punto de vista empírico, vale la pena señalar que el marco Splatter Image puede producir una reconstrucción de 360 grados del objeto aunque solo vea un lado del objeto. Luego, el marco asignó diferentes gaussianos en una vecindad 2D a diferentes partes del objeto 3D para codificar la información de 360 grados generada en la imagen 2D. Además, el marco establece la opacidad de varios gaussianos en cero, lo que los desactiva, lo que permite eliminarlos durante el posprocesamiento.
En resumen, el marco Splatter Image es
- Un enfoque novedoso para generar reconstrucciones de objetos 3D de vista única mediante la adaptación del enfoque Gaussian Splatting.
- Amplía el método para la reconstrucción de objetos 3D de múltiples vistas.
- Logra un rendimiento de reconstrucción de objetos 3D de última generación en puntos de referencia estándar con una velocidad y calidad excepcionales.
Imagen salpicada: Metodología y Arquitectura
Salpicadura gaussiana
Como se mencionó anteriormente, Gaussian Splatting es el método principal implementado por el marco Splatter Image para generar reconstrucciones de objetos 3D de vista única. En términos simples, Gaussian Splatting es un método de rasterización para reconstruir imágenes 3D y en tiempo real, y renderizar imágenes desde múltiples puntos de vista. El espacio 3D de la imagen se denomina gaussianos y se implementan técnicas de aprendizaje automático para aprender los parámetros de cada gaussiano. Gaussian Splatting no requiere entrenamiento durante el renderizado, lo que facilita tiempos de renderizado más rápidos. La siguiente imagen resume la arquitectura de 3D Gaussian Splatting.

3D Gaussian Splatting utiliza primero el conjunto de imágenes de entrada para generar una nube de puntos. Luego, Gaussian Splatting usa las imágenes de entrada para estimar los parámetros externos de la cámara, como la inclinación y la posición, haciendo coincidir los píxeles entre las imágenes, y estos parámetros luego se usan para calcular la nube de puntos. Utilizando diferentes métodos de aprendizaje automático, Gaussian Splatting optimiza cuatro parámetros para cada gaussiano, a saber: posición (dónde está ubicado), covarianza (el grado de estiramiento o escalado en una matriz de 3 × 3), color (cuál es el esquema de color RGB). y Alpha (midiendo la transparencia). El proceso de optimización renderiza la imagen para cada posición de la cámara y la utiliza para determinar los parámetros más cercanos a la imagen original. Como resultado, la salida resultante de Splatting gaussiano 3D es una imagen, denominada Splatter Image, que se parece más a la imagen original en la posición de la cámara desde la que fue capturada.

Además, la función de opacidad y la función de color en Gaussian Splatting proporcionan un campo de resplandor con la dirección de visión del punto 3D. Luego, el marco representa el campo de radiación en una imagen integrando los colores observados a lo largo del rayo que pasa a través del píxel. Gaussian Splatting representa estas funciones como una combinación de gaussianos coloreados donde la media o centro gaussiano junto con la covarianza gaussiana ayuda a determinar su forma y tamaño. Cada gaussiano también tiene una propiedad de opacidad y una propiedad de color dependiente de la vista que juntas definen el campo de radiancia.
Imagen salpicada
El componente de renderizado asigna el conjunto de gaussianos 3D a una imagen. Para realizar una reconstrucción 3D de vista única, el marco busca una función inversa para gaussianos 3D que reconstruya la mezcla de gaussianos 3D a partir de una imagen. La inclusión clave aquí es proponer un diseño efectivo pero simple para la función inversa. Específicamente, para una imagen de entrada, el marco predice un gaussiano para cada píxel individual utilizando una arquitectura de red neuronal de imagen a imagen para generar una imagen, la imagen de salpicadura. La red también predice la forma, la opacidad y el color.
Ahora bien, se podría especular que ¿cómo puede el marco Splatter Image reconstruir la representación 3D de un objeto aunque sólo tenga acceso a una de sus vistas? En tiempo real, el marco Splatter Image aprende a utilizar algunos de los gaussianos disponibles para reconstruir la vista y utiliza los gaussianos restantes para reconstruir automáticamente partes invisibles de la imagen. Para maximizar su eficiencia, el marco puede desactivar automáticamente cualquier gaussiano prediciendo si la opacidad es cero. Si la opacidad es cero, los gaussianos se desactivan y el marco no representa estos puntos, sino que se seleccionan en el posprocesamiento.
Pérdida de nivel de imagen
Una ventaja importante de explotar la velocidad y eficiencia que ofrece el método Splatter Gaussian es que facilita que el marco represente todas las imágenes en cada iteración, incluso para lotes con un tamaño de lote relativamente mayor. Además, implica que el marco no solo es capaz de utilizar pérdidas descomponibles, sino que también puede utilizar pérdidas a nivel de imagen que no se descomponen en pérdidas por píxel.
Normalización de escala
Es un desafío estimar el tamaño de un objeto observando una sola vista, y es una tarea desafiante resolver esta ambigüedad cuando se entrena con una pérdida. No se observa el mismo problema en conjuntos de datos sintéticos, ya que todos los objetos se representan con características intrínsecas de cámara idénticas y los objetos están a una distancia fija de la cámara, lo que en última instancia ayuda a resolver la ambigüedad. Sin embargo, en conjuntos de datos con imágenes de la vida real, la ambigüedad es bastante evidente y el marco Splatter Image emplea varios métodos de preprocesamiento para fijar aproximadamente la escala de todos los objetos.
Ver color dependiente
Para representar colores dependientes de la vista, el marco Splatter Image utiliza armónicos esféricos para generalizar los colores más allá del modelo de color lambertiano. Para cualquier gaussiano específico, el modelo define coeficientes predichos por la red y los armónicos esféricos. El cambio de punto de vista transforma una dirección de visión en la fuente de la cámara a su dirección de visión correspondiente en el marco de referencia. Luego, el modelo encuentra los coeficientes correspondientes para encontrar la función de color transformada. El modelo puede hacerlo porque cuando está en rotación, los armónicos esféricos se cierran, junto con todos los demás órdenes.
Arquitectura de red neuronal
La mayor parte de la arquitectura del predictor que asigna la imagen de entrada a la combinación gaussiana es idéntica al proceso utilizado en el marco SongUNet. La última capa de la arquitectura se reemplaza por una capa convolucional 1×1 y el modelo de color determina el ancho de los canales de salida. Dada la imagen de entrada, la red produce un tensor de canal de salida como salida y, para cada canal de píxeles, codifica los parámetros que luego se transforman en desplazamiento, opacidad, rotación, profundidad y color. Luego, el marco utiliza funciones no lineales para activar los parámetros y obtener los parámetros gaussianos.
Para reconstruir representaciones 3D con vistas múltiples, el marco Splatter Image aplica la misma red a cada vista de entrada y luego utiliza el enfoque de punto de vista para combinar las reconstrucciones individuales. Además, para facilitar la coordinación eficiente y el intercambio de información entre las vistas en la red, el marco Splatter Image realiza dos modificaciones en la red. Primero, el marco condiciona el modelo con su respectiva pose de cámara y pasa vectores codificando cada entrada usando una incrustación de posición sinusoidal que da como resultado múltiples dimensiones. En segundo lugar, el marco agrega capas de atención cruzada para facilitar la comunicación entre las características de diferentes vistas.
Imagen salpicada: experimentos y resultados
El marco Splatter Image mide la calidad de sus reconstrucciones evaluando la calidad de Novel View Synthesis, ya que el marco utiliza la vista de origen y representa la forma 3D para apuntar a vistas invisibles para realizar reconstrucciones. El marco evalúa su rendimiento midiendo las puntuaciones SSIM o similitud estructural, relación señal-ruido pico o PSNR y calidad perceptual o LPIPS.
Rendimiento de reconstrucción 3D de vista única
La siguiente tabla demuestra el rendimiento del modelo Splatter Image en una tarea de reconstrucción 3D de vista única en el punto de referencia ShapeNet.

Como se puede observar, el marco Splatter Image supera a todos los métodos de reconstrucción deterministas en las puntuaciones LPIPS y SSIM. Las puntuaciones indican que el modelo Splatter Image genera imágenes con reconstrucciones más nítidas. Además, el modelo Splatter Image también supera todas las líneas de base deterministas en términos de puntuación PSNR, lo que indica que las reconstrucciones generadas también son más precisas. Además, además de superar todos los métodos deterministas, el marco Splatter Image solo requiere las poses relativas de la cámara para mejorar su eficiencia tanto en las fases de entrenamiento como de prueba.
La siguiente imagen demuestra la destreza cualitativa del marco Splatter Image y, como puede verse, el modelo genera reconstrucciones con geometrías delgadas e interesantes, y captura los detalles de las vistas condicionantes.

La siguiente imagen muestra que las reconstrucciones generadas por el marco Splatter Image no solo son más nítidas sino que también tienen mayor precisión que los modelos anteriores, especialmente en condiciones no convencionales con estructuras delgadas y visibilidad limitada.

Reconstrucción 3D multivista
Para evaluar sus capacidades de reconstrucción 3D de múltiples vistas, el marco Splatter Image se entrena en el conjunto de datos SpaneNet-SRN Cars para predicciones de dos vistas. Los métodos existentes utilizan el condicionamiento absoluto de la pose de la cámara para tareas de reconstrucción 3D de múltiples vistas, lo que significa que el modelo aprende a depender principalmente de la orientación canónica del objeto. Aunque cumple su función, limita la aplicabilidad de los modelos, ya que a menudo se desconoce la pose absoluta de la cámara para una nueva imagen de un objeto.

Conclusión
En este artículo, hemos hablado sobre Splatter Image, un método que tiene como objetivo lograr una construcción ultrarrápida de formas y apariencias 3D de vista única y 3D de los objetos. En esencia, el marco Splatter Image utiliza el método Gaussian Splatting para analizar representaciones 3D, aprovechando la velocidad y la calidad que ofrece. El marco Splatter Image procesa imágenes utilizando una arquitectura CNN 2D lista para usar para predecir una pseudoimagen que contiene un gaussiano de color por cada píxel. Al utilizar el método Gaussian Splatting, el marco Splatter Image puede combinar una representación rápida con una inferencia rápida que da como resultado un entrenamiento y una evaluación más rápidos en puntos de referencia reales y sintéticos.












