Inteligencia artificial
¿Cómo funciona la reconstrucción 3D de una sola vista?

Tradicionalmente, los modelos para la reconstrucción de objetos de una sola vista basados en redes neuronales convolucionales han mostrado un rendimiento notable en las tareas de reconstrucción. En los últimos años, la reconstrucción 3D de una sola vista ha surgido como un tema de investigación popular en la comunidad de IA. Independientemente de la metodología específica empleada, todos los modelos de reconstrucción 3D de una sola vista comparten el enfoque común de incorporar una red codificador-decodificador dentro de su marco. Esta red realiza un razonamiento complejo sobre la estructura 3D en el espacio de salida.
En este artículo, exploraremos cómo opera la reconstrucción 3D de una sola vista en tiempo real y los desafíos actuales que enfrentan estos marcos en las tareas de reconstrucción. Discutiremos varios componentes y métodos clave utilizados por los modelos de reconstrucción 3D de una sola vista y exploraremos estrategias que podrían mejorar el rendimiento de estos marcos. Además, analizaremos los resultados producidos por los marcos de vanguardia que emplean métodos codificador-decodificador. Comencemos.
Reconstrucción de objetos 3D de una sola vista
La reconstrucción de objetos 3D de una sola vista implica generar un modelo 3D de un objeto a partir de una sola vista, o en términos más simples, a partir de una sola imagen. Por ejemplo, inferir la estructura 3D de un objeto, como una motocicleta, a partir de una imagen, es un proceso complejo. Combina conocimientos de la disposición estructural de las partes, pistas de imagen de bajo nivel y información semántica de alto nivel. Este espectro abarca dos aspectos principales: reconstrucción y reconocimiento. El proceso de reconstrucción discierne la estructura 3D de la imagen de entrada utilizando pistas como sombreado, textura y efectos visuales. Por otro lado, el proceso de reconocimiento clasifica la imagen de entrada y recupera un modelo 3D adecuado de una base de datos.
Los actuales modelos de reconstrucción de objetos 3D de una sola vista pueden variar en arquitectura, pero están unificados por la inclusión de una estructura codificador-decodificador en su marco. En esta estructura, el codificador asigna la imagen de entrada a una representación latente, mientras que el decodificador realiza inferencias complejas sobre la estructura 3D del espacio de salida. Para ejecutar con éxito esta tarea, la red debe integrar tanto la información de alto nivel como de bajo nivel. Además, muchos métodos codificador-decodificador de vanguardia dependen del reconocimiento para las tareas de reconstrucción 3D de una sola vista, lo que limita sus capacidades de reconstrucción. Sin embargo, el rendimiento de las redes neuronales convolucionales modernas en la reconstrucción de objetos 3D de una sola vista se puede superar sin inferir explícitamente la estructura 3D del objeto. Sin embargo, la dominancia del reconocimiento en las redes neuronales convolucionales en las tareas de reconstrucción de objetos de una sola vista se ve influenciada por varios procedimientos experimentales, incluyendo protocolos de evaluación y composición de la base de datos. Dichos factores permiten que el marco encuentre una solución de atajo, en este caso, el reconocimiento de imágenes.
Tradicionalmente, los marcos de reconstrucción de objetos 3D de una sola vista abordan las tareas de reconstrucción utilizando el enfoque de forma a partir de sombreado, con textura y desenfoque como vistas exóticas para las tareas de reconstrucción. Dado que estas técnicas utilizan una sola pista de profundidad, son capaces de proporcionar razonamiento para las partes visibles de una superficie. Además, muchos marcos de reconstrucción 3D de una sola vista utilizan múltiples pistas junto con conocimientos estructurales para estimar la profundidad a partir de una sola imagen monocular, una combinación que permite que estos marcos predigan la profundidad de las superficies visibles. Los marcos de estimación de profundidad más recientes despliegan estructuras de redes neuronales convolucionales para extraer la profundidad en una imagen monocular.
Sin embargo, para una reconstrucción 3D de una sola vista efectiva, los modelos no solo deben razonar sobre la estructura 3D de los objetos visibles en la imagen, sino que también deben hallucinar las partes invisibles en la imagen utilizando ciertos priores aprendidos de los datos. Para lograr esto, la mayoría de los modelos actualmente despliegan estructuras de redes neuronales convolucionales entrenadas para asignar imágenes 2D a formas 3D utilizando supervisión 3D directa, mientras que muchos otros marcos despliegan representaciones basadas en voxel de la forma 3D, y utilizan una representación latente para generar convoluciones 3D hacia arriba. Ciertos marcos también dividen el espacio de salida de manera jerárquica para mejorar la eficiencia computacional y de memoria, lo que permite que el modelo prediga formas 3D de mayor resolución. La investigación reciente se centra en utilizar formas más débiles de supervisión para las predicciones de forma 3D de una sola vista utilizando redes neuronales convolucionales, ya sea comparando formas predichas y sus predicciones de verdad de referencia para entrenar regresores de forma o utilizando múltiples señales de aprendizaje para entrenar formas promedio que ayuden al modelo a predecir deformaciones. Otra razón detrás de los avances limitados en la reconstrucción 3D de una sola vista es la cantidad limitada de datos de entrenamiento disponibles para la tarea.
Avanzando, la reconstrucción 3D de una sola vista es una tarea compleja, ya que no solo interpreta los datos visuales de manera geométrica, sino también semántica. Aunque no son completamente diferentes, abarcan diferentes espectros desde la reconstrucción geométrica hasta el reconocimiento semántico. Las tareas de reconstrucción requieren un razonamiento por píxel de la estructura 3D del objeto en la imagen. Las tareas de reconstrucción no requieren una comprensión semántica del contenido de la imagen, y se pueden lograr utilizando pistas de imagen de bajo nivel, incluyendo textura, color, sombreado, sombras, perspectiva y enfoque. El reconocimiento, por otro lado, es un caso extremo de uso de semántica de imagen, ya que las tareas de reconocimiento utilizan objetos enteros y equivalen a clasificar el objeto en la entrada y recuperar la forma correspondiente de la base de datos. Aunque las tareas de reconocimiento pueden proporcionar un razonamiento robusto sobre las partes del objeto no visibles en las imágenes, la solución semántica es factible solo si se puede explicar mediante un objeto presente en la base de datos.
Aunque las tareas de reconocimiento y reconstrucción pueden diferir significativamente entre sí, ambas tienden a ignorar la información valiosa contenida en la imagen de entrada. Es aconsejable utilizar ambas tareas en unión entre sí para obtener los mejores resultados posibles y formas 3D precisas para la reconstrucción de objetos, es decir, para las tareas de reconstrucción 3D de una sola vista óptimas, el modelo debe emplear conocimientos estructurales, pistas de imagen de bajo nivel y una comprensión de alto nivel del objeto.
Reconstrucción 3D de una sola vista: configuración convencional
Para explicar la configuración convencional y analizar la configuración de un marco de reconstrucción 3D de una sola vista, desplegaremos una configuración estándar para estimar la forma 3D utilizando una sola vista o imagen del objeto. La base de datos utilizada para fines de entrenamiento es la base de datos ShapeNet, y evalúa el rendimiento en 13 clases que permite que el modelo comprenda cómo el número de clases en una base de datos determina el rendimiento de estimación de forma del modelo.
La mayoría de las redes neuronales convolucionales modernas utilizan una sola imagen para predecir modelos 3D de alta resolución, y estos marcos se pueden categorizar en función de la representación de su salida: mapas de profundidad, nubes de puntos y rejillas de voxel. El modelo utiliza OGN o Redes Generadoras de Octrees como su método representativo que históricamente ha superado el enfoque de rejilla de voxel y/o puede cubrir las representaciones de salida dominantes. En contraste con los métodos existentes que utilizan representaciones de salida, el enfoque OGN permite que el modelo prediga formas de alta resolución y utiliza octrees para representar de manera eficiente el espacio ocupado.
Líneas base
Para evaluar los resultados, el modelo despliega dos líneas base que consideran el problema como una tarea de reconocimiento pura. La primera línea base se basa en clustering, mientras que la segunda línea base realiza una recuperación de base de datos.
Clustering
En la línea base de clustering, el modelo utiliza el algoritmo K-Means para agrupar o reunir las formas de entrenamiento en K subcategorías, y ejecuta el algoritmo en voxelizaciones de 32*32*32 aplanadas en un vector. Después de determinar las asignaciones de clustering, el modelo vuelve a trabajar con modelos de mayor resolución. El modelo calcula entonces la forma media dentro de cada cluster y umbraliza las formas medias donde el valor óptimo se calcula maximizando la IoU o Intersección sobre Unión promedio sobre los modelos. Dado que el modelo conoce la relación entre las formas 3D y las imágenes dentro de los datos de entrenamiento, el modelo puede emparejar fácilmente la imagen con su cluster correspondiente.
Recuperación
La línea base de recuperación aprende a incrustar formas e imágenes en un espacio conjunto. El modelo considera la similitud por pares de matrices de formas 3D en el conjunto de entrenamiento para construir el espacio de incrustación. El modelo logra esto utilizando el enfoque de Escalado Multidimensional con mapeo de Sammon para comprimir cada fila en la matriz a un descriptor de baja dimensión. Además, para calcular la similitud entre dos formas arbitrarias, el modelo emplea el descriptor de campo de luz. Además, el modelo entrena una red neuronal convolucional para asignar imágenes a un descriptor para incrustar las imágenes en el espacio.
Análisis
Los modelos de reconstrucción 3D de una sola vista siguen diferentes estrategias como resultado de lo cual superan a otros modelos en algunas áreas, mientras que no lo hacen en otras. Para comparar diferentes marcos y evaluar su rendimiento, tenemos diferentes métricas, una de las cuales es la puntuación de IoU media.

Como se puede ver en la imagen de arriba, a pesar de tener arquitecturas diferentes, los modelos de reconstrucción 3D actuales entregan un rendimiento casi similar. Sin embargo, es interesante destacar que, a pesar de ser un método de reconocimiento puro, el marco de recuperación supera a otros modelos en términos de puntuaciones de IoU media y mediana. El marco de clustering entrega resultados sólidos superando a AtlasNet, OGN y los marcos de Matryoshka. Sin embargo, el resultado más inesperado de este análisis sigue siendo Oracle NN superando a todos los demás métodos a pesar de emplear una arquitectura de recuperación perfecta. Aunque calcular la puntuación de IoU media ayuda en la comparación, no proporciona una imagen completa, ya que la varianza en los resultados es alta independientemente del modelo.
Métricas de evaluación comunes
Los modelos de reconstrucción 3D de una sola vista a menudo emplean diferentes métricas de evaluación para analizar su rendimiento en una amplia gama de tareas. A continuación se presentan algunas de las métricas de evaluación comúnmente utilizadas.
Intersección sobre Unión
La media de la Intersección sobre Unión es una métrica comúnmente utilizada como una medida cuantitativa para servir como una referencia para modelos de reconstrucción 3D de una sola vista. Aunque la IoU proporciona some insight en el rendimiento del modelo, no se considera como la única métrica para evaluar un método, ya que indica la calidad de la forma predicha por el modelo solo si los valores son lo suficientemente altos con una discrepancia significativa observada entre las puntuaciones bajas y medias para dos formas dadas.
Distancia de Chamfer
La Distancia de Chamfer se define en nubes de puntos y se ha diseñado de manera que se puede aplicar a diferentes representaciones 3D de manera satisfactoria. Sin embargo, la métrica de evaluación de Distancia de Chamfer es altamente sensible a los valores atípicos, lo que la convierte en una medida problemática para evaluar el rendimiento del modelo, con la distancia del valor atípico desde la forma de referencia determinando significativamente la calidad de la generación.
Puntuación F
La puntuación F es una métrica de evaluación común utilizada activamente por la mayoría de los modelos de reconstrucción 3D de múltiples vistas. La métrica de puntuación F se define como la media armónica entre la precisión y el recuerdo, y evalúa la distancia entre las superficies de los objetos de manera explícita. La precisión cuenta el porcentaje de puntos reconstruidos que se encuentran dentro de una distancia predefinida de la verdad de referencia, para medir la precisión de la reconstrucción. El recuerdo, por otro lado, cuenta el porcentaje de puntos en la verdad de referencia que se encuentran dentro de una distancia predefinida de la reconstrucción para medir la completitud de la reconstrucción. Además, al variar el umbral de distancia, los desarrolladores pueden controlar la rigidez de la métrica de puntuación F.
Análisis por clase
La similitud en el rendimiento entregado por los marcos anteriores no puede ser el resultado de métodos que se ejecutan en diferentes subconjuntos de clases, y la siguiente figura demuestra el rendimiento relativo consistente en diferentes clases con la línea base de recuperación de Oracle NN logrando el mejor resultado de todos, y todos los métodos observando una alta varianza para todas las clases.

Además, el número de muestras de entrenamiento disponibles para una clase podría llevar a uno a asumir que influye en el rendimiento por clase. Sin embargo, como se demuestra en la siguiente figura, el número de muestras de entrenamiento disponibles para una clase no influye en el rendimiento por clase, y el número de muestras en una clase y su puntuación de IoU media no están correlacionados.

Análisis cualitativo
Los resultados cuantitativos discutidos en la sección anterior están respaldados por resultados cualitativos, como se muestra en la siguiente imagen.

Para la mayoría de las clases, no hay una diferencia significativa entre la línea base de clustering y las predicciones realizadas por métodos basados en decodificadores. El enfoque de clustering no entrega resultados cuando la distancia entre la muestra y la forma media del cluster es alta, o en situaciones en las que la forma media en sí no puede describir el cluster lo suficientemente bien. Por otro lado, los marcos que emplean métodos basados en decodificadores y arquitecturas de recuperación entregan los resultados más precisos y atractivos, ya que pueden incluir detalles finos en el modelo 3D generado.
Reconstrucción 3D de una sola vista: pensamientos finales
En este artículo, hemos hablado sobre la reconstrucción de objetos 3D de una sola vista y cómo funciona, y hablamos sobre dos líneas base: recuperación y clasificación, con el enfoque de recuperación superando a los modelos actuales de vanguardia. Finalmente, aunque la reconstrucción de objetos 3D de una sola vista es uno de los temas más calientes y más investigados en la comunidad de IA, y a pesar de haber hecho avances significativos en los últimos años, la reconstrucción de objetos 3D de una sola vista está lejos de ser perfecta, con importantes obstáculos que superar en los próximos años.












