Inteligencia Artificial

In-Paint3D: Generación de imágenes utilizando modelos de difusión sin rayos

Publicado 15 Julio 2024

Kunal Kejriwal

La llegada de modelos de IA generativa profunda ha acelerado significativamente el desarrollo de la IA con capacidades notables en la generación de lenguaje natural, generación 3D, generación de imágenes y síntesis de voz. Los modelos generativos 3D han transformado numerosas industrias y aplicaciones, revolucionando el panorama actual de producción 3D. Sin embargo, muchos modelos generativos profundos actuales encuentran un obstáculo común: el cableado complejo y las mallas generadas con texturas de iluminación a menudo son incompatibles con los canales de renderizado tradicionales como PBR (renderizado basado físicamente). Los modelos basados en difusión, que generan activos 3D sin texturas de iluminación, poseen capacidades notables para la generación de activos 3D diversos, aumentando así los marcos 3D existentes en industrias como la cinematografía, los juegos y la realidad virtual/aumentada.

En este artículo, analizaremos Paint3D, un novedoso marco de trabajo de grueso a fino capaz de producir diversos mapas de texturas UV 2K de alta resolución para mallas 3D sin textura, condicionados a entradas visuales o textuales. El desafío clave que aborda Paint3D es generar texturas de alta calidad sin incrustar información de iluminación, lo que permite a los usuarios volver a editar o volver a iluminar dentro de los procesos gráficos modernos. Para abordar este problema, el marco Paint3D emplea un modelo de difusión 2D previamente entrenado para realizar una fusión de texturas de múltiples vistas y generar imágenes condicionales de vista, produciendo inicialmente un mapa de textura grueso. Sin embargo, dado que los modelos 2D no pueden desactivar completamente los efectos de iluminación ni representar completamente formas 3D, el mapa de textura puede presentar artefactos de iluminación y áreas incompletas.

En este artículo, exploraremos el marco Paint3D en profundidad, examinando su funcionamiento y arquitectura, y comparándolo con marcos generativos profundos de última generación. Entonces empecemos.

Paint3D: Introducción

Los modelos de IA generativa profunda han demostrado capacidades excepcionales en la generación de lenguaje natural, generación 3D y síntesis de imágenes, y se han implementado en aplicaciones de la vida real, revolucionando la industria de la generación 3D. Sin embargo, a pesar de sus notables capacidades, los marcos modernos de IA generativa profunda a menudo producen mallas con cableado complejo y texturas de iluminación caóticas que son incompatibles con los canales de renderizado convencionales, incluido el renderizado basado físicamente (PBR). De manera similar, la síntesis de texturas ha avanzado rápidamente, especialmente con el uso de modelos de difusión 2D. Estos modelos utilizan eficazmente condiciones de texto y modelos de difusión de profundidad a imagen previamente entrenados para generar texturas de alta calidad. Sin embargo, aún queda un desafío importante: las texturas preiluminadas pueden afectar negativamente las representaciones finales del entorno 3D, introduciendo errores de iluminación cuando las luces se ajustan dentro de flujos de trabajo comunes, como se demuestra en la siguiente imagen.

Como se observa, los mapas de textura sin preiluminación funcionan a la perfección con los procesos de renderizado tradicionales, ofreciendo resultados precisos. Por el contrario, los mapas de textura con preiluminación presentan sombras inapropiadas al aplicar reiluminación. Los marcos de generación de texturas entrenados con datos 3D ofrecen un enfoque alternativo: generan texturas mediante la comprensión de la geometría completa de un objeto 3D específico. Si bien estos marcos pueden ofrecer mejores resultados, carecen de las capacidades de generalización necesarias para aplicar el modelo a objetos 3D fuera de sus datos de entrenamiento.

Los modelos actuales de generación de texturas enfrentan dos desafíos críticos: lograr una amplia generalización en diferentes objetos utilizando guía de imágenes o indicaciones diversas, y eliminar la iluminación acoplada de los resultados del entrenamiento previo. Las texturas preiluminadas pueden interferir con los resultados finales de los objetos texturizados dentro de los motores de renderizado. Además, dado que los modelos de difusión 2D previamente entrenados solo proporcionan resultados 2D en el dominio de la vista, carecen de una comprensión integral de las formas, lo que genera inconsistencias en el mantenimiento de la coherencia de la vista para los objetos 3D.

Para abordar estos desafíos, el marco Paint3D desarrolla una textura de dos etapas. modelo de difusión para objetos 3D que se generaliza a través de diferentes modelos generativos previamente entrenados y preserva la coherencia de la vista mientras genera texturas sin iluminación.

Paint3D es un modelo de generación de texturas de gruesa a fina de dos etapas que aprovecha las sólidas capacidades de generación de imágenes y orientación rápida de los modelos de IA generativos previamente entrenados para texturizar objetos 3D. En la primera etapa, Paint3D toma muestras de imágenes de múltiples vistas de un modelo de difusión de imágenes 2D previamente entrenado y con reconocimiento de profundidad, lo que permite la generalización de resultados de texturas ricas y de alta calidad a partir de diversas indicaciones. Luego, el modelo genera un mapa de textura inicial al retroproyectar estas imágenes en la superficie de la malla 3D. En la segunda etapa, el modelo se centra en generar texturas sin iluminación mediante la implementación de enfoques empleados por modelos de difusión especializados en eliminar influencias de iluminación y refinar regiones incompletas que tienen en cuenta la forma. A lo largo del proceso, el marco Paint3D genera constantemente texturas 2K de alta calidad de forma semántica, eliminando los efectos de iluminación intrínsecos.

En resumen, Paint3D es un novedoso modelo de IA generativa de grueso a fino diseñado para producir diversos mapas de texturas UV 2K de alta resolución, sin iluminación, para mallas 3D sin textura. Su objetivo es lograr un rendimiento de última generación en la texturización de objetos 3D con diferentes entradas condicionales, incluidos texto e imágenes, ofreciendo importantes ventajas para tareas de síntesis y edición de gráficos.

Metodología y Arquitectura

El marco Paint3D genera y refina mapas de textura progresivamente para producir texturas diversas y de alta calidad para modelos 3D utilizando entradas condicionales como imágenes e indicaciones, como se demuestra en la siguiente imagen.

Etapa 1: Generación progresiva de textura gruesa

En la etapa inicial de generación de textura gruesa, Paint3D emplea imágenes 2D previamente entrenadas. modelos de difusión para muestrear imágenes de múltiples vistas, que luego se retroproyectan sobre la superficie de la malla para crear los mapas de textura iniciales. Esta etapa comienza generando un mapa de profundidad a partir de varias vistas de cámara. El modelo utiliza condiciones de profundidad para muestrear imágenes del modelo de difusión, que luego se retroproyectan en la superficie de la malla 3D. Este enfoque alternativo de renderizado, muestreo y retroproyección mejora la consistencia de las mallas de textura y ayuda a generar progresivamente el mapa de textura.

El proceso comienza con las regiones visibles de la malla 3D, enfocándose en generar textura desde la primera vista de la cámara al representar la malla 3D en un mapa de profundidad. Luego se muestrea una imagen de textura según las condiciones de apariencia y profundidad y se proyecta hacia atrás en la malla. Este método se repite para puntos de vista posteriores, incorporando texturas previas para representar no solo una imagen de profundidad sino también una imagen RGB parcialmente coloreada con máscaras sin color. El modelo utiliza un codificador de imagen en pintura con reconocimiento de profundidad para rellenar áreas sin color, generando un mapa completo de textura gruesa mediante la retroproyección de imágenes pintadas en la malla 3D.

Para escenas u objetos más complejos, el modelo utiliza múltiples vistas. Inicialmente, captura dos mapas de profundidad desde puntos de vista simétricos y los combina en una cuadrícula de profundidad, que reemplaza una única imagen de profundidad para el muestreo de texturas con reconocimiento de profundidad de múltiples vistas.

Etapa 2: Refinamiento de la textura en el espacio ultravioleta

A pesar de generar mapas lógicos de textura gruesa, surgen desafíos como agujeros de textura en los procesos de renderizado y sombras de iluminación de los modelos de difusión de imágenes 2D. Para abordar estos problemas, Paint3D realiza un proceso de difusión en el espacio UV basado en el mapa de textura gruesa, mejorando el atractivo visual y resolviendo problemas.

Sin embargo, refinar el mapa de texturas en el espacio UV puede introducir discontinuidades debido a la fragmentación de texturas continuas en fragmentos individuales. Para mitigar esto, Paint3D refina el mapa de textura utilizando la información de adyacencia de los fragmentos de textura. En el espacio UV, el mapa de posición representa la información de adyacencia 3D de los fragmentos de textura, tratando cada elemento que no es de fondo como una coordenada de punto 3D. El modelo utiliza un codificador de mapa de posición adicional, similar a ControlNet, para integrar esta información de adyacencia durante el proceso de difusión.

El modelo utiliza simultáneamente la posición del codificador condicional y otros codificadores para realizar tareas de refinamiento en el espacio UV, ofreciendo dos capacidades: UVHD (UV de alta definición) y pintura UV. UVHD mejora el atractivo visual y la estética mediante el uso de un codificador de mejora de imagen y un codificador de posición con el modelo de difusión. La pintura UV rellena los agujeros de la textura, evitando problemas de autooclusión durante el renderizado. La etapa de refinamiento comienza con la pintura UV, seguida de UVHD para producir un mapa de textura refinado final.

Al integrar estos métodos de refinamiento, el marco Paint3D genera mapas de texturas UV completos, diversos, de alta resolución y sin iluminación, lo que lo convierte en una solución sólida para texturizar objetos 3D.

Paint3D: experimentos y resultados

El modelo Paint3D utiliza el modelo text2image de difusión estable para ayudar con las tareas de generación de texturas, mientras que el componente codificador de imágenes gestiona las condiciones de la imagen. Para mejorar su control sobre tareas condicionales como pintura de imágenes, manejo de profundidad e imágenes de alta definición, el marco Paint3D emplea codificadores de dominio ControlNet. El modelo se implementa en el marco PyTorch, con proyecciones de textura y renderizado ejecutadas en Kaolin.

Comparación de texto y texturas

Para evaluar el rendimiento de Paint3D, comenzamos analizando su generación de textura cuando se condiciona con indicaciones textuales, comparándola con marcos de trabajo de última generación como Text2Tex, TEXTure y LatentPaint. Como se muestra en la siguiente imagen, el marco Paint3D no solo destaca por generar detalles de textura de alta calidad, sino que también sintetiza de manera efectiva un mapa de textura sin iluminación.

Al aprovechar las sólidas capacidades de los codificadores Stable Diffusion y ControlNet, Paint3D proporciona versatilidad y calidad de textura superiores. La comparación destaca la capacidad de Paint3D para producir texturas detalladas de alta resolución sin iluminación incorporada, lo que la convierte en una solución líder para tareas de texturizado 3D.

En comparación, el marco Latent-Paint es propenso a generar texturas borrosas que dan como resultado efectos visuales subóptimos. Por otro lado, aunque el marco TEXture genera texturas claras, carece de suavidad y exhibe empalmes y uniones notables. Finalmente, el marco Text2Tex genera texturas suaves notablemente bien, pero no logra replicar el rendimiento para generar texturas finas con detalles intrincados. La siguiente imagen compara cuantitativamente el marco Paint3D con los marcos más modernos.

Como se puede observar, el marco Paint3D supera a todos los modelos existentes, y por un margen significativo, con una mejora de casi el 30 % en la línea base FID y aproximadamente un 40 % de mejora en la línea base KID. La mejora en las puntuaciones de referencia FID y KID demuestra la capacidad de Paint3D para generar texturas de alta calidad en diversos objetos y categorías.

Comparación de imagen a textura

Para generar las capacidades generativas de Paint3D mediante indicaciones visuales, utilizamos el modelo TEXture como base. Como se mencionó anteriormente, el modelo Paint3D emplea un codificador de imágenes procedente del modelo text2image de Difusión estable. Como se puede ver en la siguiente imagen, el marco Paint3D sintetiza texturas exquisitas notablemente bien y aún es capaz de mantener una alta fidelidad en la condición de la imagen.

Por otro lado, el marco TEXture es capaz de generar una textura similar a Paint3D, pero no logra representar con precisión los detalles de la textura en la condición de la imagen. Además, como se demuestra en la siguiente imagen, el marco Paint3D ofrece mejores puntuaciones de referencia FID y KID en comparación con el marco TEXture; el primero disminuyó de 40.83 a 26.86, mientras que el segundo mostró una caída de 9.76 a 4.94.

Conclusión

En este artículo, hemos hablado de Paint3D, un marco novedoso de grueso a fino capaz de producir mapas de texturas UV 2K diversos, sin iluminación y de alta resolución para mallas 3D sin textura condicionadas a entradas visuales o textuales. Lo más destacado del marco Paint3D es que es capaz de generar texturas UV 2K de alta resolución sin iluminación que son semánticamente consistentes sin estar condicionadas por entradas de imagen o texto. Debido a su enfoque de grueso a fino, el marco Paint3D produce mapas de texturas diversos, de alta resolución y sin iluminación, y ofrece un mejor rendimiento que los marcos de última generación actuales.

Temas relacionados:modelos de difusión transformador de difusión ai generativa generación de imágenes imagen en pintura pintar3D Difusión estable

Kunal Kejriwal

"Ingeniero de profesión, escritor de corazón". Kunal es un escritor técnico con un profundo amor y comprensión de AI y ML, dedicado a simplificar conceptos complejos en estos campos a través de su atractiva e informativa documentación.