Inteligencia Artificial

Paint3D: modelo de difusión sin iluminación para generación de imágenes

Publicado Enero 23, 2024

Kunal Kejriwal

El rápido desarrollo de los modelos generativos de IA, especialmente los modelos de IA generativa profunda, ha mejorado significativamente las capacidades de generación de lenguaje natural, generación 3D, generación de imágenes y síntesis de voz. Estos modelos han revolucionado la producción 3D en diversas industrias. Sin embargo, muchos se enfrentan a un desafío: su complejo cableado y las mallas generadas a menudo no son compatibles con los procesos de renderizado tradicionales, como el Renderizado Basado en Física (PBR). Los modelos basados en difusión, especialmente sin texturas de iluminación, demuestran una impresionante diversidad en la generación de recursos 3D, mejorando los entornos 3D en cine, videojuegos y realidad aumentada (RA/RV).

Este artículo presenta Paint3D, un novedoso framework para la producción de mapas de textura UV 2K de alta resolución para mallas 3D sin textura, condicionados por entradas visuales o textuales. El principal reto de Paint3D es generar texturas de alta calidad sin iluminación integrada, lo que permite al usuario reeditar o reiluminar dentro de los flujos de trabajo de gráficos modernos. Emplea un modelo de difusión 2D preentrenado para la fusión de texturas multivista, generando mapas de textura iniciales gruesos. Sin embargo, estos mapas suelen presentar artefactos de iluminación y áreas incompletas debido a las limitaciones del modelo 2D para desactivar los efectos de iluminación y representar completamente las formas 3D. Profundizaremos en el funcionamiento, la arquitectura y las comparaciones de Paint3D con otros frameworks generativos profundos. Comencemos.

Paint3D: Introducción

Las capacidades de los modelos de IA generativa profunda en tareas de generación de lenguaje natural, generación 3D y síntesis de imágenes son bien conocidas e implementadas en aplicaciones de la vida real, revolucionando la industria de la generación 3D. A pesar de sus notables capacidades, los modernos y profundos IA generativa Los marcos generan mallas que se caracterizan por un cableado complejo y texturas de iluminación caóticas que a menudo son incompatibles con los canales de renderizado convencionales, incluido el PBR o el renderizado basado físicamente. Al igual que los modelos de IA generativa profunda, la síntesis de texturas también ha avanzado rápidamente, especialmente en la utilización de modelos de difusión 2D. Los modelos de síntesis de textura emplean profundidad de imagen previamente entrenados. modelos de difusión utilizar eficazmente las condiciones del texto para generar texturas de alta calidad. Sin embargo, estos enfoques enfrentan problemas con las texturas preiluminadas que pueden afectar significativamente las representaciones finales del entorno 3D e introducir errores de iluminación cuando las luces se cambian dentro de los flujos de trabajo comunes, como se demuestra en la siguiente imagen.

Como se puede observar, el mapa de textura con iluminación libre funciona en sincronía con los canales de renderizado tradicionales y ofrece resultados precisos, mientras que el mapa de textura con preiluminación incluye sombras inapropiadas cuando se aplica la reiluminación. Por otro lado, los marcos de generación de texturas entrenados con datos 3D ofrecen un enfoque alternativo en el que el marco genera las texturas comprendiendo la geometría completa de un objeto 3D específico. Aunque pueden ofrecer mejores resultados, los marcos de generación de texturas entrenados en datos 3D carecen de capacidades de generalización, lo que dificulta su capacidad para aplicar el modelo a objetos 3D fuera de sus datos de entrenamiento.

Los modelos actuales de generación de texturas enfrentan dos desafíos críticos: usar guía de imágenes o indicaciones diversas para lograr un grado más amplio de generalización en diferentes objetos, y el segundo desafío es la eliminación de la iluminación acoplada en los resultados obtenidos del entrenamiento previo. Las texturas preiluminadas pueden potencialmente interferir con los resultados finales de los objetos texturizados dentro de los motores de renderizado y, dado que los modelos de difusión 2D previamente entrenados proporcionan resultados 2D solo en el dominio de la vista, carecen de una comprensión integral de las formas, lo que les impide ser capaces de hacerlo. para mantener la coherencia de la vista de objetos 3D.

Debido a los desafíos mencionados anteriormente, el marco Paint3D intenta desarrollar un modelo de difusión de texturas de dos etapas para objetos 3D que se generalice a diferentes modelos generativos previamente entrenados y preserve la coherencia de la vista mientras aprende a generar texturas sin rayos.

Paint3D es un modelo de generación de texturas gruesas a finas de dos etapas que tiene como objetivo aprovechar las potentes capacidades de generación de imágenes y orientación rápida de equipos previamente entrenados. IA generativa Modelos para texturizar objetos 3D. En la primera etapa, el marco Paint3D primero toma muestras de imágenes de múltiples vistas de un modelo de difusión de imágenes 2D previamente entrenado y consciente de la profundidad de manera progresiva para permitir la generalización de resultados de texturas ricas y de alta calidad a partir de diversas indicaciones. Luego, el modelo genera un mapa de textura inicial proyectando estas imágenes en la superficie de la malla 3D. En la segunda etapa, el modelo se centra en generar texturas sin iluminación mediante la implementación de enfoques empleados por modelos de difusión especializados en la eliminación de influencias de iluminación y el refinamiento consciente de la forma de regiones incompletas. A lo largo del proceso, el marco Paint3D es capaz de generar constantemente texturas 2K de alta calidad de forma semántica y elimina los efectos de iluminación intrínsecos.

En resumen, Paint3D es un novedoso modelo de IA generativa de grueso a fino que tiene como objetivo producir mapas de texturas UV 2K diversos, sin iluminación y de alta resolución para mallas 3D sin textura para lograr un rendimiento de última generación al texturizar objetos 3D con diferentes condiciones. entradas que incluyen texto e imágenes, y ofrece ventajas significativas para tareas de síntesis y edición de gráficos.

Metodología y Arquitectura

El marco Paint3D genera y refina mapas de textura progresivamente para generar mapas de textura diversos y de alta calidad para modelos 3D utilizando las entradas condicionales deseadas, incluidas imágenes e indicaciones, como se demuestra en la siguiente imagen.

En la etapa aproximada, el modelo Paint3D utiliza modelos de difusión de imágenes 2D previamente entrenados para muestrear imágenes de múltiples vistas y luego crea los mapas de textura iniciales proyectando estas imágenes en la superficie de la malla. En la segunda etapa, es decir, la etapa de refinamiento, el modelo Paint3D utiliza un proceso de difusión en el espacio UV para mejorar los mapas de textura gruesa, logrando así una función de alta calidad, sin pintura y sin iluminación que garantiza el atractivo visual y la integridad de la textura final. .

Etapa 1: Generación progresiva de textura gruesa

En la etapa progresiva de generación de textura gruesa, el modelo Paint3D genera un mapa de textura UV gruesa para las mallas 3D que utilizan un modelo de difusión 2D con reconocimiento de profundidad previamente entrenado. Para ser más específico, el modelo primero usa diferentes vistas de cámara para representar el mapa de profundidad, luego usa condiciones de profundidad para muestrear imágenes del modelo de difusión de imágenes y luego retroproyecta estas imágenes en la superficie de la malla. El marco realiza alternativamente los enfoques de renderizado, muestreo y retroproyección para mejorar la consistencia de las mallas de textura, lo que en última instancia ayuda en la generación progresiva del mapa de textura.

El modelo comienza a generar la textura de la región visible con las vistas de la cámara enfocándose en la malla 3D y renderiza la malla 3D en un mapa de profundidad desde la primera vista. Luego, el modelo toma muestras de una imagen de textura para determinar una condición de apariencia y una condición de profundidad. Luego, el modelo retroproyecta la imagen en la malla 3D. Para los puntos de vista, el modelo Paint3D ejecuta un enfoque similar pero con un ligero cambio al realizar el proceso de muestreo de textura utilizando un enfoque de pintura de imágenes. Además, el modelo tiene en cuenta las regiones texturizadas de puntos de vista anteriores, lo que permite que el proceso de renderizado no solo genere una imagen de profundidad, sino también una imagen RGB parcialmente coloreada con una máscara sin color en la vista actual.

Luego, el modelo utiliza un modelo de pintura con reconocimiento de profundidad con un codificador de pintura para rellenar el área sin colorear dentro de la imagen RGB. Luego, el modelo genera el mapa de textura a partir de la vista proyectando hacia atrás la imagen pintada en la malla 3D bajo la vista actual, lo que permite que el modelo genere el mapa de textura progresivamente y llegue al mapa de estructura gruesa completo. Finalmente, el modelo extiende el proceso de muestreo de textura a una escena u objeto con múltiples vistas. Para ser más específico, el modelo utiliza un par de cámaras para capturar dos mapas de profundidad durante el muestreo de textura inicial desde puntos de vista simétricos. Luego, el modelo combina dos mapas de profundidad y compone una cuadrícula de profundidad. El modelo reemplaza la imagen de profundidad única con la cuadrícula de profundidad para realizar un muestreo de textura con reconocimiento de profundidad de múltiples vistas.

Etapa 2: Refinamiento de la textura en el espacio ultravioleta

Aunque la apariencia de los mapas de textura gruesa es lógica, enfrenta algunos desafíos, como los agujeros de textura causados durante el proceso de renderizado por la autooclusión o las sombras de los rayos debido a la participación de modelos de difusión de imágenes 2D. El modelo Paint3D tiene como objetivo realizar un proceso de difusión en el espacio UV sobre la base de un mapa de textura grueso, tratando de mitigar los problemas y mejorar aún más el atractivo visual del mapa de textura durante el refinamiento de la textura. Sin embargo, refinar el modelo de difusión de imágenes convencional con los mapas de textura en el espacio UV introduce una discontinuidad de textura ya que el mapa de textura se genera mediante el mapeo UV de la textura de la superficie 3D que corta la textura continua en una serie de fragmentos individuales en el UV. espacio. Como resultado de la fragmentación, al modelo le resulta difícil aprender las relaciones de adyacencia 3D entre los fragmentos, lo que genera problemas de discontinuidad de textura.

El modelo refina el mapa de textura en el espacio UV realizando el proceso de difusión bajo la guía de la información de adyacencia de los fragmentos de textura. Es importante tener en cuenta que en el espacio UV, es el mapa de posición el que representa la información de adyacencia 3D de los fragmentos de textura, y el modelo trata cada elemento que no es de fondo como una coordenada de punto 3D. Durante el proceso de difusión, el modelo fusiona la información de adyacencia 3D agregando un codificador de mapa de posición individual al modelo de difusión de imágenes previamente entrenado. El nuevo codificador se asemeja al diseño del marco ControlNet y tiene la misma arquitectura que el codificador implementado en el modelo de difusión de imágenes con la capa de convolución cero que conecta los dos. Además, el modelo de difusión de textura se entrena en un conjunto de datos que comprende mapas de textura y posición, y el modelo aprende a predecir el ruido agregado al ruido latente. Luego, el modelo optimiza el codificador de posición y congela el eliminador de ruido entrenado para su tarea de difusión de imágenes.

Luego, el modelo utiliza simultáneamente la posición del codificador condicional y otros codificadores para realizar tareas de refinamiento en el espacio UV. En este sentido, el modelo tiene dos capacidades de refinamiento: UVHD o UV de Alta Definición y UV inpainting. El método UVHD está estructurado para mejorar el atractivo visual y la estética del mapa de textura. Para lograr UVHD, el modelo utiliza un codificador de mejora de imagen y un codificador de posición con el modelo de difusión. El modelo utiliza el método de pintura UV para rellenar los agujeros de textura dentro del plano UV que es capaz de evitar problemas de autooclusión generados durante el renderizado. En la etapa de refinamiento, el modelo Paint3D primero realiza pintura UV y luego realiza UVHD para generar el mapa de textura refinado final. Al integrar los dos métodos de refinamiento, el marco Paint3D puede producir mapas de texturas UV completos, diversos, de alta resolución y sin iluminación.

Paint3D: experimentos y resultados

El modelo Paint3D emplea el Difusión estable modelo text2image para ayudarlo con las tareas de generación de texturas mientras emplea el componente codificador de imágenes para manejar las condiciones de la imagen. Para mejorar aún más su control sobre controles condicionales como imagen en pintura, profundidad e imagen de alta definición, el marco Paint3D emplea codificadores de dominio ControlNet. El modelo se implementa en el marco PyTorch con proyecciones de textura y renderizado implementadas en Kaolin.

Comparación de texto y texturas

Para analizar su rendimiento, comenzamos evaluando el efecto de generación de textura de Paint3D cuando se acondiciona mediante indicaciones textuales y lo comparamos con marcos de trabajo de última generación, incluidos Text2Tex, TEXTure y LatentPaint. Como se puede observar en la siguiente imagen, el marco Paint3D no solo sobresale en generar detalles de textura de alta calidad, sino que también sintetiza razonablemente bien un mapa de textura sin iluminación.

En comparación, el marco Latent-Paint es propenso a generar texturas borrosas que dan como resultado efectos visuales subóptimos. Por otro lado, aunque el marco TEXture genera texturas claras, carece de suavidad y exhibe empalmes y uniones notables. Finalmente, el marco Text2Tex genera texturas suaves notablemente bien, pero no logra replicar el rendimiento para generar texturas finas con detalles intrincados.

La siguiente imagen compara cuantitativamente el marco Paint3D con los marcos más modernos.

Como se puede observar, el marco Paint3D supera a todos los modelos existentes, y por un margen significativo, con una mejora de casi el 30 % en la línea base FID y aproximadamente un 40 % de mejora en la línea base KID. La mejora en las puntuaciones de referencia FID y KID demuestra la capacidad de Paint3D para generar texturas de alta calidad en diversos objetos y categorías.

Comparación de imagen a textura

Para generar las capacidades generativas de Paint3D mediante indicaciones visuales, utilizamos el modelo TEXture como base. Como se mencionó anteriormente, el modelo Paint3D emplea un codificador de imágenes procedente del modelo text2image de Stable Diffusion. Como se puede ver en la siguiente imagen, el marco Paint3D sintetiza texturas exquisitas notablemente bien y aún es capaz de mantener una alta fidelidad en la condición de la imagen.

Por otro lado, el marco TEXture es capaz de generar una textura similar a Paint3D, pero no logra representar con precisión los detalles de la textura en la condición de la imagen. Además, como se demuestra en la siguiente imagen, el marco Paint3D ofrece mejores puntuaciones de referencia FID y KID en comparación con el marco TEXture; el primero disminuyó de 40.83 a 26.86, mientras que el segundo mostró una caída de 9.76 a 4.94.

Conclusión

En este artículo, hemos hablado de Paint3D, un marco novedoso de grueso a fino capaz de producir mapas de texturas UV 2K diversos, sin iluminación y de alta resolución para mallas 3D sin textura condicionadas a entradas visuales o textuales. Lo más destacado del marco Paint3D es que es capaz de generar texturas UV 2K de alta resolución sin iluminación que son semánticamente consistentes sin estar condicionadas por entradas de imagen o texto. Debido a su enfoque de grueso a fino, el marco Paint3D produce mapas de texturas diversos, de alta resolución y sin iluminación, y ofrece un mejor rendimiento que los marcos de última generación actuales.

Temas relacionados:Objetos 3D modelos de difusión pintar3D PBR Representación basada físicamente Textura

Kunal Kejriwal

"Ingeniero de profesión, escritor de corazón". Kunal es un escritor técnico con un profundo amor y comprensión de AI y ML, dedicado a simplificar conceptos complejos en estos campos a través de su atractiva e informativa documentación.