Inteligencia artificial

InstantID: Generación de identidad preservadora en segundos sin disparos

Published March 12, 2024

Updated April 4, 2026

Kunal Kejriwal

La tecnología de generación de imágenes basada en inteligencia artificial ha experimentado un crecimiento notable en los últimos años, desde que grandes modelos de difusión de texto a imagen como DALL-E, GLIDE, Stable Diffusion, Imagen y más irrumpieron en la escena. A pesar de que los modelos de generación de imágenes de inteligencia artificial tienen arquitecturas y métodos de entrenamiento únicos, todos comparten un punto focal común: generación de imágenes personalizadas y personalizadas que apuntan a crear imágenes con identidad de personaje, sujeto y estilo consistentes en función de imágenes de referencia. Debido a sus notables capacidades generativas, los marcos de generación de imágenes de inteligencia artificial modernos han encontrado aplicaciones en campos que incluyen animación de imágenes, realidad virtual, comercio electrónico, retratos de inteligencia artificial y más. Sin embargo, a pesar de sus notables capacidades generativas, estos marcos todos comparten un obstáculo común, la mayoría de ellos no pueden generar imágenes personalizadas mientras preservan los delicados detalles de identidad de los objetos humanos.

Generar imágenes personalizadas mientras se preservan los detalles intrincados es de importancia crítica, especialmente en tareas de identidad facial humana que requieren un alto estándar de fidelidad y detalle, y semántica sutil en comparación con tareas de generación de imágenes de objetos generales que se concentran principalmente en texturas y colores granulares. Además, los marcos de síntesis de imágenes personalizadas en los últimos años, como LoRA, DreamBooth, Textual Inversion y más, han avanzado significativamente. Sin embargo, los modelos de generación de imágenes personalizadas de inteligencia artificial aún no son perfectos para su implementación en escenarios del mundo real, ya que tienen un alto requisito de almacenamiento, requieren múltiples imágenes de referencia y a menudo tienen un largo proceso de ajuste fino. Por otro lado, aunque los métodos basados en ID-embedding existentes requieren solo una referencia única, carecen de compatibilidad con modelos preentrenados disponibles públicamente, o requieren un excesivo proceso de ajuste fino en numerosos parámetros, o no logran mantener una alta fidelidad facial.

Para abordar estos desafíos y mejorar aún más las capacidades de generación de imágenes, en este artículo, hablaremos sobre InstantID, una solución basada en el modelo de difusión para la generación de imágenes. InstantID es un módulo de plug and play que maneja la generación de imágenes y la personalización de manera hábil en varios estilos con solo una imagen de referencia y también garantiza una alta fidelidad. El objetivo principal de este artículo es brindar a nuestros lectores una comprensión exhaustiva de los fundamentos técnicos y componentes del marco de InstantID, ya que tendremos una visión detallada de la arquitectura del modelo, el proceso de entrenamiento y los escenarios de aplicación. Así que comencemos.

InstantID: Generación de imagen preservadora de identidad en segundos sin disparos

La aparición de modelos de difusión de texto a imagen ha contribuido significativamente al avance de la tecnología de generación de imágenes. El objetivo principal de estos modelos es la generación personalizada y personalizada, y la creación de imágenes con sujeto, estilo y identidad de personaje consistentes utilizando una o más imágenes de referencia. La capacidad de estos marcos para crear imágenes consistentes ha creado aplicaciones potenciales en diferentes industrias, incluyendo animación de imágenes, generación de retratos de inteligencia artificial, comercio electrónico, realidad virtual y aumentada, y mucho más.

Sin embargo, a pesar de sus notables capacidades, estos marcos enfrentan un desafío fundamental: a menudo luchan por generar imágenes personalizadas que preserven los detalles intrincados de los sujetos humanos con precisión. Es digno de destacar que generar imágenes personalizadas con detalles intrincados es una tarea desafiante, ya que la identidad facial humana requiere un grado más alto de fidelidad y detalle, junto con semántica más avanzada en comparación con objetos o estilos generales que se centran principalmente en colores o texturas granulares. Los modelos de imagen a texto existentes dependen de descripciones textuales detalladas y luchan por lograr una fuerte relevancia semántica para la generación de imágenes personalizadas. Además, algunos grandes marcos de imagen a texto preentrenados agregan controles de acondicionamiento espacial para mejorar la controlabilidad, facilitando el control estructural de gran escala utilizando elementos como poses del cuerpo, mapas de profundidad, bocetos dibujados por el usuario, mapas de segmentación semántica y más. Sin embargo, a pesar de estas adiciones y mejoras, estos marcos solo pueden lograr una fidelidad parcial de la imagen generada a la imagen de referencia.

Para superar estos obstáculos, el marco de InstantID se centra en la síntesis de imagen preservadora de identidad instantánea, e intenta bridar la brecha entre la eficiencia y la alta fidelidad al introducir un módulo de plug and play simple que permite al marco manejar la personalización de imágenes utilizando solo una imagen facial mientras mantiene una alta fidelidad. Además, para preservar la identidad facial de la imagen de referencia, el marco de InstantID implementa un codificador de rostro novedoso que retiene los detalles de la imagen intrincados al agregar condiciones espaciales débiles y condiciones semánticas fuertes que guían el proceso de generación de imágenes al incorporar prompts textuales, imágenes de referencia y faciales.

Hay tres características distinguibles que separan el marco de InstantID de los marcos de generación de imágenes de texto a imagen existentes.

Compatibilidad y Conectividad: En lugar de entrenar en parámetros completos del marco de UNet, el marco de InstantID se centra en entrenar un adaptador ligero. Como resultado, el marco de InstantID es compatible y conectable con modelos preentrenados existentes.

Ajuste libre: La metodología del marco de InstantID elimina la necesidad de ajuste fino, ya que solo necesita una propagación hacia adelante única para la inferencia, lo que hace que el modelo sea altamente práctico y económico para el ajuste fino.
Rendimiento superior: El marco de InstantID demuestra una alta flexibilidad y fidelidad, ya que es capaz de entregar un rendimiento de vanguardia utilizando solo una imagen de referencia, comparable a los métodos basados en entrenamiento que confían en múltiples imágenes de referencia.

En general, las contribuciones del marco de InstantID se pueden categorizar en los siguientes puntos.

El marco de InstantID es un método innovador de adaptación de preservación de identidad para modelos de difusión de texto a imagen preentrenados, con el objetivo de bridar la brecha entre la eficiencia y la fidelidad.
El marco de InstantID es compatible y conectable con modelos personalizados ajustados con el mismo modelo de difusión en su arquitectura, lo que permite la preservación de identidad en modelos preentrenados sin costo adicional.

InstantID: Metodología y Arquitectura

Como se mencionó anteriormente, el marco de InstantID es un adaptador ligero eficiente que dota a los modelos de difusión de texto a imagen preentrenados con capacidades de preservación de identidad sin esfuerzo.

Hablando de la arquitectura, el marco de InstantID se basa en el modelo de Stable Diffusion, conocido por su capacidad para realizar el proceso de difusión con alta eficiencia computacional en un espacio latente de baja dimensión en lugar de espacio de píxeles con un autoencoder. Para una imagen de entrada, el codificador primero asigna la imagen a una representación latente con factor de muestreo y dimensiones latentes. Además, para desenoizar un ruido normalmente distribuido con ruido latente, condición y tiempo de paso actual, el proceso de difusión adopta un componente de UNet de desenoización. La condición es una incrustación de prompts textuales que se generan utilizando un codificador de texto preentrenado de CLIP.

Además, el marco de InstantID también utiliza un componente de ControlNet que es capaz de agregar control espacial a un modelo de difusión preentrenado como su condición, extendiéndose mucho más allá de las capacidades tradicionales de los prompts textuales. El componente de ControlNet también integra la arquitectura de UNet del marco de Stable Diffusion utilizando una réplica entrenada del componente de UNet. La réplica del componente de UNet cuenta con cero capas de convolución dentro de los bloques intermedios y los bloques del codificador. A pesar de sus similitudes, el componente de ControlNet se distingue del modelo de Stable Diffusion; ambos difieren en el último elemento residual. El componente de ControlNet codifica información de condición espacial como poses, mapas de profundidad, bocetos y más al agregar los residuos a los bloques de UNet, y luego incrusta estos residuos en la red original.

El marco de InstantID también se inspira en IP-Adapter o Image Prompt Adapter que introduce un enfoque novedoso para lograr capacidades de prompt de imagen que funcionan en paralelo con los prompts textuales sin requerir modificar los modelos de texto a imagen originales. El componente de IP-Adapter también emplea una estrategia de atención cruzada desacoplada única que utiliza capas de atención cruzada adicionales para incrustar las características de la imagen mientras deja los demás parámetros sin cambios.

Metodología

Para darte una visión general, el marco de InstantID apunta a generar imágenes personalizadas con diferentes estilos o poses utilizando solo una imagen de referencia con alta fidelidad. La siguiente figura proporciona una visión general del marco de InstantID.

Como se puede observar, el marco de InstantID tiene tres componentes esenciales:

Un componente de incrustación de ID que captura información semántica robusta de las características faciales en la imagen.
Un módulo de adaptación ligero con un componente de atención cruzada desacoplada para facilitar el uso de una imagen como prompt visual.
Un componente de IdentityNet que codifica las características detalladas de la imagen de referencia utilizando un control espacial adicional.

Incrustación de ID

A diferencia de los métodos existentes como FaceStudio, PhotoMaker, IP-Adapter y más que confían en un codificador de imagen preentrenado de CLIP para extraer prompts visuales, el marco de InstantID se centra en una fidelidad mejorada y detalles semánticos más fuertes en la tarea de preservación de identidad. Es digno de destacar que las limitaciones inherentes del componente de CLIP radican principalmente en su proceso de entrenamiento en datos débilmente alineados, lo que significa que las características codificadas del codificador de CLIP capturan principalmente información semántica amplia y ambigua, como colores, estilo y composición. Aunque estas características pueden actuar como un suplemento general para las incrustaciones de texto, no son adecuadas para tareas de preservación de identidad precisas que ponen énfasis en semántica fuerte y alta fidelidad. Además, la investigación reciente en modelos de representación facial, especialmente en torno al reconocimiento facial, ha demostrado la eficiencia de la representación facial en tareas complejas que incluyen reconstrucción y reconocimiento facial. Basándose en esto, el marco de InstantID apunta a aprovechar un modelo de rostro preentrenado para detectar y extraer incrustaciones de ID de la imagen de referencia, guiando al modelo para la generación de imágenes.

Adaptador de imagen

La capacidad de los modelos de difusión de texto a imagen preentrenados en tareas de prompt de imagen mejora significativamente los prompts textuales, especialmente para escenarios que no se pueden describir adecuadamente con los prompts textuales. El marco de InstantID adopta una estrategia similar a la utilizada por el modelo de IP-Adapter para el prompt de imagen, que introduce un módulo de adaptación ligero emparejado con un componente de atención cruzada desacoplada para admitir imágenes como prompts de entrada. Sin embargo, a diferencia de las incrustaciones de CLIP alineadas de manera tosca, el marco de InstantID se desvía al emplear incrustaciones de ID como prompts de imagen en un intento de lograr una integración de prompt más rica y sutil semánticamente.

IdentityNet

Aunque los métodos existentes son capaces de integrar los prompts de imagen con prompts textuales, el marco de InstantID argumenta que estos métodos solo mejoran las características de grano grueso con un nivel de integración que es insuficiente para la generación de imágenes que preservan la identidad. Además, agregar los tokens de imagen y texto en capas de atención cruzada directamente tiende a debilitar el control de los tokens de texto, y un intento de mejorar la fuerza de los tokens de imagen puede resultar en dañar las capacidades de los tokens de texto en tareas de edición. Para contrarrestar estos desafíos, el marco de InstantID opta por ControlNet, un método de incrustación de características alternativo que utiliza información espacial como entrada para el módulo controlable, lo que le permite mantener la consistencia con los ajustes de UNet en los modelos de difusión.

El marco de InstantID realiza dos cambios en la arquitectura tradicional de ControlNet: para entradas condicionales, el marco de InstantID opta por 5 puntos clave faciales en lugar de puntos clave faciales de OpenPose de grano fino. En segundo lugar, el marco de InstantID utiliza incrustaciones de ID en lugar de prompts textuales como condiciones para las capas de atención cruzada en la arquitectura de ControlNet.

Entrenamiento e Inferencia

Durante la fase de entrenamiento, el marco de InstantID optimiza los parámetros de IdentityNet y el Adaptador de imagen mientras congela los parámetros del modelo de difusión preentrenado. La tubería completa de InstantID se entrena en pares de imagen-texto que presentan sujetos humanos y emplea un objetivo de entrenamiento similar al utilizado en el marco de difusión estable con condiciones de imagen específicas de la tarea. El destacado del método de entrenamiento de InstantID es la separación entre las capas de atención cruzada de imagen y texto dentro del adaptador de prompt de imagen, una elección que permite al marco de InstantID ajustar los pesos de estas condiciones de imagen de manera flexible y de forma independiente, lo que garantiza un proceso de inferencia y entrenamiento más dirigido y controlado.

InstantID: Experimentos y Resultados

El marco de InstantID implementa el modelo de Stable Diffusion y lo entrena en LAION-Face, un conjunto de datos de gran escala y abierto que consta de más de 50 millones de pares de imagen-texto. Además, el marco de InstantID recopila más de 10 millones de imágenes humanas con automatización generadas automáticamente por el modelo de BLIP2 para mejorar aún más la calidad de la generación de imágenes. El marco de InstantID se centra principalmente en imágenes de una sola persona y emplea un modelo de rostro preentrenado para detectar y extraer incrustaciones de ID de las imágenes humanas, y en lugar de entrenar los conjuntos de datos de rostro recortados, entrena las imágenes humanas originales. Además, durante el entrenamiento, el marco de InstantID congela el modelo de texto a imagen preentrenado y solo actualiza los parámetros de IdentityNet y el Adaptador de imagen.

Generación de imagen solo

El modelo de InstantID utiliza un prompt vacío para guiar el proceso de generación de imágenes utilizando solo la imagen de referencia, y los resultados sin los prompts se demuestran en la siguiente imagen.

La generación de ‘prompt vacío’ como se demuestra en la imagen anterior demuestra la capacidad del marco de InstantID para mantener características faciales semánticas ricas como identidad, edad y expresión de manera robusta. Sin embargo, es digno de destacar que utilizar prompts vacíos puede no ser capaz de replicar los resultados en otras semánticas como el género con precisión. Además, en la imagen anterior, las columnas 2 a 4 utilizan una imagen y un prompt, y como se puede ver, la imagen generada no demuestra ninguna degradación en las capacidades de control de texto, y también garantiza la consistencia de la identidad. Finalmente, las columnas 5 a 9 utilizan una imagen, un prompt y un control espacial, demostrando la compatibilidad del modelo con modelos de control espacial preentrenados que permiten al modelo de InstantID introducir controles espaciales de manera flexible utilizando un componente de ControlNet preentrenado.

También es digno de destacar que la cantidad de imágenes de referencia tiene un impacto significativo en la imagen generada, como se demuestra en la imagen anterior. Aunque el marco de InstantID es capaz de entregar buenos resultados utilizando una sola imagen de referencia, múltiples imágenes de referencia producen una imagen de mejor calidad, ya que el marco de InstantID toma el promedio de las incrustaciones de ID como prompt de imagen. Continuando, es esencial comparar el marco de InstantID con los métodos anteriores que generan imágenes personalizadas utilizando una sola imagen de referencia. La siguiente figura compara los resultados generados por el marco de InstantID y los modelos de estado del arte existentes para la generación de imágenes personalizadas con una sola referencia.

Como se puede ver, el marco de InstantID es capaz de preservar las características faciales gracias a que la incrustación de ID inherentemente lleva información semántica rica, como identidad, edad y género. Sería seguro decir que el marco de InstantID supera a los marcos existentes en la generación de imágenes personalizadas, ya que es capaz de preservar la identidad humana mientras mantiene el control y la flexibilidad estilística.

Pensamientos finales

En este artículo, hemos hablado sobre InstantID, una solución basada en el modelo de difusión para la generación de imágenes. InstantID es un módulo de plug and play que maneja la generación de imágenes y la personalización de manera hábil en varios estilos con solo una imagen de referencia y también garantiza una alta fidelidad. El marco de InstantID se centra en la síntesis de imagen preservadora de identidad instantánea, e intenta bridar la brecha entre la eficiencia y la alta fidelidad al introducir un módulo de plug and play simple que permite al marco manejar la personalización de imágenes utilizando solo una imagen facial mientras mantiene una alta fidelidad.

Kunal Kejriwal

Un ingeniero por profesión, un escritor por corazón. Kunal es un escritor técnico con un profundo amor y comprensión de la IA y el ML, dedicado a simplificar conceptos complejos en estos campos a través de su documentación atractiva e informativa.