Ángulo de Anderson
La Lucha por la Personalización de Zero-Shot en la Inteligencia Artificial Generativa

Si deseas colocarte en una herramienta de generación de imágenes o videos populares, pero no eres lo suficientemente famoso como para que el modelo base te reconozca, necesitarás entrenar un modelo de adaptación de bajo rango (LoRA) utilizando una colección de tus propias fotos. Una vez creado, este modelo LoRA personalizado permite que el modelo generativo incluya tu identidad en las salidas futuras.
Esto se conoce comúnmente como personalización en el sector de investigación de síntesis de imágenes y videos. Emergió por primera vez unos meses después del advenimiento de la Difusión Estable en el verano de 2022, con el proyecto DreamBooth de Google Research, que ofreció modelos de personalización de varios gigabytes, en un esquema de código cerrado que pronto fue adaptado por entusiastas y lanzado a la comunidad.
Los modelos LoRA siguieron rápidamente y ofrecieron un entrenamiento más fácil y tamaños de archivo mucho más ligeros, con un costo mínimo o nulo en la calidad, dominando rápidamente la escena de personalización para la Difusión Estable y sus sucesores, como Flux, y ahora nuevos modelos de video generativos como Hunyuan Video y Wan 2.1.
Lavar y Repetir
El problema es que, como hemos señalado antes, cada vez que sale un nuevo modelo, se necesita una nueva generación de LoRAs para entrenar, lo que representa una fricción considerable para los productores de LoRA, que pueden entrenar una serie de modelos personalizados solo para descubrir que una actualización del modelo o un modelo más nuevo popular significa que deben empezar de nuevo.
Por lo tanto, los enfoques de personalización de zero-shot se han convertido en una corriente fuerte en la literatura últimamente. En este escenario, en lugar de necesitar curar un conjunto de datos y entrenar su propio submodelo, simplemente suministra una o más fotos del sujeto que se va a inyectar en la generación, y el sistema interpreta estas fuentes de entrada en una salida combinada.
A continuación, vemos que, además de la sustitución de caras, un sistema de este tipo (aquí utilizando PuLID) también puede incorporar valores de ID en la transferencia de estilo:

Ejemplos de transferencia de ID facial utilizando el sistema PuLID. Fuente: https://github.com/ToTheBeginning/PuLID?tab=readme-ov-file
Mientras que reemplazar un sistema laborioso y frágil como LoRA con un adaptador genérico es una idea excelente (y popular), también es desafiante; el detalle extremo y la cobertura obtenidos en el proceso de entrenamiento de LoRA son muy difíciles de imitar en un modelo de estilo IP-Adapter de un solo disparo, que debe coincidir con el nivel de detalle y flexibilidad de LoRA sin la ventaja previa de analizar un conjunto integral de imágenes de identidad.
HyperLoRA
Con esto en mente, hay un papel interesante nuevo de ByteDance que propone un sistema que genera código LoRA real en tiempo de vuelo, que es actualmente único entre las soluciones de zero-shot:

A la izquierda, imágenes de entrada. A la derecha de eso, una gama flexible de salida basada en las imágenes de entrada, produciendo efectivamente deepfakes de los actores Anthony Hopkins y Anne Hathaway. Fuente: https://arxiv.org/pdf/2503.16944
