Ángulo de Anderson

Extrayendo datos de entrenamiento de modelos de difusión estables afinados

mm
Examples of training images (below), extracted from a trained model (above). Source: https://arxiv.org/pdf/2410.03039

Nueva investigación de EE. UU. presenta un método para extraer porciones significativas de datos de entrenamiento de modelos afinados.

Esto podría proporcionar potencialmente pruebas legales en casos donde se ha copiado el estilo de un artista o se han utilizado imágenes con derechos de autor para entrenar modelos generativos de figuras públicas, personajes protegidos por derechos de autor u otro contenido.

Del nuevo documento: las imágenes de entrenamiento originales se ven en la fila superior, y las imágenes extraídas se muestran en la fila inferior. Fuente: https://arxiv.org/pdf/2410.03039

Del nuevo documento: las imágenes de entrenamiento originales se ven en la fila superior, y las imágenes extraídas se muestran en la fila inferior. Fuente: https://arxiv.org/pdf/2410.03039

Tales modelos están ampliamente disponibles en Internet, principalmente a través de los enormes archivos contribuidos por los usuarios de civit.ai, y, en menor medida, en la plataforma de repositorio Hugging Face.

El nuevo modelo desarrollado por los investigadores se llama FineXtract, y los autores afirman que logra resultados de vanguardia en esta tarea.

El documento observa:

‘[Nuestro marco de trabajo] aborda efectivamente el desafío de extraer datos de afinación de puntos de control de difusión disponibles públicamente. Al aprovechar la transición de las distribuciones de difusión preentrenadas a las distribuciones de datos de afinación, FineXtract guía con precisión el proceso de generación hacia regiones de alta probabilidad de la distribución de datos de afinación, lo que permite una extracción de datos exitosa.’

En el extremo derecho, la imagen original utilizada en el entrenamiento. En el segundo lugar desde la derecha, la imagen extraída a través de FineXtract. Las otras columnas representan métodos alternativos anteriores.

En el extremo derecho, la imagen original utilizada en el entrenamiento. En el segundo lugar desde la derecha, la imagen extraída a través de FineXtract. Las otras columnas representan métodos alternativos anteriores. Por favor, consulte el documento fuente para una mejor resolución.

Por qué es importante

Los modelos entrenados originalmente para sistemas generativos de texto a imagen como Stable Diffusion y Flux se pueden descargar y afinar por los usuarios finales, utilizando técnicas como la implementación DreamBooth de 2022.

Es aún más fácil, el usuario puede crear un modelo LoRA mucho más pequeño que es casi tan efectivo como un modelo completamente afinado.

Un ejemplo de un LoRA entrenado, ofrecido para descarga gratuita en el sitio muy popular Civitai. Tal modelo se puede crear en cualquier cosa, desde minutos hasta unas pocas horas, por entusiastas que utilizan software de código abierto instalado localmente – y en línea, a través de algunos de los sistemas de entrenamiento más permisivos basados en API. Fuente: civitai.com

Un ejemplo de un LoRA entrenado, ofrecido para descarga gratuita en el sitio muy popular Civitai. Tal modelo se puede crear en cualquier cosa, desde minutos hasta unas pocas horas, por entusiastas que utilizan software de código abierto instalado localmente – y en línea, a través de algunos de los sistemas de entrenamiento más permisivos basados en API. Fuente: civitai.com

Desde 2022, ha sido trivial crear puntos de control de afinación y LoRAs específicos de identidad, proporcionando solo un pequeño número (en promedio 5-50) de imágenes con subtítulos, y entrenando el punto de control (o LoRA) localmente, en un marco de código abierto como Kohya ss, o utilizando servicios en línea.

Este método fácil de deepfaking ha alcanzado notoriedad en los medios en los últimos años. Muchos artistas también han visto su trabajo ingerido en modelos generativos que replican su estilo. La controversia en torno a estos temas ha ganado impulso en los últimos 18 meses.

La facilidad con la que los usuarios pueden crear sistemas de IA que replican el trabajo de artistas reales ha causado furor y diversas campañas en los últimos dos años. Fuente: https://www.technologyreview.com/2022/09/16/1059598/this-artist-is-dominating-ai-generated-art-and-hes-not-happy-about-it/

La facilidad con la que los usuarios pueden crear sistemas de IA que replican el trabajo de artistas reales ha causado furor y diversas campañas en los últimos dos años. Fuente: https://www.technologyreview.com/2022/09/16/1059598/this-artist-is-dominating-ai-generated-art-and-hes-not-happy-about-it/

Es difícil probar qué imágenes se utilizaron en un punto de control de afinación o en un LoRA, ya que el proceso de generalización ‘abstrae’ la identidad de los pequeños conjuntos de datos de entrenamiento, y no es probable que reproduzca ejemplos del conjunto de datos de entrenamiento (excepto en el caso de sobreajuste, donde se puede considerar que el entrenamiento ha fallado).

Es aquí donde FineXtract entra en escena. Al comparar el estado del ‘modelo de difusión de plantilla’ que el usuario descargó con el modelo que creó posteriormente a través de afinación o LoRA, los investigadores han podido crear reconstrucciones muy precisas de los datos de entrenamiento.

Aunque FineXtract solo ha podido recrear el 20% de los datos de un ajuste fino*, esto es más de lo que normalmente se necesitaría para proporcionar pruebas de que el usuario utilizó material protegido por derechos de autor o prohibido en la producción de un modelo generativo. En la mayoría de los ejemplos proporcionados, la imagen extraída es extremadamente similar al material fuente conocido.

Mientras que se necesitan subtítulos para extraer las imágenes fuente, esto no es un obstáculo significativo por dos razones: a) el que sube generalmente quiere facilitar el uso del modelo entre una comunidad y generalmente proporcionará ejemplos de subtítulos apropiados; y b) no es tan difícil, según encontraron los investigadores, extraer los términos clave de manera ciega del modelo afinado:

Las palabras clave esenciales generalmente se pueden extraer ciegamente del modelo afinado utilizando un ataque L2-PGD durante 1000 iteraciones, a partir de una promoción aleatoria.

Las palabras clave esenciales generalmente se pueden extraer ciegamente del modelo afinado utilizando un ataque L2-PGD durante 1000 iteraciones, a partir de una promoción aleatoria.

Los usuarios a menudo evitan hacer que sus conjuntos de datos de entrenamiento estén disponibles junto con el modelo entrenado ‘de caja negra’. Para la investigación, los autores colaboraron con entusiastas de aprendizaje automático que sí proporcionaron conjuntos de datos.

El nuevo documento se titula Revelando lo invisible: guiando modelos de difusión personalizados para exponer datos de entrenamiento, y proviene de tres investigadores de las universidades Carnegie Mellon y Purdue.

Método

El ‘atacante’ (en este caso, el sistema FineXtract) compara las distribuciones de datos estimadas en el modelo original y el modelo afinado, en un proceso que los autores llaman ‘guiado de modelo’.

A través del 'guiado de modelo', desarrollado por los investigadores del nuevo documento, se pueden mapear las características de afinación, lo que permite la extracción de los datos de entrenamiento.

A través del ‘guiado de modelo’, desarrollado por los investigadores del nuevo documento, se pueden mapear las características de afinación, lo que permite la extracción de los datos de entrenamiento.

Los autores explican:

‘Durante el proceso de afinación, los [modelos de difusión] cambian progresivamente su distribución aprendida de las distribuciones preentrenadas de los [modelos de difusión] hacia la distribución de datos de afinación.

‘Así, aproximamos paramétricamente la distribución aprendida de los [modelos de difusión] afinados.’

De esta manera, la suma de la diferencia entre los modelos básico y afinado proporciona el proceso de guiado.

Los autores comentan además:

‘Con el guiado de modelo, podemos simular efectivamente un “seudo-”[desenoizador], que se puede utilizar para dirigir el proceso de muestreo hacia la región de alta probabilidad dentro de la distribución de datos de afinación.’

El guiado depende en parte de un proceso de ruido variable en el tiempo similar al outing Erasing Concepts from Diffusion Models de 2023.

La predicción de desenoización también proporciona una escala de Guiado de clasificador libre (CFG) probable. Esto es importante, ya que el CFG afecta significativamente la calidad de la imagen y la fidelidad a la promoción de texto del usuario.

Para mejorar la precisión de las imágenes extraídas, FineXtract se basa en la aclamada colaboración Extrayendo datos de entrenamiento de modelos de difusión de 2023. El método utilizado es calcular la similitud de cada par de imágenes generadas, en función de un umbral definido por la Descriptor auto-supervisado (SSCD) puntuación.

De esta manera, el algoritmo de clustering ayuda a FineXtract a identificar el subconjunto de imágenes extraídas que se ajustan a los datos de entrenamiento.

En este caso, los investigadores colaboraron con usuarios que habían hecho que los datos estuvieran disponibles. Se podría decir razonablemente que, ausentes de tales datos, sería imposible probar que una imagen generada en particular se utilizó realmente en el entrenamiento original. Sin embargo, ahora es relativamente trivial emparejar imágenes subidas con imágenes en vivo en la web o con imágenes que también están en conjuntos de datos conocidos y publicados, basándose únicamente en el contenido de la imagen.

Datos y pruebas

Para probar FineXtract, los autores realizaron experimentos en modelos de afinación con pocos disparos en los dos escenarios de afinación más comunes, dentro del alcance del proyecto: estilos artísticos y generación impulsada por objetos (la última efectivamente abarcando sujetos basados en caras).

Seleccionaron aleatoriamente 20 artistas (cada uno con 10 imágenes) del conjunto de datos WikiArt y 30 sujetos (cada uno con 5-6 imágenes) del conjunto de datos DreamBooth, para abordar estos escenarios respectivos.

DreamBooth y LoRA fueron los métodos de afinación objetivo, y se utilizó Stable Diffusion V1/.4 para las pruebas.

Si el algoritmo de clustering no devolvía resultados después de treinta segundos, se modificó el umbral hasta que se devolvieron imágenes.

Las dos métricas utilizadas para las imágenes generadas fueron la similitud promedio (AS) bajo SSCD y la tasa de extracción promedio de éxito (A-ESR) – una medida ampliamente en línea con trabajos anteriores, donde una puntuación de 0,7 representa el mínimo para denotar una extracción completamente exitosa de los datos de entrenamiento.

Como los enfoques anteriores han utilizado generación de texto a imagen directa o CFG, los investigadores compararon FineXtract con estos dos métodos.

Resultados de las comparaciones de FineXtract con los dos métodos anteriores más populares.

Resultados de las comparaciones de FineXtract con los dos métodos anteriores más populares.

Los autores comentan:

‘Los [resultados] demuestran una ventaja significativa de FineXtract sobre los métodos anteriores, con una mejora de aproximadamente 0,02 a 0,05 en AS y un doble de la A-ESR en la mayoría de los casos.’

Para probar la capacidad del método para generalizar a datos nuevos, los investigadores realizaron una prueba adicional, utilizando Stable Diffusion (V1.4), Stable Diffusion XL y AltDiffusion.

FineXtract aplicado en una variedad de modelos de difusión. Para el componente WikiArt, la prueba se centró en cuatro clases en WikiArt.

FineXtract aplicado en una variedad de modelos de difusión. Para el componente WikiArt, la prueba se centró en cuatro clases en WikiArt.

Como se ve en los resultados mostrados arriba, FineXtract logró una mejora sobre los métodos anteriores también en esta prueba más amplia.

Una comparación cualitativa de los resultados extraídos de FineXtract y enfoques anteriores. Por favor, consulte el documento fuente para una mejor resolución.

Una comparación cualitativa de los resultados extraídos de FineXtract y enfoques anteriores. Por favor, consulte el documento fuente para una mejor resolución.

Los autores observan que cuando se utiliza un número mayor de imágenes en el conjunto de datos para un modelo afinado, el algoritmo de clustering necesita ejecutarse durante un período de tiempo más largo para seguir siendo efectivo.

Además, observan que se han desarrollado una variedad de métodos en los últimos años diseñados para impedir este tipo de extracción, bajo el auspicio de la protección de la privacidad. Por lo tanto, probaron FineXtract contra datos aumentados por los métodos Cutout y RandAugment.

Una comparación cualitativa de los resultados extraídos de FineXtract y enfoques anteriores. Por favor, consulte el documento fuente para una mejor resolución.

FineXtract frente a imágenes protegidas por Cutout y RandAugment.

Mientras que los autores admiten que los dos sistemas de protección funcionan bastante bien para ocultar las fuentes de los datos de entrenamiento, señalan que esto se logra a costa de una disminución en la calidad de la salida tan severa que hace que la protección sea inútil:

Imágenes producidas bajo Stable Diffusion V1.4, afinadas con medidas defensivas – que reducen drásticamente la calidad de la imagen.

Imágenes producidas bajo Stable Diffusion V1.4, afinadas con medidas defensivas – que reducen drásticamente la calidad de la imagen. Por favor, consulte el documento fuente para una mejor resolución.

El documento concluye:

‘Nuestros experimentos demuestran la robustez del método en varios conjuntos de datos y puntos de control del mundo real, destacando los riesgos potenciales de fugas de datos y proporcionando pruebas sólidas de infracciones de derechos de autor.’

Conclusión

2024 ha demostrado ser el año en que el interés de las corporaciones en ‘datos de entrenamiento limpios’ aumentó significativamente, frente a la cobertura continua de los medios sobre la capacidad de la IA para reemplazar a los humanos y la perspectiva de proteger legalmente los modelos generativos que están tan ansiosos por explotar.

Es fácil afirmar que sus datos de entrenamiento son limpios, pero también es cada vez más fácil para tecnologías similares demostrar que no lo son – como Runway ML, Stability.ai y MidJourney (entre otros) han descubierto en los últimos días.

Proyectos como FineXtract son, en cierto sentido, portentos del fin absoluto de la era ‘del oeste salvaje’ de la IA, donde incluso la naturaleza aparentemente oculta de un espacio latente entrenado podría ser llevada a juicio.

 

* Para fines de conveniencia, asumiremos ‘afinación y LoRA’ cuando sea necesario.

Publicado por primera vez el lunes 7 de octubre de 2024

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.