Inteligencia artificial

Extrayendo datos de entrenamiento de modelos de difusión estable afinados

Published October 7, 2024

Updated April 27, 2026

Martin Anderson

Examples of training images (below), extracted from a trained model (above). Source: https://arxiv.org/pdf/2410.03039

Nueva investigación en EE. UU. presenta un método para extraer porciones significativas de datos de entrenamiento de modelos afinados.

Esto podría proporcionar potencialmente pruebas legales en casos donde se ha copiado el estilo de un artista, o donde se han utilizado imágenes con derechos de autor para entrenar modelos generativos de figuras públicas, personajes protegidos por propiedad intelectual o otro contenido.

De la nueva publicación: las imágenes de entrenamiento originales se ven en la fila superior, y las imágenes extraídas se muestran en la fila inferior. Fuente: https://arxiv.org/pdf/2410.03039

Estos modelos están ampliamente disponibles en Internet, principalmente a través de los enormes archivos contribuidos por los usuarios de civit.ai, y, en menor medida, en la plataforma de repositorio Hugging Face.

El nuevo modelo desarrollado por los investigadores se llama FineXtract, y los autores sostienen que logra resultados de estado del arte en esta tarea.

El documento observa:

‘[Nuestro marco] aborda efectivamente el desafío de extraer datos de afinación de puntos de control de difusión disponibles públicamente. Al aprovechar la transición desde las distribuciones preentrenadas de DM a las distribuciones de datos de afinación, FineXtract guía con precisión el proceso de generación hacia regiones de alta probabilidad de la distribución de datos de afinación, lo que permite una extracción de datos exitosa.’

A la derecha, la imagen original utilizada en el entrenamiento. Segunda desde la derecha, la imagen extraída a través de FineXtract. Las otras columnas representan métodos alternativos anteriores. Consulte el documento fuente para una mejor resolución.

Por qué es importante

Los modelos entrenados originales para sistemas generativos de texto a imagen como Stable Diffusion y Flux se pueden descargar y afinar por los usuarios finales, utilizando técnicas como la implementación DreamBooth de 2022.

Es aún más fácil que el usuario cree un modelo LoRA más pequeño que es casi tan efectivo como un modelo completamente afinado.

Un ejemplo de un modelo LoRA entrenado, ofrecido para descarga gratuita en el sitio muy popular Civitai. Tal modelo se puede crear en cualquier cosa, desde minutos hasta unas horas, por entusiastas que utilizan software de código abierto instalado localmente, y en línea, a través de algunos de los sistemas de entrenamiento más permisivos basados en API. Fuente: civitai.com

Un ejemplo de un modelo LoRA entrenado, ofrecido para descarga gratuita en el dominio Civitai. Tal modelo se puede crear en cualquier cosa, desde minutos hasta unas horas, por entusiastas que utilizan software de código abierto instalado localmente, y en línea, a través de algunos de los sistemas de entrenamiento más permisivos basados en API. Fuente: civitai.com

Desde 2022, ha sido trivial crear puntos de control de afinación y LoRAs específicos de identidad, proporcionando solo un pequeño número (en promedio 5-50) de imágenes con subtítulos, y entrenando el punto de control (o LoRA) localmente, en un marco de código abierto como Kohya ss, o utilizando servicios en línea.

Este método fácil de falsificación profunda ha alcanzado notoriedad en los medios en los últimos años. Muchos artistas también han visto cómo su trabajo se ingiere en modelos generativos que replican su estilo. La controversia en torno a estos temas ha ganado impulso en los últimos 18 meses.

La facilidad con la que los usuarios pueden crear sistemas de IA que replican el trabajo de artistas reales ha causado furor y diversas campañas en los últimos dos años. Fuente: https://www.technologyreview.com/2022/09/16/1059598/this-artist-is-dominating-ai-generated-art-and-hes-not-happy-about-it/

Es difícil probar qué imágenes se utilizaron en un punto de control afinado o en un LoRA, ya que el proceso de generalización ‘abstrae’ la identidad de los conjuntos de datos de entrenamiento pequeños, y no es probable que reproduzca ejemplos del conjunto de datos de entrenamiento (excepto en el caso de sobreajuste, donde se puede considerar que el entrenamiento ha fallado).

Aquí es donde entra en juego FineXtract. Al comparar el estado del modelo de difusión ‘plantilla’ que el usuario descargó con el modelo que creó posteriormente a través de la afinación o a través de LoRA, los investigadores han podido crear reconstrucciones muy precisas de los datos de entrenamiento.

Aunque FineXtract solo ha podido recrear el 20% de los datos de un ajuste fino*, esto es más de lo que normalmente se necesitaría para proporcionar pruebas de que el usuario utilizó material con derechos de autor o protegido de otra manera en la producción de un modelo generativo. En la mayoría de los ejemplos proporcionados, la imagen extraída es extremadamente similar al material fuente conocido.

Si bien las leyendas son necesarias para extraer las imágenes de origen, esto no es una barrera significativa por dos razones: a) el que sube el archivo generalmente quiere facilitar el uso del modelo entre una comunidad y normalmente proporcionará ejemplos de texto apropiados; y b) no es tan difícil, según encontraron los investigadores, extraer los términos clave ciegamente del modelo afinado:

Las palabras clave esenciales generalmente se pueden extraer ciegamente del modelo afinado utilizando un ataque L2-PGD durante 1000 iteraciones, a partir de un texto aleatorio.

Los usuarios frecuentemente evitan hacer que sus conjuntos de datos de entrenamiento estén disponibles junto con el modelo entrenado ‘de caja negra’. Para la investigación, los autores colaboraron con entusiastas de la inteligencia artificial que realmente proporcionaron conjuntos de datos.

El nuevo documento se titula Revelando lo invisible: guiando modelos de difusión personalizados para exponer los datos de entrenamiento, y proviene de tres investigadores de las universidades de Carnegie Mellon y Purdue.

Método

El ‘atacante’ (en este caso, el sistema FineXtract) compara las distribuciones de datos estimadas en el modelo original y el modelo afinado, en un proceso que los autores denominan ‘orientación del modelo’.

A través de la ‘orientación del modelo’, desarrollada por los investigadores del nuevo documento, se pueden mapear las características de afinación, lo que permite la extracción de los datos de entrenamiento.

Los autores explican:

‘Durante el proceso de afinación, los [modelos de difusión] progresivamente desplazan su distribución aprendida desde la [distribución] de los modelos de difusión preentrenados hacia la [distribución] de los datos de afinación.

‘Así, aproximamos paramétricamente la [distribución] aprendida de los [modelos de difusión] afinados.’

De esta manera, la suma de la diferencia entre los modelos central y afinado proporciona el proceso de orientación.

Los autores comentan además:

‘Con la orientación del modelo, podemos simular efectivamente un “seudo-”[desenoizador], que se puede utilizar para dirigir el proceso de muestreo hacia la región de alta probabilidad dentro de la distribución de datos de afinación.’

La orientación se basa en parte en un proceso de ruido variable en el tiempo similar al outing Erasing Concepts from Diffusion Models de 2023.

La predicción de desenoizado obtenida también proporciona una escala de orientación de clasificador libre (CFG) probable. Esto es importante, ya que CFG afecta significativamente la calidad de la imagen y la fidelidad a la solicitud de texto del usuario.

Para mejorar la precisión de las imágenes extraídas, FineXtract se basa en la aclamada colaboración Extraer datos de entrenamiento de modelos de difusión de 2023. El método utilizado es calcular la similitud de cada par de imágenes generadas, basándose en un umbral definido por la puntuación Descriptor auto-supervisado (SSCD).

De esta manera, el algoritmo de clustering ayuda a FineXtract a identificar el subconjunto de imágenes extraídas que se ajustan a los datos de entrenamiento.

En este caso, los investigadores colaboraron con usuarios que habían hecho que los datos estuvieran disponibles. Se podría decir razonablemente que, ausentes dichos datos, sería imposible probar que alguna imagen generada en particular se utilizó realmente en el entrenamiento original. Sin embargo, ahora es relativamente trivial emparejar imágenes subidas con imágenes en vivo en la web, o con imágenes que también se encuentran en conjuntos de datos publicados y conocidos, basándose únicamente en el contenido de la imagen.

Datos y pruebas

Para probar FineXtract, los autores realizaron experimentos en modelos afinados con pocos ejemplos a través de los dos escenarios de afinación más comunes, dentro del alcance del proyecto: estilos artísticos, y generación impulsada por objetos (la última abarcando efectivamente sujetos basados en caras).

Seleccionaron aleatoriamente 20 artistas (cada uno con 10 imágenes) del conjunto de datos WikiArt, y 30 sujetos (cada uno con 5-6 imágenes) del conjunto de datos DreamBooth, para abordar estos escenarios respectivos.

DreamBooth y LoRA fueron los métodos de afinación objetivo, y se utilizó Stable Diffusion V1/.4 para las pruebas.

Si el algoritmo de clustering no devolvía resultados después de treinta segundos, se modificaba el umbral hasta que se devolvieran imágenes.

Las dos métricas utilizadas para las imágenes generadas fueron Similitud Promedio (AS) bajo SSCD, y Tasa de Éxito de Extracción Promedio (A-ESR) – una medida ampliamente en línea con trabajos anteriores, donde una puntuación de 0,7 representa el mínimo para denotar una extracción completamente exitosa de los datos de entrenamiento.

Dado que los enfoques anteriores han utilizado generación de texto a imagen directa o CFG, los investigadores compararon FineXtract con estos dos métodos.

Resultados de las comparaciones de FineXtract con los dos métodos anteriores más populares.

Los autores comentan:

‘Los [resultados] demuestran una ventaja significativa de FineXtract sobre los métodos anteriores, con una mejora de aproximadamente 0,02 a 0,05 en AS y un doble de la A-ESR en la mayoría de los casos.’

Para probar la capacidad del método para generalizar en datos nuevos, los investigadores realizaron una prueba adicional, utilizando Stable Diffusion (V1.4), Stable Diffusion XL, y AltDiffusion.

FineXtract aplicado en una variedad de modelos de difusión. Para el componente WikiArt, la prueba se centró en cuatro clases en WikiArt.

Como se ve en los resultados mostrados arriba, FineXtract logró una mejora sobre los métodos anteriores también en esta prueba más amplia.

Una comparación cualitativa de los resultados extraídos de FineXtract y enfoques anteriores. Consulte el documento fuente para una mejor resolución.

Los autores observan que cuando se utiliza un número mayor de imágenes en el conjunto de datos para un modelo afinado, el algoritmo de clustering necesita ejecutarse durante un período de tiempo más largo para seguir siendo efectivo.

También observan que se han desarrollado una variedad de métodos en los últimos años diseñados para impedir este tipo de extracción, bajo el auspicio de la protección de la privacidad. Por lo tanto, probaron FineXtract contra datos aumentados por los métodos Cutout y RandAugment.

FineXtract’s desempeño contra imágenes protegidas; por Cutout y RandAugment.

Aunque los autores admiten que los dos sistemas de protección funcionan bastante bien para ofuscar las fuentes de los datos de entrenamiento, señalan que esto se logra a costa de una disminución en la calidad de salida tan severa que hace que la protección sea inútil:

Imágenes producidas bajo Stable Diffusion V1.4, afinadas con medidas defensivas – que reducen drásticamente la calidad de la imagen. Consulte el documento fuente para una mejor resolución.

El documento concluye:

‘Nuestros experimentos demuestran la robustez del método en varios conjuntos de datos y puntos de control del mundo real, destacando los riesgos potenciales de filtración de datos y proporcionando pruebas sólidas de infracciones de derechos de autor.’

Conclusión

2024 ha demostrado ser el año en que el interés de las corporaciones en ‘datos de entrenamiento limpios’ aumentó significativamente, frente a la continua cobertura mediática de la capacidad de la IA para reemplazar a los humanos, y la perspectiva de proteger legalmente los modelos generativos que ellos mismos están tan ansiosos por explotar.

Es fácil afirmar que sus datos de entrenamiento son limpios, pero también es cada vez más fácil para tecnologías similares demostrar que no lo son – como Runway ML, Stability.ai y MidJourney (entre otros) han descubierto en los últimos días.

Proyectos como FineXtract son arguablemente presagios del fin absoluto de la era ‘salvaje oeste’ de la IA, donde incluso la naturaleza aparentemente oculta de un espacio latente entrenado podría ser llevada a juicio.

* Para facilitar la conveniencia, asumiremos ‘ajuste fino y LoRA’, donde sea necesario.

Publicado por primera vez el lunes 7 de octubre de 2024