El ángulo de Anderson
Automatización de la protección de derechos de autor en imágenes generadas por IA

Como se discutio la semana pasadaIncluso los modelos básicos que sustentan los sistemas de IA generativa más populares pueden producir contenido que infrinja los derechos de autor, debido a Curación inadecuada o desalineada, así como la presencia de múltiples versiones de la misma imagen en los datos de entrenamiento, lo que lleva a sobreajuste, y aumentando la probabilidad de reproducciones reconocibles.
A pesar de los esfuerzos por dominar el espacio de la IA generativa y la creciente presión para frenar la violación de la propiedad intelectual, las principales plataformas como MidJourney y DALL-E de OpenAI continúan enfrentar retos para prevenir la reproducción involuntaria de contenido protegido por derechos de autor:

La capacidad de los sistemas generativos para reproducir datos protegidos por derechos de autor aparece periódicamente en los medios.
A medida que surgen nuevos modelos, y los modelos chinos ganar dominioLa supresión de material protegido por derechos de autor en los modelos básicos es una perspectiva onerosa; de hecho, el líder del mercado open.ai declaró el año pasado que es 'imposible' para crear modelos efectivos y útiles sin datos protegidos por derechos de autor.
Estado de la técnica
En lo que respecta a la generación involuntaria de material con derechos de autor, la escena de investigación enfrenta un desafío similar al de la inclusión de pornografía y otro material NSFW en los datos de origen: uno quiere el beneficio del conocimiento (es decir, anatomía humana correcta, que históricamente siempre ha sido Basado en estudios de desnudos) sin capacidad de abusar de ella.
De la misma manera, los modelistas quieren beneficiarse de la enorme cantidad de material protegido por derechos de autor que se incluye en sets de hiperescala como LAION, sin que el modelo desarrolle la capacidad de infringir efectivamente la propiedad intelectual.
Si se desestiman los riesgos éticos y legales que implica intentar ocultar el uso de material protegido por derechos de autor, filtrar el último caso es mucho más complicado. El contenido NSFW suele contener información latente de bajo nivel. Características que permiten un filtrado cada vez más eficaz sin necesidad de comparaciones directas con material del mundo real. Por el contrario, incrustaciones latentes que definen millones de obras protegidas por derechos de autor no se reducen a un conjunto de marcadores fácilmente identificables, lo que hace que la detección automatizada sea mucho más compleja.
CopiarJuez
El juicio humano es un bien escaso y costoso, tanto en la curación de conjuntos de datos como en la creación de filtros de posprocesamiento y sistemas basados en "seguridad" diseñados para garantizar que material bloqueado por IP no se entregue a los usuarios de portales basados en API como MidJourney y la capacidad de generación de imágenes de ChatGPT.
Por ello, una nueva colaboración académica entre Suiza, Sony AI y China ofrece CopiarJuez – un método automatizado para orquestar grupos sucesivos de “jueces” coludidos basados en ChatGPT que pueden examinar las entradas en busca de señales de posibles infracciones de derechos de autor.

CopyJudge evalúa varias generaciones de IA con exclusión de IP. Fuente: https://arxiv.org/pdf/2502.15278
CopyJudge ofrece efectivamente un marco automatizado que aprovecha grandes modelos de visión-lenguaje (LVLM) para determinar una similitud sustancial entre imágenes con derechos de autor y aquellas producidas por modelos de difusión de texto a imagen.

El enfoque CopyJudge utiliza el aprendizaje de refuerzo y otros enfoques para optimizar los mensajes que infringen los derechos de autor y luego utiliza la información de dichos mensajes para crear nuevos mensajes que tengan menos probabilidades de invocar imágenes que infringen los derechos de autor.
Si bien muchos generadores de imágenes en línea basados en IA filtran los mensajes de los usuarios en busca de NSFW, material con derechos de autor, recreación de personas reales y varios otros dominios prohibidos, CopyJudge en cambio utiliza mensajes "infractores" refinados para crear mensajes "desinfectados" que tienen menos probabilidades de evocar imágenes no permitidas, sin la intención de bloquear directamente el envío del usuario.
Si bien este no es un enfoque nuevo, contribuye en cierta medida a liberar a los sistemas generativos basados en API de simplemente rechazar la entrada del usuario (sobre todo porque esto permite a los usuarios desarrollar acceso por puerta trasera a las generaciones desestimadas, a través de la experimentación).
Un exploit reciente (ya cerrado por los desarrolladores) permitía a los usuarios generar material pornográfico en la plataforma de inteligencia artificial generativa Kling simplemente incluyendo una cruz prominente, o crucifijo, en la imagen cargada en un flujo de trabajo de imagen a video.

En una laguna legal que los desarrolladores de Kling solucionaron a finales de 2024, los usuarios podían obligar al sistema a producir una salida NSFW prohibida simplemente incluyendo una cruz o un crucifijo en la imagen de semilla I2V. No se ha dado ninguna explicación sobre la lógica detrás de este truco, que ya ha expirado. Fuente: Discord
Casos como este ponen de relieve la necesidad de una pronta desinfección de los sistemas generativos en línea, sobre todo porque el desaprendizaje automático, en el que se altera el propio modelo de base para eliminar conceptos prohibidos, puede tener efectos no deseados sobre la usabilidad del modelo final.
En busca de soluciones menos drásticas, el sistema CopyJudge imita los juicios legales humanos mediante el uso de IA para dividir las imágenes en elementos clave, como la composición y el color, para filtrar las partes que no están sujetas a derechos de autor y comparar lo que queda. También incluye un método impulsado por IA para ajustar las indicaciones y modificar la generación de imágenes, lo que ayuda a evitar problemas de derechos de autor y, al mismo tiempo, a preservar el contenido creativo.
Los resultados experimentales, sostienen los autores, demuestran la equivalencia de CopyJudge con los enfoques de última generación en esta búsqueda e indican que el sistema exhibe un rendimiento superior. generalización y interpretabilidad, en comparación con trabajos anteriores.
El nuevo documento se titula CopyJudge: identificación y mitigación automatizadas de infracciones de derechos de autor en modelos de difusión de texto a imagen, y proviene de cinco investigadores de EPFL, Sony AI y la Universidad Westlake de China.
Método
Aunque CopyJudge utiliza GPT para crear tribunales rotatorios de jueces automatizados, los autores enfatizan que el sistema no está optimizado para el producto de OpenAI y que se podría utilizar en su lugar cualquier número de modelos de lenguaje de visión grande (LVLM) alternativos.
En primera instancia, se requiere el marco de abstracción-filtración-comparación de los autores para descomponer las imágenes de origen en partes constituyentes, como se ilustra en el lado izquierdo del esquema a continuación:

Esquema conceptual para la fase inicial del flujo de trabajo de CopyJudge.
En la esquina inferior izquierda vemos un agente de filtrado que descompone las secciones de la imagen en un intento de identificar características que podrían ser nativas de una obra protegida por derechos de autor en conjunto, pero que en sí mismas serían demasiado genéricas para calificar como una violación.
Posteriormente se utilizan múltiples LVLM para evaluar los elementos filtrados, un enfoque que ha demostrado ser eficaz en artículos como el CSAIL 2023. que ofrece Mejora de la factualidad y el razonamiento en modelos lingüísticos mediante el debate entre múltiples agentesy ChatEval, entre otros diversos reconocidos en el nuevo artículo.
Los autores declaran:
'[Adoptamos] un enfoque de debate de comunicación sincrónica totalmente conectado, donde cada LVLM recibe las [respuestas] de los [otros] LVLM antes de emitir el siguiente juicio. Esto crea un ciclo de retroalimentación dinámico que fortalece la confiabilidad y la profundidad del análisis, a medida que los modelos adaptan sus evaluaciones en función de los nuevos conocimientos presentados por sus pares.
'Cada LVLM puede ajustar su puntuación en función de las respuestas de los otros LVLM o mantenerla sin cambios.'
También se incluyen en el proceso varios pares de imágenes puntuadas por humanos mediante un aprendizaje en contexto de pocas tomas.
Una vez que los "tribunales" del circuito han llegado a una puntuación de consenso que está dentro del rango de aceptabilidad, los resultados se pasan a un "meta juez" LVLM, que sintetiza los resultados en una puntuación final.
Mitigación
A continuación, los autores se concentraron en el proceso de mitigación rápida descrito anteriormente.

Esquema de CopyJudge para mitigar la infracción de derechos de autor mediante el refinamiento de las indicaciones y el ruido latente. El sistema ajusta las indicaciones iterativamente, utilizando aprendizaje por refuerzo para modificar las variables latentes a medida que las indicaciones evolucionan, con el objetivo de reducir el riesgo de infracción.
Los dos métodos utilizados para la mitigación rápida fueron el control de avisos basado en LVLM, donde avisos efectivos y no infractores se desarrollan iterativamente en clústeres GPT, un enfoque que es completamente de "caja negra" y no requiere acceso interno a la arquitectura del modelo; y un aprendizaje reforzadoenfoque basado en RL, donde la recompensa está diseñada para penalizar los resultados que infringen los derechos de autor.
Datos y Pruebas
Para probar CopyJudge, se utilizaron varios conjuntos de datos, incluidos Representante D, que contiene pares de imágenes reales y falsas calificadas por humanos en una escala de 0 a 5.

Exploración del conjunto de datos D-Rep en Hugging Face. Esta colección combina imágenes reales y generadas. Fuente: https://huggingface.co/datasets/WenhaoWang/D-Rep/viewer/default/
El esquema CopyJudge consideró las imágenes D-Rep que obtuvieron una puntuación de 4 o más como ejemplos de infracción, y el resto se consideró no relevante para la propiedad intelectual. Las 4000 imágenes oficiales del conjunto de datos se utilizaron como imágenes de prueba. Además, los investigadores seleccionaron y seleccionaron imágenes de 10 personajes de dibujos animados famosos de Wikipedia.
Las tres arquitecturas basadas en difusión utilizadas para generar imágenes potencialmente infractoras fueron Difusión estable V2; Kandinsky2-2; y Difusión estable XLLos autores seleccionaron manualmente una imagen infractora y una imagen no infractora de cada uno de los modelos, llegando a 60 muestras positivas y 60 negativas.
Los métodos de referencia seleccionados para la comparación fueron: L2 norma; Similitud de parches de imágenes perceptuales aprendidas (IPS); CDSS; RLCP; y PDF Emb.. Para métricas, precisión y Puntuación F1 se utilizaron como criterios de infracción.
Se utilizó GPT-4o para completar los equipos de debate internos de CopyJudge, utilizando tres agentes para un máximo de cinco iteraciones en cualquier imagen enviada en particular. Se utilizaron tres imágenes aleatorias de cada clasificación en D-Rep como agentes humanos. anteriores para que los agentes lo consideren.

Resultados de infracción para CopyJudge en la primera ronda.
De estos resultados los autores comentan:
'Es evidente que los métodos tradicionales de detección de copias de imágenes presentan limitaciones en la tarea de identificación de infracciones de derechos de autor. Nuestro enfoque supera significativamente a la mayoría de los métodos. En el caso del método de última generación, PDF-Emb, que se entrenó con 36,000 XNUMX muestras del D-Rep, nuestro rendimiento en el D-Rep es ligeramente inferior.
'Sin embargo, su bajo rendimiento en el conjunto de datos Cartoon IP y Artwork resalta su falta de capacidad de generalización, mientras que nuestro método demuestra resultados igualmente excelentes en todos los conjuntos de datos.'
Los autores también señalan que CopyJudge proporciona un límite "relativamente" más claro entre casos válidos e infractores:

Más ejemplos de las rondas de pruebas, en el material complementario del nuevo artículo.
Los investigadores compararon sus métodos con un sistema de inteligencia artificial de Sony. colaboración a partir de 2024 titulado Detección, explicación y mitigación de la memorización en modelos de difusiónEn este trabajo se utilizó un modelo de difusión estable ajustado con 200 imágenes memorizadas (es decir, sobreajustadas) para obtener datos con derechos de autor en el momento de la inferencia.
Los autores del nuevo trabajo descubrieron que su propio método de mitigación rápida, en comparación con el enfoque de 2024, pudo producir imágenes con menos probabilidades de causar infracciones.

Resultados de la mitigación de la memorización con CopyJudge comparados con el trabajo de 2024.
Los autores comentan aquí:
Nuestro enfoque podría generar imágenes con menor probabilidad de infringir, manteniendo una precisión de coincidencia comparable, aunque ligeramente menor. Como se muestra en la imagen a continuación, nuestro método evita eficazmente las deficiencias del método anterior, como la imposibilidad de mitigar la memorización o la generación de imágenes con alta desviación.

Comparación de imágenes generadas y estímulos antes y después de mitigar la memorización.
Los autores realizaron más pruebas con respecto a la mitigación de infracciones, estudiando explícito y implícitamente infracción.
Infracción explícita ocurre cuando los mensajes hacen referencia directa a material protegido por derechos de autor, como 'Generar una imagen de Mickey Mouse'Para probar esto, los investigadores utilizaron 20 muestras de dibujos animados y obras de arte, generando imágenes infractoras en Stable Diffusion v2 con indicaciones que incluían explícitamente nombres o atribuciones de autor.

Una comparación entre el método de Control Latente (LC) de los autores y el método de Control Inmediato (PC) del trabajo anterior, en diversas variaciones, utilizando Difusión Estable para crear imágenes que representan una infracción explícita.
Infracción implícita ocurre cuando un mensaje carece de referencias explícitas a derechos de autor pero aún así da como resultado una imagen infractora debido a ciertos elementos descriptivos, un escenario que es particularmente relevante para los modelos comerciales de texto a imagen, que a menudo incorporan sistemas de detección de contenido para identificar y bloquear mensajes relacionados con derechos de autor.
Para explorar esto, los autores utilizaron las mismas muestras bloqueadas por IP que en la prueba de infracción explícita, pero generaron imágenes infractoras sin referencias directas a los derechos de autor, utilizando DALL-E 3 (aunque el documento señala que se observó que el módulo de detección de seguridad incorporado del modelo rechazaba ciertos mensajes que activaban sus filtros).

Infracción implícita utilizando DALLE-3, con puntuaciones de infracción y CLIP.
Los autores declaran:
'[Se] puede observar que nuestro método reduce significativamente la probabilidad de infracción, tanto explícita como implícita, con solo una ligera caída en la puntuación CLIP. La puntuación de infracción después de solo el control latente es relativamente más alta que después del control de avisos porque recuperar latentes no infractores sin cambiar el aviso es bastante difícil. Sin embargo, aún podemos reducir eficazmente la puntuación de infracción mientras mantenemos una mayor calidad de coincidencia de imagen-texto.
'[La imagen a continuación] muestra los resultados de la visualización, donde se puede observar que evitamos la violación de IP al tiempo que preservamos los requisitos del usuario.'

Imágenes generadas antes y después de la mitigación de la infracción de propiedad intelectual.
Conclusión
Si bien el estudio presenta un enfoque prometedor para la protección de los derechos de autor en imágenes generadas por IA, la dependencia de grandes modelos de visión-lenguaje (LVLM) para la detección de infracciones podría generar inquietudes sobre sesgo y coherencia, ya que los juicios impulsados por IA pueden no siempre alinearse con los estándares legales.
Quizás lo más importante es que el proyecto también supone que la aplicación de los derechos de autor se puede automatizar, a pesar de las decisiones legales del mundo real que a menudo involucran factores subjetivos y contextuales que la IA puede tener dificultades para interpretar.
En el mundo real, es probable que la automatización del consenso legal, especialmente en torno a los resultados de la IA, siga siendo un tema polémico mucho más allá de ese momento y mucho más allá del alcance del dominio abordado en este trabajo.
Publicado por primera vez el lunes 24 de febrero de 2025