Contáctenos

Las identidades reales se pueden recuperar a partir de conjuntos de datos sintéticos

Inteligencia Artificial

Las identidades reales se pueden recuperar a partir de conjuntos de datos sintéticos

mm
Imágenes de comparación de muestra del artículo 'Revelando rostros sintéticos: cómo los conjuntos de datos sintéticos pueden exponer identidades reales', incluidas imágenes originales (arriba) e imágenes inferidas (abajo).

Si 2022 marcó el momento en que el potencial disruptivo de la IA generativa captó por primera vez la atención del público, 2024 ha sido el año en que las preguntas sobre la legalidad de los datos subyacentes han ocupado un lugar central para las empresas ansiosas por aprovechar su poder.

Estados Unidos doctrina de uso justo, junto con la licencia académica implícita que durante mucho tiempo había permitido a los sectores de investigación académica y comercial explorar la IA generativa, se volvió cada vez más insostenible a medida que aumentaba evidencia de plagio emergió. Posteriormente, Estados Unidos, por el momento, no permitido Contenido generado por IA que está protegido por derechos de autor.

Estos asuntos están lejos de estar resueltos y de resolverse de manera inminente; en 2023, debido en parte a creciente preocupación de los medios y del público Sobre el estatus legal de los resultados generados por IA, la Oficina de Derechos de Autor de Estados Unidos inició una investigación de varios años sobre este aspecto de la IA generativa, publicando el primer segmento (en lo que respecta a las réplicas digitales) en julio de 2024.

Mientras tanto, los intereses comerciales siguen frustrados por la posibilidad de que los costosos modelos que desean explotar puedan exponerlos a ramificaciones legales cuando finalmente surjan definiciones y leyes definitivas.

La costosa solución a corto plazo ha sido legitimar los modelos generativos entrenándolos con datos que las empresas tienen derecho a explotar. El texto a imagen de Adobe (y ahora texto a video) La arquitectura de Firefly está impulsada principalmente por su comprar del conjunto de datos de imágenes de stock de Fotolia en 2014, complementado mediante el uso de datos de dominio público cuyos derechos de autor han expirado*. Al mismo tiempo, los proveedores de fotografías de archivo existentes, como Getty y Shutterstock, han en mayúscula sobre el nuevo valor de sus datos licenciados, con un número creciente de acuerdos para licenciar contenidos o desarrollar sus propios sistemas GenAI compatibles con IP.

Soluciones sintéticas

Desde que se eliminaron los datos con derechos de autor de los participantes capacitados espacio latente de un modelo de IA es lleno de problemasLos errores en esta área podrían ser potencialmente muy costosos para las empresas que experimentan con soluciones comerciales y de consumo que utilizan aprendizaje automático.

Una solución alternativa y mucho más económica para los sistemas de visión por computadora (y tambien Modelos de lenguaje de gran tamaño, o LLM), es el uso de datos sintéticos, donde el conjunto de datos se compone de ejemplos generados aleatoriamente del dominio objetivo (como caras, gatos, iglesias o incluso un conjunto de datos más generalizado).

Sitios como thispersondoesnotexist.com popularizaron hace mucho tiempo la idea de que fotos de personas "no reales" con apariencia auténtica podrían sintetizarse (en ese caso particular, a través de redes generativas antagónicas, o GAN) sin tener ninguna relación con personas que realmente existen en el mundo real.

Por lo tanto, si se entrena un sistema de reconocimiento facial o un sistema generativo con ejemplos tan abstractos y no reales, en teoría se puede obtener un estándar fotorrealista de productividad para un modelo de IA sin necesidad de considerar si los datos son legalmente utilizables.

Malabarismos

El problema es que los sistemas que producen datos sintéticos están entrenados con datos reales. Si los rastros de esos datos se filtran en los datos sintéticos, esto podría proporcionar evidencia de que se ha explotado material restringido o no autorizado para obtener ganancias económicas.

Para evitar esto, y con el fin de producir imágenes verdaderamente "aleatorias", dichos modelos deben asegurarse de que estén bien...Generalizado. Generalización es la medida de la capacidad de un modelo de IA entrenado para comprender intrínsecamente conceptos de alto nivel (como 'cara', 'hombre', o 'mujer') sin recurrir a replicar los datos de entrenamiento reales.

Desafortunadamente, puede ser difícil para los sistemas entrenados producir (o reconocer) detalle granular a menos que se entrene de forma bastante extensa en un conjunto de datos. Esto expone al sistema al riesgo de memorización:una tendencia a reproducir, hasta cierto punto, ejemplos de los datos de entrenamiento reales.

Esto se puede mitigar estableciendo un clima más relajado. tasa de aprendizaje, o bien finalizando el entrenamiento en una etapa en la que los conceptos centrales aún son dúctiles y no están asociados con ningún punto de datos específico (como una imagen específica de una persona, en el caso de un conjunto de datos de rostros).

Sin embargo, es probable que ambas soluciones conduzcan a modelos con menos detalles, ya que el sistema no tuvo la oportunidad de progresar más allá de los conceptos básicos del dominio objetivo y llegar a los detalles específicos.

Por lo tanto, en la literatura científica, se suelen aplicar tasas de aprendizaje muy altas y programas de entrenamiento exhaustivos. Si bien los investigadores suelen intentar encontrar un equilibrio entre la amplia aplicabilidad y la granularidad en el modelo final, incluso sistemas ligeramente memorizados pueden a menudo presentarse erróneamente como bien generalizados, incluso en las pruebas iniciales.

Revelar rostro

Esto nos lleva a un nuevo e interesante artículo procedente de Suiza, que afirma ser el primero en demostrar que las imágenes originales y reales que alimentan los datos sintéticos pueden recuperarse a partir de imágenes generadas que, en teoría, deberían ser completamente aleatorias:

Ejemplos de imágenes de rostros filtradas de los datos de entrenamiento. En la fila de arriba, vemos las imágenes originales (reales); en la fila de abajo, vemos imágenes generadas al azar, que concuerdan significativamente con las imágenes reales. Fuente: https://arxiv.org/pdf/2410.24015

Ejemplos de imágenes de rostros filtradas de los datos de entrenamiento. En la fila de arriba, vemos las imágenes originales (reales); en la fila de abajo, vemos imágenes generadas al azar, que concuerdan significativamente con las imágenes reales. Fuente: https://arxiv.org/pdf/2410.24015

Los resultados, según los autores, indican que los generadores «sintéticos» han memorizado una gran cantidad de datos de entrenamiento en su búsqueda de mayor granularidad. También indican que los sistemas que se basan en datos sintéticos para proteger a los productores de IA de consecuencias legales podrían ser muy poco fiables en este sentido.

Los investigadores realizaron un estudio exhaustivo sobre seis conjuntos de datos sintéticos de última generación y demostraron que, en todos los casos, es posible recuperar datos originales (que posiblemente estén protegidos por derechos de autor o estén protegidos). Comentan:

'Nuestros experimentos demuestran que los conjuntos de datos de reconocimiento facial sintético de última generación contienen muestras que son muy similares a las muestras de los datos de entrenamiento de sus modelos generadores. En algunos casos, las muestras sintéticas contienen pequeños cambios en la imagen original; sin embargo, también podemos observar que en algunos casos la muestra generada contiene más variación (por ejemplo, diferente pose, condiciones de luz, etc.) mientras que se conserva la identidad.

Esto sugiere que los modelos generadores aprenden y memorizan la información relacionada con la identidad a partir de los datos de entrenamiento y podrían generar identidades similares. Esto genera serias dudas sobre la aplicación de datos sintéticos en tareas que requieren privacidad, como la biometría y el reconocimiento facial.

El se titula Desvelando rostros sintéticos: cómo los conjuntos de datos sintéticos pueden revelar identidades reales, y proviene de dos investigadores del Instituto de Investigación Idiap en Martigny, la École Polytechnique Fédérale de Lausanne (EPFL) y la Université de Lausanne (UNIL) en Lausanne.

Método, datos y resultados

Las caras memorizadas en el estudio fueron reveladas por Ataque de inferencia de membresíaAunque el concepto suena complicado, se explica por sí solo: inferir la membresía, en este caso, se refiere al proceso de cuestionar un sistema hasta que revele datos que coincidan con los datos que se están buscando o se asemejen significativamente a ellos.

Otros ejemplos de fuentes de datos inferidos del estudio. En este caso, las imágenes sintéticas de origen proceden del conjunto de datos DCFace.

Otros ejemplos de fuentes de datos inferidos del estudio. En este caso, las imágenes sintéticas de origen proceden del conjunto de datos DCFace.

Los investigadores estudiaron seis conjuntos de datos sintéticos cuya fuente (real) era conocida. Dado que tanto los conjuntos de datos reales como los falsos en cuestión contienen un volumen muy elevado de imágenes, esto es como buscar una aguja en un pajar.

Por lo tanto, los autores utilizaron un modelo de reconocimiento facial estándar.† con ResNet100 columna vertebral entrenada en el AdaFace función de pérdida (sobre el WebFace12M conjunto de datos).

Los seis conjuntos de datos sintéticos utilizados fueron: Cara DC (un modelo de difusión latente); IDiff-Cara (Uniforme: un modelo de difusión basado en FFHQ); IDiff-Face (Dos etapas: una variante que utiliza un método de muestreo diferente); Cara de GanDiff (basado en modelos de Redes Generativas Antagónicas y Difusión, utilizando EstiloGAN3 para generar identidades iniciales, y luego cabina de ensueño para crear ejemplos variados); IDNET (un método GAN, basado en EstiloGAN-ADA); y Cara SF (un marco de protección de la identidad).

Dado que GANDiffFace utiliza métodos GAN y de difusión, se comparó con el conjunto de datos de entrenamiento de StyleGAN, el más cercano a un origen de "cara real" que proporciona esta red.

Los autores excluyeron los conjuntos de datos sintéticos que utilizan CGI en lugar de métodos de IA y, al evaluar los resultados, descartaron las coincidencias para los niños, debido a anomalías distributivas a este respecto, así como las imágenes que no son de rostros (que pueden aparecer con frecuencia en conjuntos de datos de rostros, donde los sistemas de raspado web producen falsos positivos para objetos o artefactos que tienen cualidades similares a los rostros).

Similitud de coseno Se calculó para todos los pares recuperados y se concatenó en histogramas, ilustrados a continuación:

Una representación de histograma para las puntuaciones de similitud de coseno calculadas en los diversos conjuntos de datos, junto con sus valores de similitud relacionados para los k pares principales (líneas verticales discontinuas).

Una representación de histograma para las puntuaciones de similitud de coseno calculadas en los diversos conjuntos de datos, junto con sus valores de similitud relacionados para los k pares principales (líneas verticales discontinuas).

La cantidad de similitudes se representa en los picos del gráfico anterior. El artículo también incluye comparaciones de muestra de los seis conjuntos de datos y sus correspondientes imágenes estimadas en los conjuntos de datos originales (reales), de las cuales se muestran algunas selecciones a continuación:

Muestras de los numerosos casos reproducidos en el documento original, a los que se remite al lector para una selección más completa.

Muestras de los numerosos casos reproducidos en el documento original, a los que se remite al lector para una selección más completa.

El papel comenta:

'Los conjuntos de datos sintéticos generados contienen imágenes muy similares al conjunto de entrenamiento de su modelo generador, lo que genera inquietudes respecto de la generación de dichas identidades'.

Los autores señalan que, para este enfoque en particular, es probable que la ampliación a conjuntos de datos de mayor volumen sea ineficiente, ya que el cálculo necesario sería extremadamente engorroso. Observan además que fue necesaria una comparación visual para inferir coincidencias y que el reconocimiento facial automático por sí solo probablemente no sería suficiente para una tarea más grande.

Respecto a las implicaciones de la investigación, y de cara a los caminos a seguir, el trabajo afirma:

'[Nos] gustaría destacar que la principal motivación para generar conjuntos de datos sintéticos es abordar las preocupaciones sobre privacidad al utilizar conjuntos de datos faciales rastreados en la web a gran escala.

Por lo tanto, la filtración de información sensible (como la identidad de imágenes reales en los datos de entrenamiento) en el conjunto de datos sintéticos genera serias preocupaciones sobre su aplicación en tareas que requieren privacidad, como la biometría. Nuestro estudio arroja luz sobre las vulnerabilidades de privacidad en la generación de conjuntos de datos sintéticos de reconocimiento facial y sienta las bases para futuros estudios que generen conjuntos de datos sintéticos de reconocimiento facial responsables.

Aunque los autores prometen una publicación del código para este trabajo en el futuro, página del proyecto, no hay ningún enlace al repositorio actual.

Conclusión

Últimamente, la atención de los medios de comunicación ha enfatizado la rendimientos decrecientes obtenido mediante el entrenamiento de modelos de IA con datos generados por IA.

Sin embargo, la nueva investigación suiza pone de relieve una consideración que podría ser más apremiante para el creciente número de empresas que desean aprovechar y beneficiarse de la IA generativa: la persistencia de patrones de datos protegidos por IP o no autorizados, incluso en conjuntos de datos diseñados para combatir esta práctica. Si tuviéramos que definirlo, en este caso podríamos llamarlo «lavado de imagen».

 

* Sin embargo, la decisión de Adobe de permitir que las imágenes generadas por IA cargadas por los usuarios se publiquen en Adobe Stock ha socavado la pureza legal de estos datos. Bloomberg contendió En abril de 2024, las imágenes proporcionadas por los usuarios del sistema de inteligencia artificial generativa MidJourney se incorporaron a las capacidades de Firefly.

† Este modelo no está identificado en el documento.

Publicado por primera vez el miércoles 6 de noviembre de 2024