Contáctenos

Reidentificación de datos de origen para generadores GAN

Inteligencia Artificial

Reidentificación de datos de origen para generadores GAN

mm

Una nueva investigación de Francia ha propuesto una técnica para "reidentificar" las identidades de origen que han contribuido a los datos generados sintéticamente, como las "personas inexistentes" generadas por GAN en proyectos de generación de rostros como Esta persona no existe.

El método descrito en el papel, titulado Esta persona (probablemente) existe. Ataques de membresía de identidad contra rostros generados por GAN, no requiere (poco probable) acceso a la arquitectura de entrenamiento o datos del modelo, y se puede aplicar a una variedad de aplicaciones para las cuales el uso de Redes generativas antagónicas (GAN) se están explorando actualmente como métodos para anonimizar la información de identificación personal (PII) o como un medio para generar datos sintéticos mientras se protege el material fuente.

Los investigadores han formulado un método llamado Ataque de membresía de identidad, que evalúa la probabilidad de que aparezca una única identidad frequently en un conjunto de datos de contribución, en lugar de intentar introducir características particulares de una identidad (es decir, en los grupos de píxeles de una imagen original que se utilizó para entrenar el modelo generativo).

Fuente: https://arxiv.org/pdf/2107.06018.pdf

Fuente: https://arxiv.org/pdf/2107.06018.pdf

En la imagen de arriba, de la investigación, cada fila comienza con una imagen generada por GAN creada por StyleGAN. El bloque de imágenes de la izquierda se creó a partir de una base de datos de 40,000 imágenes, el del medio de 80,000 y el bloque de la derecha de 46,000 imágenes. Todas las imágenes provienen del conjunto de datos VGG2Face2.

Algunas muestras tienen un parecido fugaz, mientras que otras se correlacionan fuertemente con los datos de entrenamiento. Los investigadores identificaron con éxito los rostros utilizando una red de identificación de rostros.

Más que valor nominal

Los enfoques de reidentificación de esta naturaleza tienen múltiples implicaciones en muchos campos de investigación; los investigadores, con sede en la Universidad de Caen en Normandía, enfatizan que su técnica no se limita a conjuntos de rostros y marcos GAN generadores de rostros, sino que es igualmente aplicable a conjuntos de datos de imágenes médicas y datos biométricos, entre otras posibles superficies de ataque en la síntesis de imágenes. marcos

Consideramos que, de tener éxito, un ataque de este tipo constituiría un serio obstáculo para el intercambio seguro de GAN en contextos sensibles. Por ejemplo, en el contexto de pinturas u otras obras de arte, la distribución de un generador no privado podría descartarse por evidentes problemas de derechos de autor. Más importante aún, consideremos que una empresa biométrica A publica un generador que expone la identidad de su consumidor. Otra empresa B podría detectar cuáles de sus propios consumidores son también clientes de la empresa A. Situaciones similares pueden plantear graves problemas para los datos médicos, donde la divulgación de una GAN podría vulnerar la información personal sobre la enfermedad de un paciente.

Reidentificación ilegítima de datos privados o extraídos de la Web

Aunque el documento solo toca ligeramente el tema, la capacidad de identificar los datos de la fuente original a partir de la salida abstracta (como las caras generadas por GAN, aunque esto se aplica igualmente a los sistemas de codificador/decodificador y otras arquitecturas) tiene implicaciones notables para implementaciones de protección de derechos de autor en los próximos 5 a 10 años.

Actualmente, la mayoría de los países están operando un laissez-faire Enfoque para el raspado de datos web públicos para no quedarse atrás en la etapa de desarrollo de las futuras economías de aprendizaje automático. A medida que este clima se comercialice y consolide, existe un potencial significativo para que una nueva generación de "trolls de datos" presente reclamos de derechos de autor sobre imágenes que se ha confirmado que han sido utilizadas históricamente en conjuntos de datos que han contribuido a algoritmos de aprendizaje automático.

A medida que los algoritmos desarrollados maduran y se vuelven más valiosos con el tiempo, cualquier imagen no permitida que se haya utilizado en su desarrollo inicial, y que pueda deducirse de su resultado mediante métodos similares a los propuestos en el nuevo documento francés, es una responsabilidad legal potencial. en la escala de SCO Vs IBM (una legendaria demanda tecnológica de larga duración que sigue amenazando el sistema operativo Linux).

Explotando el enfrentamiento mexicano de la diversidad frente a la frecuencia

La técnica principal utilizada por los investigadores franceses explota la frecuencia de las imágenes del conjunto de datos original como clave para la reidentificación. Cuanto más frecuentemente se encuentre una identidad particular en el conjunto de datos, más probable será que sea posible hacer una identificación de esa identidad original, al correlacionar los resultados del ataque con conjuntos de datos disponibles pública o privadamente.

Los investigadores señalan que esto se puede mitigar al incluir una diversidad mucho mayor de datos (por ejemplo, de rostros) en el conjunto de datos de origen y al no entrenar el conjunto de datos por tanto tiempo que sobreajuste ocurre. El problema con esto es que el modelo debe lograr una buena abstracción en un espacio dimensional mucho mayor y con una cantidad de datos mucho mayor que la estrictamente necesaria para obtener resultados sintéticos plausibles.

Lograr una generalización óptima de este tipo es costoso y lleva mucho tiempo: el espacio latente (la parte del análisis de fórmulas del modelo de aprendizaje automático en el que se alimentan los datos) necesitará más recursos; el conjunto de datos necesitará más curación; y dado que la cantidad de datos deberá ser significativa, los tamaños de los lotes y la programación de tasas deberán optimizarse para la calidad y los altos niveles de generalización, en lugar de la velocidad de capacitación y la economía, lo que generará costos de desarrollo más altos y tiempos de desarrollo más prolongados.

Además, los algoritmos generativos sobreajustados pueden generar datos sintéticos altamente realistas, incluso si los datos de salida (es decir, rostros, mapas, imágenes biomédicas, etc.) no son completamente abstractos, sino que presentan rasgos distintivos más amplios que los datos de origen de lo ideal, lo que constituye un atajo tentador. En el actual clima de "salvaje oeste" del sector del aprendizaje automático, donde iniciativas más pequeñas intentan desafiar el liderazgo de FAANG con recursos más escasos (o bien captar la atención para una adquisición), es cuestionable que los estándares siempre alcancen este nivel.

El documento también observa que la diversidad de puntos de datos de origen (como rostros) no es suficiente por sí misma para evitar la reidentificación a través de estos y otros métodos similares, ya que la interrupción prematura del entrenamiento puede dejar las identidades de origen insuficientemente abstraídas.

 

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Exdirector de contenido de investigación en Metaphysic.ai.
sitio personal: martinanderson.ai
Contacto: [email protected]
Gorjeo: @manders_ai