Sector Sanitario
Los datos sintéticos no protegen la privacidad de manera confiable, afirman los investigadores

Una nueva colaboración de investigación entre Francia y el Reino Unido arroja dudas sobre la creciente confianza de la industria en que los datos sintéticos puedan resolver los problemas de privacidad, calidad y disponibilidad (entre otros problemas) que amenazan el progreso en el sector del aprendizaje automático.
Entre varios puntos clave abordados, los autores afirman que los datos sintéticos modelados a partir de datos reales retienen suficiente información genuina como para proporcionar una protección confiable contra ataques de inferencia y membresía, que buscan desanonimizar los datos y volver a asociarlos con personas reales.
Además, las personas con mayor riesgo de sufrir tales ataques, incluidas aquellas con condiciones médicas críticas o facturas hospitalarias elevadas (en el caso de la anonimización de registros médicos), debido a la naturaleza "atípica" de su condición, tienen más probabilidades de ser reidentificadas por estas técnicas.
El documento observa:
'Al tener acceso a un conjunto de datos sintéticos, un adversario estratégico puede inferir, con gran confianza, la presencia de un registro objetivo en los datos originales.'
El documento también señala que datos sintéticos diferencialmente privados, que oculta la firma de registros individuales, de hecho protege la privacidad de los individuos, pero sólo paralizando significativamente la utilidad de los sistemas de recuperación de información que lo utilizan.
En todo caso, observan los investigadores, los enfoques privados diferenciales, que utilizan información "real", 'a un paso' a través de datos sintéticos: haga el escenario de seguridad peor de lo que hubiera sido de otra manera:
Los conjuntos de datos [sintéticos] no ofrecen ninguna transparencia sobre este equilibrio. Es imposible predecir qué características de los datos se conservarán y qué patrones se suprimirán.
El nuevo edificio corporativo de , titulado Datos Sintéticos – Anonimización Día de la Marmota, proviene de dos investigadores de la École Polytechnique Fédérale de Lausanne (EPFL) en París y un investigador del University College London (UCL).
Los investigadores realizaron pruebas de algoritmos de entrenamiento de modelos generativos privados existentes y descubrieron que ciertas decisiones de implementación violan las garantías formales de privacidad proporcionadas en los marcos, dejando diversos registros expuestos a ataques de inferencia.
Los autores ofrecen una versión revisada de cada algoritmo que potencialmente mitiga estas exposiciones y están creando el código estará disponible como una biblioteca de código abierto. Afirman que esto ayudará a los investigadores a evaluar las ganancias de privacidad de los datos sintéticos y comparar de manera útil los métodos populares de anonimización. El nuevo marco incorpora dos métodos de ataque a la privacidad pertinentes que se pueden aplicar a cualquier algoritmo de entrenamiento de modelos generativos.
Datos sintéticos
Los datos sintéticos se utilizan para entrenar modelos de aprendizaje automático en diversos escenarios, incluyendo casos donde la falta de información exhaustiva puede potencialmente subsanarse con datos sustitutivos. Un ejemplo de esto es la posibilidad de usar rostros generados por CGI para proporcionar fotos de rostros difíciles o poco frecuentes para conjuntos de datos de síntesis de imágenes, donde las imágenes de perfil, los ángulos agudos o las expresiones inusuales suelen ser poco comunes en el material original.
Se han utilizado otros tipos de imágenes CGI para poblar conjuntos de datos que eventualmente se ejecutarán en datos no sintéticos, como conjuntos de datos que presentan manos y muebles.
En términos de protección de la privacidad, los datos sintéticos pueden generarse a partir de datos reales mediante sistemas de redes generativas antagónicas (GAN) que extraen características de los datos reales y crean registros ficticios similares que probablemente se generalicen bien a datos posteriores (no vistos, reales). pero están destinados a ofuscar los detalles de las personas reales que aparecen en los datos de origen.
Metodología
Para los propósitos de la nueva investigación, los autores evaluaron las ganancias de privacidad a través de cinco algoritmos de entrenamiento de modelos generativos. Tres de los modelos no ofrecen protección de privacidad explícita, mientras que los otros dos vienen con garantías de privacidad diferenciales. Estos modelos tabulares fueron elegidos para representar una amplia gama de arquitecturas.
Las modelos atacadas fueron BayNet, PrivBay (una derivación de PrivBayes/BayNet), CTGAN, PATEGANO y IndHist.
El marco de evaluación de los modelos se implementó como una biblioteca de Python con dos clases principales: Modelos generativos y PrivacidadAtaquesEste último presenta dos facetas: un adversario de inferencia de membresía y un ataque de inferencia de membresía. El marco también permite evaluar los beneficios para la privacidad de los datos desinfectados (es decir, anonimizados) y sintéticos.
Los dos conjuntos de datos utilizados en las pruebas fueron los Conjunto de datos para adultos del Repositorio de aprendizaje automático de UCI, y el Archivo de datos de uso público de datos de alta hospitalaria del Departamento Estatal de Servicios de Salud de Texas. La versión del conjunto de datos de Texas utilizada por los investigadores contiene 50,000 2013 registros muestreados de registros de pacientes para el año XNUMX.
Ataques y Hallazgos
El objetivo general de la investigación es establecer la vinculabilidad (la reasociación de datos reales con datos sintéticos inspirados en ellos). Los modelos de ataque utilizados en el estudio incluyen regresión logística, bosques aleatorios y clasificadores de k vecinos más cercanos.
Los autores seleccionaron dos grupos objetivo compuestos por cinco registros seleccionados al azar para categorías "minoritarias" de la población, ya que son más probabilidades susceptibles a un ataque de vinculación. También seleccionaron registros con valores de atributos categóricos poco comunes fuera del cuartil del 95% de esos atributos. Algunos ejemplos incluyen registros relacionados con alto riesgo de mortalidad, altos costos hospitalarios totales y gravedad de la enfermedad.
Aunque el documento no profundiza en este aspecto, desde el punto de vista de los posibles atacantes del mundo real, estos son exactamente el tipo de pacientes "costosos" o "de alto riesgo" que tienen más probabilidades de ser el objetivo de la inferencia de membresía y otros tipos de enfoques de exfiltración de registros de pacientes.
Se entrenaron múltiples modelos de ataque con información de referencia pública para desarrollar "modelos sombra" sobre diez objetivos. Los resultados de diversos experimentos (como se describió anteriormente) indican que varios registros eran altamente vulnerables a los ataques de vinculación dirigidos por los investigadores. Los resultados también revelaron que el 20 % de todos los objetivos en los ensayos obtuvieron una ganancia de privacidad de cero a partir de datos sintéticos producidos por métodos GAN.
Los investigadores señalan que los resultados variaron según el método empleado para generar datos sintéticos, el vector de ataque y las características del conjunto de datos objetivo. El informe concluye que, en muchos casos, la supresión eficaz de la identidad mediante enfoques de datos sintéticos reduce la utilidad de los sistemas resultantes. En efecto, la utilidad y la precisión de dichos sistemas pueden, en muchos casos, ser un indicador directo de su vulnerabilidad a los ataques de reidentificación.
Los investigadores concluyen:
“Si un conjunto de datos sintético conserva las características de los datos originales con alta precisión y, por lo tanto, conserva la utilidad de los datos para los casos de uso para los que se anuncia, al mismo tiempo permite que los adversarios extraigan información confidencial sobre las personas.
'Solo se puede lograr una gran ganancia en privacidad a través de cualquiera de los mecanismos de anonimización que evaluamos si la versión sintética o desinfectada publicada de los datos originales no transmite la señal de los registros individuales en los datos sin procesar y, en efecto, suprime su registro.'












