talón Tres técnicas de aprendizaje automático para preservar la privacidad que resuelven el problema más importante de esta década - Unite.AI
Contáctanos

Líderes del pensamiento

Tres técnicas de aprendizaje automático para preservar la privacidad que resuelven el problema más importante de esta década

mm

Publicado

 on

Por Amogh Tarcar, investigador de aprendizaje automático e inteligencia artificial, Sistemas Persistentes.

La privacidad de los datos, según los expertos en una amplia gama de dominios, será el tema más importante de esta década. Esto es particularmente cierto para el aprendizaje automático (ML), donde los algoritmos reciben grandes cantidades de datos.

Tradicionalmente, las técnicas de modelado de ML se han basado en la centralización de datos de múltiples fuentes en un único centro de datos. Después de todo, los modelos ML son más poderosos cuando tienen acceso a grandes cantidades de datos. Sin embargo, hay una serie de desafíos de privacidad que vienen con esta técnica. La agregación de datos diversos de múltiples fuentes es menos factible hoy en día debido a preocupaciones regulatorias como HIPAA, GDPR y CCPA. Además, la centralización de datos aumenta el alcance y la escala del uso indebido de datos y las amenazas de seguridad en forma de fugas de datos.

Para superar estos desafíos, se han desarrollado varios pilares de aprendizaje automático para preservar la privacidad (PPML) con técnicas específicas que reducen el riesgo de privacidad y garantizan que los datos permanezcan razonablemente seguros. Aquí están algunos de los más importantes:

1. Aprendizaje federado

Aprendizaje federado es una técnica de entrenamiento de ML que le da la vuelta al problema de la agregación de datos. En lugar de agregar datos para crear un solo modelo de ML, el aprendizaje federado agrega los propios modelos de ML. Esto garantiza que los datos nunca abandonen su ubicación de origen y permite que varias partes colaboren y creen un modelo de aprendizaje automático común sin compartir directamente datos confidenciales.

Funciona así. Comienza con un modelo de ML base que luego se comparte con cada nodo cliente. Luego, estos nodos ejecutan capacitación local en este modelo utilizando sus propios datos. Las actualizaciones del modelo se comparten periódicamente con el nodo coordinador, que procesa estas actualizaciones y las fusiona para obtener un nuevo modelo global. De esta manera, obtiene información de diversos conjuntos de datos sin tener que compartir estos conjuntos de datos.

Fuente: Sistemas Persistentes

En el contexto de la atención médica, esta es una herramienta increíblemente poderosa y consciente de la privacidad para mantener seguros los datos de los pacientes mientras brinda a los investigadores la sabiduría de la multitud. Al no agregar los datos, el aprendizaje federado crea una capa adicional de seguridad. Sin embargo, los modelos y las actualizaciones de modelos siguen presentando un riesgo de seguridad si se dejan vulnerables.

2. Privacidad diferencial

Los modelos ML son a menudo objetivos de ataques de inferencia de membresía. Digamos que iba a compartir sus datos de atención médica con un hospital para ayudar a desarrollar una vacuna contra el cáncer. El hospital mantiene sus datos seguros, pero utiliza el aprendizaje federado para entrenar un modelo ML disponible públicamente. Unos meses más tarde, los piratas informáticos utilizan un ataque de inferencia de membresía para determinar si sus datos se usaron en el entrenamiento del modelo o no. Luego pasan información a una compañía de seguros que, según su riesgo de cáncer, podría aumentar sus primas.

La privacidad diferencial garantiza que los ataques de los adversarios en los modelos de ML no puedan identificar puntos de datos específicos utilizados durante el entrenamiento, lo que mitiga el riesgo de exponer datos de entrenamiento confidenciales en el aprendizaje automático. Esto se hace aplicando "ruido estadístico" para perturbar los datos o los parámetros del modelo de aprendizaje automático mientras se entrenan los modelos, lo que dificulta ejecutar ataques y determinar si los datos de un individuo en particular se usaron para entrenar el modelo.

Por ejemplo, Facebook lanzó recientemente opaco, una biblioteca de alta velocidad para entrenar modelos PyTorch utilizando un algoritmo de entrenamiento de aprendizaje automático basado en privacidad diferencial llamado Descenso de gradiente estocástico diferencialmente privado (DP-SGD). El siguiente gif destaca cómo utiliza el ruido para enmascarar datos.

 

Este ruido está gobernado por un parámetro llamado Epsilon. Si el valor de Epsilon es bajo, el modelo tiene una privacidad de datos perfecta pero poca utilidad y precisión. A la inversa, si tiene un valor Epsilon alto, la privacidad de sus datos disminuirá mientras que su precisión aumenta. El truco es lograr un equilibrio para optimizar ambos.

3. Cifrado homomórfico

El cifrado estándar tradicionalmente es incompatible con el aprendizaje automático porque una vez que se cifran los datos, el algoritmo ML ya no los puede comprender. Sin embargo, el cifrado homomórfico es un esquema de cifrado especial que nos permite continuar haciendo ciertos tipos de cálculos.

El poder de esto es que el entrenamiento puede ocurrir en un espacio completamente encriptado. No solo protege a los propietarios de datos, sino que también protege a los propietarios de modelos. El propietario del modelo puede ejecutar inferencias en datos cifrados sin siquiera verlos o usarlos indebidamente.

Cuando se aplica al aprendizaje federado, la fusión de las actualizaciones del modelo puede ocurrir de manera segura porque se llevan a cabo en un entorno completamente encriptado, lo que reduce drásticamente el riesgo de ataques de inferencia de membresía.

La década de la privacidad

A medida que ingresamos en 2021, el aprendizaje automático para preservar la privacidad es un campo emergente con una investigación notablemente activa. Si la última década se trató de eliminar datos, esta década se tratará de eliminar modelos de ML mientras se preserva la privacidad de los datos subyacentes a través del aprendizaje federado, la privacidad diferencial y el cifrado homomórfico. Estos presentan una nueva forma prometedora para avanzar en las soluciones de aprendizaje automático de una manera consciente de la privacidad.

Amogh es investigador de aprendizaje automático y forma parte del laboratorio de investigación de IA en Sistemas persistentes. Su investigación actual se centra en aplicaciones de aprendizaje federado y en la creación de herramientas de PNL para la extracción de conocimiento.