Ciberseguridad

Robo de modelos de aprendizaje automático a través de la salida de la API

Published May 18, 2022

Updated April 5, 2026

Martin Anderson

Nueva investigación de Canadá ofrece un método posible por el cual los atacantes podrían robar los frutos de costosos marcos de aprendizaje automático, incluso cuando el único acceso a un sistema propietario es a través de una API (interfaz o protocolo que procesa las consultas del usuario en el servidor y devuelve solo la respuesta de salida) altamente sanitizada y aparentemente bien defendida.

A medida que el sector de investigación se dirige cada vez más hacia la monetización del costoso entrenamiento de modelos a través de implementaciones de Aprendizaje Automático como Servicio (MLaaS), el nuevo trabajo sugiere que los modelos de Aprendizaje Auto-supervisado (SSL) son más vulnerables a este tipo de exfiltración de modelos, porque se entrenan sin etiquetas de usuario, lo que simplifica la extracción, y generalmente proporcionan resultados que contienen una gran cantidad de información útil para alguien que desee replicar el modelo de origen (oculto).

En simulaciones de prueba de “caja negra” (donde los investigadores se otorgaron a sí mismos no más acceso a un modelo “víctima” local que el que tendría un usuario típico a través de una API web), los investigadores pudieron replicar los sistemas objetivo con recursos relativamente bajos:

‘[Nuestros] ataques pueden robar una copia del modelo víctima que logra un rendimiento considerable en menos de 1/5 de las consultas utilizadas para entrenar al modelo víctima. Contra un modelo víctima entrenado en 1,2 millones de muestras no etiquetadas de ImageNet, con una precisión del 91,9% en la tarea de clasificación downstream Fashion-MNIST, nuestro ataque de extracción directa con la pérdida InfoNCE robó una copia del codificador que logra una precisión del 90,5% en 200.000 consultas.

‘De manera similar, contra un modelo víctima entrenado en 50.000 muestras no etiquetadas de CIFAR10, con una precisión del 79,0% en la tarea de clasificación downstream CIFAR10, nuestro ataque de extracción directa con la pérdida SoftNN robó una copia que logra una precisión del 76,9% en 9.000 consultas.’

Los investigadores utilizaron tres métodos de ataque, encontrando que la ‘Extracción Directa’ fue el más efectivo. Estos modelos fueron robados de un codificador víctima de CIFAR10 recreado localmente utilizando 9.000 consultas del conjunto de prueba CIFAR10. Fuente: https://arxiv.org/pdf/2205.07890.pdf

Los investigadores también señalan que los métodos que son adecuados para proteger modelos supervisados de ataques no se adaptan bien a modelos entrenados en una base no supervisada – aunque dichos modelos representan algunos de los frutos más anticipados y celebrados del sector de síntesis de imágenes.

El nuevo artículo se titula Sobre la dificultad de defender el Aprendizaje Auto-supervisado contra la extracción de modelos, y proviene de la Universidad de Toronto y el Instituto Vector para la Inteligencia Artificial.

Conciencia de uno mismo

En el Aprendizaje Auto-supervisado, un modelo se entrena en datos no etiquetados. Sin etiquetas, un modelo de SSL debe aprender asociaciones y grupos a partir de la estructura implícita de los datos, buscando facetas similares de los datos y gradualmente reuniéndolas en nodos o representaciones.

Donde un enfoque de SSL es viable, es increíblemente productivo, ya que evita la necesidad de una costosa (a menudo subcontratada y controvertida) categorización por crowdworkers, y racionaliza esencialmente los datos de manera autónoma.

Los tres enfoques de SSL considerados por los autores del nuevo artículo son SimCLR, una Red Siamesa; SimSiam, otra Red Siamesa centrada en el aprendizaje de representaciones; y Barlow Twins, un enfoque de SSL que logró un rendimiento de clasificador de ImageNet de vanguardia en su lanzamiento en 2021.

La extracción de modelos para datos etiquetados (es decir, un modelo entrenado a través del aprendizaje supervisado) es un área de investigación relativamente bien documentada. También es más fácil de defender, ya que el atacante debe obtener las etiquetas del modelo víctima para recreararlo.

Un modelo de ataque de clasificador de 'imitación' contra una arquitectura de aprendizaje supervisado. Fuente: https://arxiv.org/pdf/1812.02766.pdf

De un artículo anterior, un modelo de ataque de clasificador de ‘imitación’ contra una arquitectura de aprendizaje supervisado. Fuente: https://arxiv.org/pdf/1812.02766.pdf

Sin acceso de caja blanca, esta no es una tarea trivial, ya que la salida típica de una solicitud de API a dicho modelo contiene menos información que con una API de SSL típica.

Del artículo*:

‘El trabajo pasado sobre la extracción de modelos se centró en el entorno de Aprendizaje Supervisado (SL), donde el modelo víctima generalmente devuelve una etiqueta u otras salidas de baja dimensión como puntuaciones de confianza o logits.

‘En contraste, los codificadores de SSL devuelven representaciones de alta dimensión; la de facto salida para un modelo Sim-CLR ResNet-50, una arquitectura popular en visión, es un vector de 2048 dimensiones.

‘Hipotetizamos que esta fuga de información significativamente mayor de los codificadores los hace más vulnerables a los ataques de extracción que los modelos de SL.’

Arquitectura y datos

Los investigadores probaron tres enfoques para la inferencia/extracción de modelos de SSL: Extracción Directa, en la que la salida de la API se compara con la salida de un codificador recreado a través de una función de pérdida apropiada como el Error Cuadrático Medio (MSE); recreando la cabeza de proyección, donde una funcionalidad analítica crucial del modelo, normalmente descartada antes de la implementación, se reensambla y se utiliza en un modelo réplica; y accediendo a la cabeza de proyección, que solo es posible en casos donde los desarrolladores originales han hecho que la arquitectura esté disponible.

En el método #1, Extracción Directa, la salida del modelo víctima se compara con la salida de un modelo local; el método #2 implica recrear la cabeza de proyección utilizada en la arquitectura de entrenamiento original (y que normalmente no se incluye en un modelo implementado).

Los investigadores encontraron que la Extracción Directa fue el método más efectivo para obtener una réplica funcional del modelo objetivo, y tiene el beneficio adicional de ser el más difícil de caracterizar como un ‘ataque’ (porque se comporta poco diferente a un usuario final típico y válido).

Los autores entrenaron modelos víctimas en tres conjuntos de datos de imágenes: CIFAR10, ImageNet, y los Números de Casas de la Calle de Stanford (SVHN). ImageNet se entrenó en ResNet50, mientras que CIFAR10 y SVHN se entrenaron en ResNet18 y ResNet24 sobre una implementación de PyTorch disponible gratuitamente de SimCLR.

El rendimiento downstream (es decir, implementado) de los modelos se probó contra CIFAR100, STL10, SVHN y Fashion-MNIST. Los investigadores también experimentaron con métodos más ‘de caja blanca’ de apropiación de modelos, aunque resultó que la Extracción Directa, el enfoque menos privilegiado, dio los mejores resultados.

Para evaluar las representaciones que se infieren y replican en los ataques, los autores agregaron una capa de predicción lineal al modelo, que se ajustó en el conjunto de entrenamiento completo etiquetado de la tarea posterior (downstream), con el resto de las capas de la red congeladas. De esta manera, la precisión de las pruebas en la capa de predicción puede funcionar como una métrica para el rendimiento. Dado que no contribuye al proceso de inferencia, esto no representa funcionalidad ‘de caja blanca’.

Resultados de las corridas de prueba, posibles gracias a la capa de Evaluación Lineal (no contribuyente). Puntuaciones de precisión en negrita.

Comentando sobre los resultados, los investigadores declaran:

‘Encontramos que el objetivo directo de imitar las representaciones de la víctima da un rendimiento alto en tareas downstream a pesar de que el ataque requiere solo una fracción (menos del 15% en ciertos casos) del número de consultas necesarias para entrenar al codificador robado en primer lugar.’

Y continúan:

‘[Es] desafiante defender codificadores entrenados con SSL, ya que las representaciones de salida filtran una cantidad sustancial de información. Los métodos de defensa más prometedores son métodos reactivos, como el marcado de agua, que pueden incrustar aumentos específicos en codificadores de alta capacidad.’

* Mi conversión de las citas en línea del artículo a enlaces.

Publicado por primera vez el 18 de mayo de 2022.