Ángulo de Anderson
Identificando el robo de modelos de inteligencia artificial a través de datos de seguimiento secretos

Un nuevo método puede marcar secretamente modelos como ChatGPT en cuestión de segundos sin necesidad de volver a entrenar, sin dejar rastro en la salida general y sobreviviendo a todos los intentos de eliminación factibles.
La sutil diferencia entre marcar con un sello de agua y “cebo de derechos de autor” es que los sellos de agua, ya sean abiertos o ocultos, suelen aparecer en toda una colección (como un conjunto de datos de imágenes) como una obstrucción generalizada a la copia casual.
Por el contrario, una entrada ficticia es un segmento pequeño de texto, generalmente una palabra o una definición presentada en una colección grande y relativamente genérica, diseñada para probar el robo. La idea es que cuando se copia ilegítimamente toda la obra, ya sea en sí misma o como base para una obra derivada, la presencia de un “hecho” único y espurio, plantado por el propietario original, revelará fácilmente el acto de robo.
En cuanto a agregar sellos de agua a modelos de lenguaje grande (LLM) y modelos de visión y lenguaje (VLM), el grado en que la salida está destinada a contener estas señales de identificación es a menudo dividido entre estos dos objetivos: garantizar que toda o la mayoría de la salida contenga un sello de agua manifiesto o latente; o garantizar que se pueda recuperar un “token secreto” que pruebe el robo, pero que no aparezca en la salida regular del modelo.
El (los) peso(s) de la evidencia
El segundo enfoque se aborda en una interesante colaboración nueva entre China, Italia y Singapur; un trabajo que tiene como objetivo proporcionar un método de divulgación a modelos de código abierto, para que no puedan comercializarse fácilmente o utilizarse de maneras que la licencia original no permita.
Por ejemplo, la licencia original de un modelo puede insistir en que cualquier persona puede obtener beneficios del trabajo siempre y cuando hagan sus propias alteraciones o enmiendas disponibles públicamente bajo los mismos términos de licencia generosos, pero una empresa puede desear mantener en secreto sus “ajustes” (como versiones ajustadas), para generar un foso donde en realidad no hay ninguno permitido.
La mayoría de la investigación en esta línea se ocupa de rutinas de detección relacionadas con modelos de código cerrado, solo API, o modelos para los cuales solo están disponibles pesos optimizados (cuantizados); y que, por lo tanto, son más difíciles de editar y alterar de la manera que el nuevo documento propone (porque no hay acceso directo a la arquitectura del modelo en sí).
Esta atención a las versiones de FOSS es, quizás, poco sorprendente desde el sector de investigación chino, ya que la producción de inteligencia artificial de China ha estado marcada en el último año por lanzamientos generosos de modelos que al menos rivalizan con los equivalentes occidentales más “cerrados”.
El nuevo enfoque, titulado EditMark, se distingue por no requerir que el modelo se ajuste fino para agregar los datos “envenenados”, ni que se entrene desde el principio con los datos incluidos.
Esto tiene varios beneficios: uno es que cualquier dato “de revelación” incluido en el conjunto de datos de entrenamiento, una vez descubierto y divulgado, ya no será efectivo, ya que puede ser dirigido directamente por los atacantes; pero para atacar EditMark, un malhechor necesitaría saber qué capa del modelo atacar y qué enfoque se ha tomado. Esto es un escenario poco probable.
En segundo lugar, el enfoque es rápido y barato, toma cuestión de segundos (en lugar de días o incluso semanas) para aplicarse a un modelo entrenado, lo que elimina el grave gasto de ajuste fino (que aumenta linealmente con el tamaño del modelo y los datos a aplicar).
Finalmente, el enfoque hace mucho menos daño a la operación normal del modelo objetivo que cualquier otro método de edición o ajuste fino anterior.
En las pruebas, EditMark – que incorpora consultas matemáticas con múltiples respuestas posibles en los pesos del modelo – logró una tasa de extracción del 100%.
Los autores afirman:
‘Experimentos exhaustivos demuestran el rendimiento excepcional de EditMark en la marca de agua de LLM. EditMark logra una eficiencia notable al incorporar una marca de agua de 32 bits en menos de 20 segundos con una tasa de extracción de marca de agua del 100% (ESR).
‘Cabe destacar que el tiempo de incorporación de la marca de agua es menos de 1/300 del ajuste fino (promedio 6,875 segundos), lo que destaca la efectividad de EditMark para implementar marcas de agua de alta capacidad con una velocidad y confiabilidad sin precedentes.
‘Además, experimentos extensivos validan la robustez, la sigilo y la fidelidad de EditMark.’
El nuevo documento se titula EditMark: Marca de agua de modelos de lenguaje grande basada en edición de modelo, y proviene de ocho autores de la Universidad de Ciencia y Tecnología de China, la Universidad de Siena y CFAR/IHPC/A*STAR en Singapur.
Método
El enfoque de EditMark consta de cuatro componentes: un Generador, un Codificador, un Editor y un Decodificador:

La tubería de EditMark incorpora una marca de agua editando un modelo para responder a preguntas matemáticas específicas de una manera que codifica información de identificación oculta. Fuente: https://arxiv.org/pdf/2510.16367
El Generador utiliza una semilla pseudoaleatoria semilla para construir preguntas matemáticas con múltiples respuestas; el Codificador selecciona respuestas en función de la marca de agua, que luego se incorporan al modelo a través de un proceso de edición especializado. Una vez que el modelo editado se lanza o se utiliza indebidamente, la marca de agua se puede extraer haciendo las mismas preguntas y decodificando el patrón de respuestas.
Posteriormente, el Editor modifica los pesos del modelo para que, cuando se le hagan estas preguntas sembradas, el modelo produzca de manera fiable las respuestas objetivo, incorporando la marca de agua directamente en su comportamiento. El Decodificador luego recupera la marca de agua alimentando las mismas preguntas al modelo sospechoso y traduciendo sus respuestas de regreso a la firma oculta.
Modelo de amenaza
El modelo de amenaza del documento supone que la marca de agua se realiza en un entorno de caja blanca. Aunque esto no suele ser un buen signo en la investigación relacionada con la seguridad, aquí es normal, ya que el método tiene como objetivo proteger a los propietarios que tienen acceso completo a su propio trabajo.
Se supone que el atacante también tiene acceso a la caja blanca después de obtener el modelo, lo que significa que puede modificarlo (por ejemplo, mediante poda o ajuste fino). Nuevamente, este escenario es normal y esperado en el caso de un lanzamiento de FOSS. Sin embargo, el atacante no tiene conocimiento del proceso de extracción de la marca de agua ni del esquema utilizado, y solo puede encontrar este método por inferencia y experimentación (o fugas).
El Generador construye preguntas matemáticas lógica y factualmente válidas con múltiples respuestas correctas, utilizando GPT-4o para diversificar plantillas (como se ilustra a continuación), y una semilla pseudoaleatoria para garantizar que cada pregunta sea única. Esto permite que una marca de agua conocida se incorpore determinísticamente a través de permutaciones de respuestas, mientras se minimiza la superposición entre preguntas, para evitar la entrelazamiento de edición:

Plantillas de preguntas generadas por GPT-4o para la incorporación de marcas de agua, cada una estructurada para producir múltiples respuestas enteras válidas a partir de una desigualdad sembrada.
El Codificador transforma cada segmento de marca de agua binaria en una permutación única de enteros extraídos del conjunto de soluciones de una pregunta matemática determinada. Utilizando la teoría de permutación lexicográfica, el Codificador asigna el valor decimal de cada fragmento de marca de agua a una selección ordenada específica de respuestas, garantizando que la marca de agua se incorpore determinísticamente en el comportamiento del modelo.
En cuanto al Editor, el método de edición de modelo original AlphaEdit utilizado para la marca de agua carece de precisión y resistencia, con el modelo editado que a menudo no devuelve las respuestas requeridas. Cualquier cambio que haga se ve fácilmente roto por la poda o el ruido.
Para superar esto, los autores han ideado una estrategia de edición de varias rondas que ajusta gradualmente los pesos del modelo en una sola capa MLP hasta que sus respuestas estén lo suficientemente alineadas con las respuestas objetivo. Para endurecer los ediciones contra el ataque, también se inyecta ruido gaussiano durante el entrenamiento, para simular ataques:

Distribución de cambios en K1 para Baichuan-7B, Qwen-7B y LLaMA3-8B antes y después de los ataques. La fila superior muestra el efecto de la inyección de ruido aleatorio; la fila inferior muestra el efecto de la poda del modelo. Todos los cambios permanecen cerca de cero, lo que sugiere que los ataques no interrumpen significativamente el comportamiento interno del modelo.
Un sistema de puntuación detiene el proceso una vez que los ediciones son lo suficientemente precisas, mientras que la regularización garantiza que las actualizaciones permanezcan estables durante varias rondas.
El Decodificador hace al modelo las mismas preguntas especiales utilizadas durante la marca de agua, luego lee sus respuestas para inferir la identificación oculta. Dado que el patrón de respuestas sigue una regla secreta, esta identificación se puede recuperar sin necesidad de examinar los internos del modelo.
Datos y pruebas
Para poner a prueba EditMark, se evaluaron cinco LLM: GPT2-X; GPT-J-6B; LLaMA-3-8B; Baichuan-7B; y Qwen-7B. El mencionado AlphaEdit se utilizó para incorporar marcas de agua, mientras que la tasa de extracción de la marca de agua (ESR) y el tiempo de incorporación (ET) fueron las métricas adoptadas.
Para las líneas de base, los autores eligieron Model Watermark (puerta trasera); KIMark; y BadEdit, un marco originalmente diseñado para la inyección de puerta trasera, aquí adaptado a los propios fines del proyecto.
Los autores editaron la capa 15 de LLaMA-3-8; la capa 17 de GPT2-XL y GPT-J-6B; y la capa 14 de Qwen-7B y Baichuan-7B.
Los experimentos se llevaron a cabo en cuatro GPU NVIDIA RTX 4090 (24 GB de VRAM cada uno), con marcas de agua de 32 bits, 64 bits y 128 bits incorporadas. Las plantillas de preguntas utilizadas se detallan en la imagen a continuación:

Plantillas utilizadas para generar preguntas con múltiples respuestas (MA) para la marca de agua. Cada pregunta se basa en un tipo diferente de desigualdad matemática, con valores aleatorios insertados para las variables. El modelo se le pide que devuelva una lista de soluciones enteras, con el orden de las respuestas utilizado para codificar o decodificar bits de la marca de agua. Las cuatro plantillas cubren formas cuadráticas, logarítmicas, racionales y basadas en intervalos, y todas se generaron utilizando GPT-4o.
Para reducir los efectos del azar, se aplicaron semillas del 1 al 20 durante las pruebas, en diferentes capacidades de marca de agua.
Inicialmente, los investigadores probaron tanto la tasa de extracción de la marca de agua como el costo de tiempo en la incorporación de una marca de agua en el rango de LLM:

Comparación de EditMark frente a tres métodos de marca de agua anteriores en cinco modelos de lenguaje grande. Se informan la tasa de extracción de la marca de agua (ESR) y el tiempo de incorporación (ET) en segundos. EditMark logra consistentemente una tasa de extracción del 100% mientras reduce el tiempo de incorporación en varios órdenes de magnitud, superando a todas las líneas de base en precisión y eficiencia en modelos de diferentes tamaños y arquitecturas.
De estos resultados, los autores afirman:
‘[EditMark] logra una tasa de extracción de la marca de agua del 100% y requiere menos de 20 segundos para incorporar una marca de agua de 32 bits para todos los LLM evaluados. En particular, el tiempo de incorporación promedio para Baichuan-7B y Qwen-7B es inferior a 10 segundos, lo que demuestra la alta eficiencia de EditMark.’
Para la evaluación de una marca de agua de 128 bits, el valor más alto factible en este esquema, EditMark fue capaz de mantener un estado de “indelebilidad”:

Tasas de extracción de la marca de agua y tiempos de incorporación para EditMark en longitudes de marca de agua de 32, 64 y 128 bits en cinco modelos de lenguaje. Se mantienen tasas de extracción perfectas en todos los casos, mientras que el tiempo de incorporación aumenta con el tamaño de la marca de agua, pero permanece por debajo de un minuto, incluso a 128 bits.
Después, se probó la capacidad del sistema para mantener la fidelidad de la marca de agua en varios benchmarks:

Evaluación de la fidelidad de la marca de agua en cuatro benchmarks en cinco modelos, comparando modelos no modificados con modelos con marcas de agua de 32 bits y 128 bits. El rendimiento permaneció estable en todas las configuraciones, con solo pequeñas fluctuaciones en las puntuaciones promedio, lo que indica un impacto limitado en la precisión del benchmark por la inserción de la marca de agua.
La resistencia de EditMark se probó contra seis estrategias de ataque comunes. Los modelos se incorporaron primero con marcas de agua de 128 bits utilizando cinco semillas diferentes. El ajuste fino, como se muestra en la imagen a continuación, causó solo una ligera degradación en las tasas de extracción de la marca de agua (ESR) para la mayoría de los modelos:

Tasa de extracción de la marca de agua (ESR) de modelos de lenguaje grande con marcas de agua antes y después del ajuste fino durante uno a tres épocas. Mientras que la mayoría de los modelos mantienen una ESR alta en todo momento, Qwen-7B muestra un declive marcado, lo que sugiere una mayor vulnerabilidad a las actualizaciones de parámetros.
Incluso después de múltiples épocas, la mayoría de los modelos mantuvieron ESR por encima del 90%, lo que indica que EditMark resiste el desplazamiento de parámetros introducido por el entrenamiento LoRA.
Los ataques de cuantización redujeron la precisión del modelo, pero dejaron la mayoría de las marcas de agua intactas:

Tasa de extracción de la marca de agua (ESR) de modelos con marcas de agua antes y después de la cuantización utilizando precisión Int-8 y Int-4. La ESR permanece sin cambios bajo la cuantización Int-8 en todos los modelos, mientras que la cuantización Int-4 causa una degradación parcial, lo que indica que una precisión más baja puede debilitar, pero no eliminar completamente la marca de agua.
Como se puede ver en la imagen de arriba, la cuantización Int-8 preservó una ESR del 100% en todos los modelos, mientras que la cuantización Int-4 tuvo un impacto moderado en la ESR, pero introdujo pérdidas de rendimiento inaceptables.
Como señala el documento, este escenario en particular sugiere un potencial limitado para un atacante, ya que esto resulta en un modelo pirateado pero con un rendimiento degradado.
Las pruebas de ruido y poda evaluaron cuatro marcos de benchmark: MMLU; BLIMP; TruthfulQA; y GLUE. Estos ataques llevaron a una disminución de la ESR a medida que se intensificaban las perturbaciones:

Efecto de los ataques de ruido (fila superior) y poda (fila inferior) en la ESR y el rendimiento de los modelos con marcas de agua. A medida que la ESR disminuye con la intensificación de las perturbaciones, la precisión del benchmark también se degrada, especialmente a intensidades de ruido más altas y ratios de poda, lo que destaca la tensión habitual entre la eliminación de la marca de agua y la utilidad del modelo.
Sin embargo, estos también causaron declives pronunciados en el rendimiento de la tarea, con Baichuan-7B recibiendo un declive del 27-31% en BLIMP cuando se aplicó ruido o poda.
También se evaluaron los ataques de edición de modelo y adaptativos:

Tasa de extracción de la marca de agua de modelos con marcas de agua sometidos a diferentes grados de edición de modelo. Incluso con hasta cincuenta ediciones aplicadas a capas de marca de agua conocidas, la ESR permanece por encima del 95% para todos los modelos, lo que indica que las modificaciones directas de parámetros tienen un efecto limitado en la eliminación de la marca de agua.
Aquí EditMark retuvo más del 95% de la ESR, incluso cuando se dirigieron capas de marca de agua exactas.
Conclusión
La gestión de derechos digitales, las marcas de agua secretas y otros enfoques de seguridad que han disfrutado de (limitado o parcial) éxito en la era pre-IA son difíciles de aplicar a los sistemas de aprendizaje automático; la naturaleza intencionalmente reduccionista de la gama actual de arquitecturas de host se combina con la falta de herramientas adecuadas, lo que hace que cualquier marca de agua insertada sea bastante frágil.
Es impresionante ver un sistema dirigido a la distribución de modelos de código abierto, y ver que sobrevive a todos los escenarios, excepto los más poco probables, en términos del conocimiento previo de un atacante. Sin embargo, la ligera caída en el rendimiento que viene con las ediciones posteriores al entrenamiento, pequeña aunque sea en estos experimentos, puede dar a los posibles adoptantes una razón para dudar; no menos porque retirarse a un modelo de control basado en API obvia estos ataques casi por completo.
* Este sitio ha argumentado que los lanzamientos de ‘pesos abiertos’ de China no necesariamente califican como completamente de código abierto, ya que a menudo se retiene datos, lo que impide la recreación exacta de la tubería de entrenamiento. Cabe argumentar que este tema invita a una mirada más profunda a la política de lanzamientos de modelos de IA en comparación entre el oeste y el este, lo que está más allá del alcance de este artículo.
Publicado por primera vez el lunes 27 de octubre de 2025












