Connect with us

Ángulo de Anderson

Identificar el robo de modelos de IA a través de datos de seguimiento secretos

mm
George Washington winking and smiling on the one dollar bill. Source: https://en.wikipedia.org/wiki/Marked_bill + Flux Edit and Adobe Firefly V3

Un nuevo método puede marcar secretamente modelos como ChatGPT en segundos sin necesidad de volver a entrenar, sin dejar rastro en la salida general y sobreviviendo a todos los intentos de eliminación factibles.

 

La sutil diferencia entre marcar con agua y “cebo de derechos de autor” es que las marcas de agua – ya sean abiertas o ocultas – suelen estar destinadas a aparecer en una colección (como un conjunto de datos de imágenes) como una obstrucción ubicua para la copia casual.

Por el contrario, una entrada ficticia es un pequeño segmento de texto, generalmente una palabra o una definición presentada en una colección grande y relativamente genérica, diseñada para probar el robo. La idea es que cuando se copia toda la obra de manera ilegítima, ya sea en sí misma o como base para una obra derivada, la presencia de un “hecho único” y espurio, plantado por el propietario original, revelará fácilmente el acto de robo.

En términos de agregar marcas de agua a los Modelos de Lenguaje Grande (LLMs) y Modelos de Lenguaje de Visión (VLMs), el grado en que la salida está destinada a contener estas señales de advertencia es a menudo dividido entre estos dos objetivos: asegurar que toda o la mayoría de la salida contenga una marca de agua manifiesta o latente; o asegurar que se pueda recuperar un “token secreto” que pruebe el robo – pero que no aparezca en la salida regular del modelo.

El peso de la evidencia

El segundo enfoque se aborda en una interesante colaboración nueva entre China, Italia y Singapur; un trabajo que tiene como objetivo proporcionar un método de divulgación a modelos de código abierto, para que no puedan comercializarse fácilmente, o utilizarse de otras maneras que no permita la licencia original.

Por ejemplo, la licencia original de un modelo puede insistir en que cualquier persona puede obtener beneficios del trabajo siempre y cuando hagan sus propias alteraciones o enmiendas disponibles públicamente bajo los mismos términos generosos de licencia – pero una empresa puede desear controlar sus “ajustes” (como versiones ajustadas), para generar un foso donde no hay ninguno realmente permitido.

La mayoría de la investigación en esta línea se ocupa de rutinas de detección relacionadas con modelos de código cerrado, API solo o modelos para los cuales solo están disponibles pesos optimizados (cuantificados) pesos y que, por lo tanto, son más difíciles de editar y alterar de la manera que propone el nuevo documento (porque no hay acceso directo a la arquitectura del modelo en sí).

Esta atención a las versiones de FOSS es, quizás, poco sorprendente desde el sector de investigación chino, ya que la producción de IA de China ha estado marcada en el último año por generosas versiones de modelos que al menos rivalizan con los equivalentes más “bloqueados” del oeste.

El nuevo enfoque, titulado EditMark, se distingue por no requerir que el modelo se ajuste para agregar los datos “envenenados”, ni que se haya entrenado desde el principio con los datos incluidos.

Escritor sobre aprendizaje automático, especialista en síntesis de imágenes humanas. Anterior jefe de contenido de investigación en Metaphysic.ai.