Inteligencia artificial

MARKLLM: Una herramienta de código abierto para el marcado de agua de LLM

Published July 9, 2024

Updated April 4, 2026

Kunal Kejriwal

MARKLLM: An Open-Source Toolkit for LLM Watermarking

El marcado de agua de LLM, que integra señales imperceptibles pero detectables dentro de las salidas del modelo para identificar el texto generado por LLM, es vital para prevenir el mal uso de los grandes modelos de lenguaje. Estas técnicas de marcado de agua se dividen principalmente en dos categorías: la familia KGW y la familia Christ. La familia KGW modifica los logits producidos por el LLM para crear una salida con marca de agua, categorizando el vocabulario en una lista verde y una lista roja en función del token anterior. Se introduce un sesgo en los logits de los tokens de la lista verde durante la generación de texto, favoreciendo estos tokens en el texto producido. Luego, se calcula una métrica estadística a partir de la proporción de palabras verdes, y se establece un umbral para distinguir entre texto con marca de agua y sin marca de agua. Las mejoras al método KGW incluyen una partición de lista mejorada, una manipulación de logits mejorada, una mayor capacidad de información de la marca de agua, resistencia a los ataques de eliminación de la marca de agua y la capacidad de detectar marcas de agua públicamente.

Por el contrario, la familia Christ altera el proceso de muestreo durante la generación de texto de LLM, incrustando una marca de agua al cambiar la forma en que se seleccionan los tokens. Ambas familias de marcado de agua tienen como objetivo equilibrar la detectabilidad de la marca de agua con la calidad del texto, abordando desafíos como la robustez en entornos de entropía variables, el aumento de la capacidad de información de la marca de agua y la protección contra intentos de eliminación. Las investigaciones recientes se han centrado en refinar la partición de listas y la manipulación de logits), mejorar la capacidad de información de la marca de agua, desarrollar métodos para resistir la eliminación de la marca de agua y habilitar la detección pública. En última instancia, el marcado de agua de LLM es crucial para el uso ético y responsable de grandes modelos de lenguaje, proporcionando un método para rastrear y verificar el texto generado por LLM. Las familias KGW y Christ ofrecen dos enfoques distintos, cada uno con sus propias fortalezas y aplicaciones, que evolucionan continuamente a través de la investigación y la innovación en curso.

Debido a la capacidad de los marcos de marcado de agua de LLM para incrustar señales detectables algorítmicamente en las salidas del modelo para identificar el texto generado por un marco de LLM, este está desempeñando un papel crucial en la mitigación de los riesgos asociados con el mal uso de los grandes modelos de lenguaje. Sin embargo, hay una abundancia de marcos de marcado de agua de LLM en el mercado actualmente, cada uno con sus propias perspectivas y procedimientos de evaluación, lo que hace que sea difícil para los investigadores experimentar con estos marcos fácilmente. Para contrarrestar este problema, MarkLLM, una herramienta de código abierto para el marcado de agua, ofrece un marco extensible y unificado para implementar algoritmos de marcado de agua de LLM, mientras proporciona interfaces de usuario amigables para garantizar la facilidad de uso y el acceso. Además, el marco MarkLLM admite la visualización automática de los mecanismos de estos marcos, lo que mejora la comprensión de estos modelos. El marco MarkLLM ofrece una suite integral de 12 herramientas que cubren tres perspectivas, junto con dos tuberías de evaluación automatizadas para evaluar su rendimiento. Este artículo tiene como objetivo cubrir el marco MarkLLM en profundidad, y exploramos el mecanismo, la metodología, la arquitectura del marco, junto con su comparación con los marcos de vanguardia. Así que comencemos.

MarkLLM: Una herramienta de marcado de agua de LLM

El surgimiento de marcos de modelos de lenguaje grandes como LLaMA, GPT-4, ChatGPT y más ha avanzado significativamente la capacidad de los modelos de AI para realizar tareas específicas, incluyendo la escritura creativa, la comprensión de contenido, la formación de recuperación y mucho más. Sin embargo, junto con los beneficios notables asociados con la habilidad excepcional de los modelos de lenguaje grandes actuales, ciertos riesgos han surgido, incluyendo la escritura fantasma de artículos académicos, las noticias y representaciones falsas generadas por LLM, y la impersonación individual, por nombrar algunos. Dado que los riesgos asociados con estos problemas, es vital desarrollar métodos confiables con la capacidad de distinguir entre el contenido generado por LLM y el contenido humano, un requisito principal para garantizar la autenticidad de la comunicación digital y prevenir la propagación de información errónea. Durante los últimos años, el marcado de agua de LLM ha sido recomendado como una de las soluciones prometedoras para distinguir el contenido generado por LLM del contenido humano, y al incorporar características distintas durante el proceso de generación de texto, las salidas de LLM se pueden identificar de forma única utilizando detectores especialmente diseñados. Sin embargo, debido a la proliferación y los algoritmos relativamente complejos de los marcos de marcado de agua de LLM, junto con la diversificación de las métricas de evaluación y las perspectivas, ha sido increíblemente difícil experimentar con estos marcos.

Para tender un puente sobre la brecha actual, el marco MarkLLM intenta hacer las siguientes contribuciones. MARKLLM ofrece interfaces consistentes y de usuario amigables para cargar algoritmos, generar texto con marca de agua, realizar procesos de detección y recopilar datos para la visualización. Proporciona soluciones de visualización personalizadas para ambas familias de algoritmos de marcado de agua principales, lo que permite a los usuarios ver cómo funcionan los diferentes algoritmos bajo varias configuraciones con ejemplos del mundo real. La herramienta incluye un módulo de evaluación integral con 12 herramientas que abordan la detectabilidad, la robustez y el impacto en la calidad del texto. Además, cuenta con dos tipos de tuberías de evaluación automatizadas que admiten la personalización de los conjuntos de datos, los modelos, las métricas de evaluación y los ataques, lo que facilita evaluaciones flexibles y exhaustivas. Diseñado con una arquitectura modular y suelta, MARKLLM mejora la escalabilidad y la flexibilidad. Esta elección de diseño admite la integración de nuevos algoritmos, técnicas de visualización innovadoras y la extensión de la herramienta de evaluación por parte de futuros desarrolladores.

Se han propuesto numerosos algoritmos de marcado de agua, pero sus enfoques de implementación únicos a menudo priorizan requisitos específicos sobre la estandarización, lo que conduce a varios problemas

Falta de estandarización en el diseño de clases: Esto requiere un esfuerzo significativo para optimizar o ampliar los métodos existentes debido a diseños de clases insuficientemente estandarizados.
Falta de uniformidad en las interfaces de llamada de nivel superior: Las interfaces inconsistentes hacen que el procesamiento por lotes y la replicación de diferentes algoritmos sean engorrosos y laboriosos.
Problemas de código estándar: Los desafíos incluyen la necesidad de modificar la configuración en varios segmentos de código y documentación inconsistente, lo que complica la personalización y el uso efectivo. Los valores codificados en duro y el manejo de errores inconsistente también obstaculizan la adaptabilidad y los esfuerzos de depuración.

Para abordar estos problemas, nuestra herramienta ofrece un marco de implementación unificado que permite la invocación conveniente de varios algoritmos de vanguardia bajo configuraciones flexibles. Además, nuestra estructura de clase cuidadosamente diseñada allana el camino para futuras extensiones. La siguiente figura muestra el diseño de este marco de implementación unificado.

Debido al diseño distributivo del marco, es sencillo para los desarrolladores agregar interfaces de nivel superior adicionales a cualquier clase de algoritmo de marcado de agua específica sin preocuparse por afectar otros algoritmos.

MarkLLM: Arquitectura y metodología

Las técnicas de marcado de agua de LLM se dividen principalmente en dos categorías: la familia KGW y la familia Christ. La familia KGW modifica los logits producidos por el LLM para crear una salida con marca de agua, categorizando el vocabulario en una lista verde y una lista roja en función del token anterior. Se introduce un sesgo en los logits de los tokens de la lista verde durante la generación de texto, favoreciendo estos tokens en el texto producido. Luego, se calcula una métrica estadística a partir de la proporción de palabras verdes, y se establece un umbral para distinguir entre texto con marca de agua y sin marca de agua. Las mejoras al método KGW incluyen una partición de lista mejorada, una manipulación de logits mejorada, una mayor capacidad de información de la marca de agua, resistencia a los ataques de eliminación de la marca de agua y la capacidad de detectar marcas de agua públicamente.

Evaluación automatizada integral

Evaluar un algoritmo de marcado de agua de LLM es una tarea compleja. Primero, requiere la consideración de varios aspectos, incluyendo la detectabilidad de la marca de agua, la robustez contra la manipulación y el impacto en la calidad del texto. En segundo lugar, las evaluaciones desde cada perspectiva pueden requerir diferentes métricas, escenarios de ataque y tareas. Además, realizar una evaluación típicamente implica múltiples pasos, como la selección del modelo y el conjunto de datos, la generación de texto con marca de agua, el procesamiento posterior, la detección de la marca de agua, la manipulación del texto y el cálculo de la métrica. Para facilitar la evaluación conveniente y exhaustiva de los algoritmos de marcado de agua de LLM, MarkLLM ofrece doce herramientas de usuario amigables, incluyendo varios calculadores de métricas y atacantes que cubren las tres perspectivas mencionadas anteriormente. Además, MARKLLM proporciona dos tipos de tuberías de demostración automatizadas, cuyos módulos se pueden personalizar y ensamblar de forma flexible, lo que permite una fácil configuración y uso..

Para el aspecto de la detectabilidad, la mayoría de los algoritmos de marcado de agua requieren finalmente especificar un umbral para distinguir entre textos con marca de agua y sin marca de agua. Proporcionamos un calculador básico de tasa de éxito utilizando un umbral fijo. Además, para minimizar el impacto de la selección del umbral en la detectabilidad, también ofrecemos un calculador que admite la selección dinámica del umbral. Esta herramienta puede determinar el umbral que produce la mejor puntuación F1 o seleccionar un umbral en función de una tasa de falsos positivos (FPR) objetivo especificada por el usuario.

Para el aspecto de la robustez, MARKLLM ofrece tres ataques de manipulación de texto a nivel de palabra: eliminación aleatoria de palabras a una proporción especificada, sustitución aleatoria de sinónimos utilizando WordNet como el conjunto de sinónimos y sustitución de sinónimos consciente del contexto utilizando BERT como el modelo de incrustación. Además, se proporcionan dos ataques de manipulación de texto a nivel de documento: parafrasear el contexto a través de la API de OpenAI o el modelo Dipper. Para el aspecto de la calidad del texto, MARKLLM ofrece dos herramientas de análisis directo: un calculador de perplexidad para medir la fluidez y un calculador de diversidad para evaluar la variabilidad de los textos. Para analizar el impacto del marcado de agua en la utilidad del texto en tareas específicas de downstream, proporcionamos un calculador de BLEU para tareas de traducción automática y un juez de aprobación o no para tareas de generación de código. Además, dado que los métodos actuales para comparar la calidad del texto con marca de agua y sin marca de agua, que incluyen el uso de un LLM más fuerte para el juicio, MarkLLM también ofrece un discriminador GPT, que utiliza GPT-4 para comparar la calidad del texto.

Tuberías de evaluación

Para facilitar la evaluación automatizada de los algoritmos de marcado de agua de LLM, MARKLLM proporciona dos tuberías de evaluación: una para evaluar la detectabilidad de la marca de agua con y sin ataques, y otra para analizar el impacto de estos algoritmos en la calidad del texto. Siguiendo este proceso, hemos implementado dos tuberías: WMDetect3 y UWMDetect4. La principal diferencia entre ellos radica en la fase de generación de texto. La primera requiere el uso del método generate_watermarked_text del algoritmo de marcado de agua, mientras que la segunda depende del parámetro text_source para determinar si recuperar texto natural de un conjunto de datos o invocar el método generate_unwatermarked_text.

Para evaluar el impacto del marcado de agua en la calidad del texto, se generan pares de textos con marca de agua y sin marca de agua. Los textos, junto con otras entradas necesarias, se procesan y se alimentan a un analizador de calidad de texto designado para producir resultados de análisis y comparación detallados. Siguiendo este proceso, hemos implementado tres tuberías para diferentes escenarios de evaluación:

DirectQual.5: Esta tubería está diseñada específicamente para analizar la calidad de los textos comparando directamente las características de los textos con marca de agua con las de los textos sin marca de agua. Evalúa métricas como la perplexidad (PPL) y la diversidad logarítmica, sin necesidad de textos de referencia externos.
RefQual.6: Esta tubería evalúa la calidad del texto comparando tanto los textos con marca de agua como los sin marca de agua con un texto de referencia común. Mide el grado de similitud o desviación del texto de referencia, lo que la hace ideal para escenarios que requieren tareas de downstream específicas para evaluar la calidad del texto, como la traducción automática y la generación de código.
ExDisQual.7: Esta tubería emplea un juez externo, como GPT-4 (OpenAI, 2023), para evaluar la calidad de los textos con marca de agua y sin marca de agua. El discriminador evalúa los textos en función de las descripciones de tareas proporcionadas por el usuario, identificando cualquier posible degradación o preservación de la calidad debido al marcado de agua. Este método es particularmente valioso cuando se requiere un análisis avanzado basado en AI de los efectos sutiles del marcado de agua.

MarkLLM: Experimentos y resultados

Para evaluar su rendimiento, el marco MarkLLM realiza evaluaciones en nueve algoritmos diferentes y evalúa su impacto, robustez y detectabilidad en la calidad del texto.

La tabla anterior contiene los resultados de la evaluación de la detectabilidad de nueve algoritmos admitidos en MarkLLM.

Pensamientos finales

En este artículo, hemos hablado sobre MarkLLM, una herramienta de código abierto para el marcado de agua que ofrece un marco extensible y unificado para implementar algoritmos de marcado de agua de LLM, mientras proporciona interfaces de usuario amigables para garantizar la facilidad de uso y el acceso. Además, el marco MarkLLM admite la visualización automática de los mecanismos de estos marcos, lo que mejora la comprensión de estos modelos. El marco MarkLLM ofrece una suite integral de 12 herramientas que cubren tres perspectivas, junto con dos tuberías de evaluación automatizadas para evaluar su rendimiento.

Kunal Kejriwal

Un ingeniero por profesión, un escritor por corazón. Kunal es un escritor técnico con un profundo amor y comprensión de la IA y el ML, dedicado a simplificar conceptos complejos en estos campos a través de su documentación atractiva e informativa.