Inteligência artificial

MARKLLM: Uma Ferramenta de Código Aberto para Marca d’Água de LLM

Published July 9, 2024

Updated April 4, 2026

Kunal Kejriwal

MARKLLM: An Open-Source Toolkit for LLM Watermarking

A marca d’água de LLM, que integra sinais imperceptíveis, mas detectáveis, dentro das saídas do modelo para identificar textos gerados por LLMs, é vital para prevenir o mau uso de grandes modelos de linguagem. Essas técnicas de marca d’água são principalmente divididas em duas categorias: a Família KGW e a Família Christ. A Família KGW modifica os logits produzidos pelo LLM para criar saídas com marca d’água, categorizando o vocabulário em uma lista verde e uma lista vermelha com base no token anterior. Viés é introduzido nos logits dos tokens da lista verde durante a geração de texto, favorecendo esses tokens no texto produzido. Uma métrica estatística é então calculada a partir da proporção de palavras verdes, e um limiar é estabelecido para distinguir entre textos com marca d’água e sem marca d’água. Melhorias no método KGW incluem partitionamento de lista aprimorado, manipulação de logit melhorada, aumento da capacidade de informação de marca d’água, resistência a ataques de remoção de marca d’água e a capacidade de detectar marcas d’água publicamente.

Por outro lado, a Família Christ altera o processo de amostragem durante a geração de texto de LLM, incorporando uma marca d’água alterando como os tokens são selecionados. Ambas as famílias de marca d’água visam equilibrar a detectabilidade da marca d’água com a qualidade do texto, abordando desafios como robustez em configurações de entropia variadas, aumento da capacidade de informação de marca d’água e proteção contra tentativas de remoção. Pesquisas recentes se concentraram em refinar o partitionamento de lista e a manipulação de logit, melhorar a capacidade de informação de marca d’água, desenvolver métodos para resistir à remoção de marca d’água e permitir a detecção pública. Em última análise, a marca d’água de LLM é crucial para o uso ético e responsável de grandes modelos de linguagem, fornecendo um método para rastrear e verificar textos gerados por LLM. As Famílias KGW e Christ oferecem duas abordagens distintas, cada uma com forças e aplicações únicas, evoluindo continuamente por meio de pesquisas e inovações em andamento.

Devido à capacidade dos quadros de marca d’água de LLM de incorporar sinais detectáveis algoritmicamente nas saídas do modelo para identificar textos gerados por um quadro de LLM, esse quadro está desempenhando um papel crucial na mitigação dos riscos associados ao mau uso de grandes modelos de linguagem. No entanto, há uma abundância de quadros de marca d’água de LLM no mercado atualmente, cada um com suas próprias perspectivas e procedimentos de avaliação, tornando difícil para os pesquisadores experimentar com esses quadros facilmente. Para contrariar esse problema, MarkLLM, uma ferramenta de código aberto para marca d’água, oferece um quadro extensível e unificado para implementar algoritmos de marca d’água de LLM, enquanto fornece interfaces de usuário amigáveis para garantir facilidade de uso e acesso. Além disso, o quadro MarkLLM suporta a visualização automática dos mecanismos desses quadros, melhorando a compreensão desses modelos. O quadro MarkLLM oferece uma suíte abrangente de 12 ferramentas que cobrem três perspectivas, juntamente com duas linhas de avaliação automatizadas para avaliar seu desempenho. Este artigo visa cobrir o quadro MarkLLM em profundidade, e exploramos o mecanismo, a metodologia, a arquitetura do quadro, juntamente com sua comparação com quadros de estado da arte. Vamos começar.

MarkLLM: Uma Ferramenta de Marca d’Água de LLM

O surgimento de quadros de grandes modelos de linguagem, como LLaMA, GPT-4, ChatGPT e mais, progrediu significativamente a capacidade dos modelos de IA de realizar tarefas específicas, incluindo escrita criativa, compreensão de conteúdo, formação de recuperação e muito mais. No entanto, juntamente com os benefícios notáveis associados à proficiência excepcional dos atuais grandes modelos de linguagem, certains riscos surgiram, incluindo ghostwriting de artigos acadêmicos, notícias e representações falsas geradas por LLM e impersonação individual, para citar alguns. Dada a importância dos riscos associados a essas questões, é vital desenvolver métodos confiáveis com a capacidade de distinguir entre conteúdo gerado por LLM e humano, um requisito principal para garantir a autenticidade da comunicação digital e prevenir a propagação de desinformação. Nos últimos anos, a marca d’água de LLM tem sido recomendada como uma das soluções promissoras para distinguir entre conteúdo gerado por LLM e humano, e incorporando recursos distintos durante o processo de geração de texto, as saídas de LLM podem ser identificadas de forma única usando detectores projetados especificamente. No entanto, devido à proliferação e aos algoritmos relativamente complexos dos quadros de marca d’água de LLM, juntamente com a diversificação de métricas e perspectivas de avaliação, tornou-se incrivelmente difícil experimentar com esses quadros.

Para pontuar a lacuna atual, o quadro MarkLLM tenta fazer as seguintes contribuições. O MarkLLM oferece interfaces consistentes e amigáveis para carregar algoritmos, gerar texto com marca d’água, realizar processos de detecção e coletar dados para visualização. Ele fornece soluções de visualização personalizadas para ambas as principais famílias de algoritmos de marca d’água, permitindo que os usuários vejam como diferentes algoritmos funcionam sob várias configurações com exemplos do mundo real. O kit de ferramentas inclui um módulo de avaliação abrangente com 12 ferramentas que abordam detectabilidade, robustez e impacto na qualidade do texto. Além disso, ele apresenta dois tipos de linhas de avaliação automatizadas que suportam a personalização do usuário de conjuntos de dados, modelos, métricas de avaliação e ataques, facilitando avaliações flexíveis e abrangentes. Projetado com uma arquitetura modular e solta, o MarkLLM melhora a escalabilidade e flexibilidade. Essa escolha de design suporta a integração de novos algoritmos, técnicas de visualização inovadoras e a extensão do kit de ferramentas de avaliação por desenvolvedores futuros.

Vários algoritmos de marca d’água foram propostos, mas suas abordagens de implementação únicas frequentemente priorizam requisitos específicos sobre a padronização, levando a vários problemas

Falta de Padronização no Design de Classe: Isso exige um esforço significativo para otimizar ou estender métodos existentes devido a designs de classe insuficientemente padronizados.
Falta de Uniformidade em Interfaces de Chamada de Nível Superior: Interfaces inconsistentes tornam o processamento em lote e a replicação de diferentes algoritmos difíceis e trabalhosos.
Problemas de Padrão de Código: Desafios incluem a necessidade de modificar configurações em várias seções de código e documentação inconsistente, complicando a personalização e o uso eficaz. Valores codificados e tratamento de erros inconsistentes ainda mais dificultam a adaptabilidade e os esforços de depuração.

Para abordar esses problemas, nossa ferramenta oferece um quadro de implementação unificado que permite a invocação conveniente de vários algoritmos de estado da arte sob configurações flexíveis. Além disso, nossa estrutura de classe projetada com cuidado abre caminho para extensões futuras. A figura a seguir demonstra o design desse quadro de implementação unificado.

Devido ao design distributivo do quadro, é direto para os desenvolvedores adicionarem interfaces de nível superior a qualquer classe de algoritmo de marca d’água específica sem preocupação com impactar outros algoritmos.

MarkLLM: Arquitetura e Metodologia

Técnicas de marca d’água de LLM são principalmente divididas em duas categorias: a Família KGW e a Família Christ. A Família KGW modifica os logits produzidos pelo LLM para criar saídas com marca d’água, categorizando o vocabulário em uma lista verde e uma lista vermelha com base no token anterior. Viés é introduzido nos logits dos tokens da lista verde durante a geração de texto, favorecendo esses tokens no texto produzido. Uma métrica estatística é então calculada a partir da proporção de palavras verdes, e um limiar é estabelecido para distinguir entre textos com marca d’água e sem marca d’água. Melhorias no método KGW incluem partitionamento de lista aprimorado, manipulação de logit melhorada, aumento da capacidade de informação de marca d’água, resistência a ataques de remoção de marca d’água e a capacidade de detectar marcas d’água publicamente.

Avaliação Automática Abrangente

Avaliar um algoritmo de marca d’água de LLM é uma tarefa complexa. Primeiramente, é necessário considerar vários aspectos, incluindo detectabilidade da marca d’água, robustez contra manipulação e impacto na qualidade do texto. Em segundo lugar, avaliações de cada perspectiva podem exigir métricas, cenários de ataque e tarefas diferentes. Além disso, realizar uma avaliação geralmente envolve várias etapas, como seleção de modelo e conjunto de dados, geração de texto com marca d’água, pós-processamento, detecção de marca d’água, manipulação de texto e cálculo de métrica. Para facilitar a avaliação conveniente e abrangente de algoritmos de marca d’água de LLM, o MarkLLM oferece doze ferramentas amigáveis, incluindo vários calculadores de métricas e atacantes que cobrem as três perspectivas mencionadas anteriormente. Além disso, o MarkLLM fornece duas linhas de avaliação automatizadas demo, cujos módulos podem ser personalizados e montados de forma flexível, permitindo configuração e uso fáceis.

Para o aspecto de detectabilidade, a maioria dos algoritmos de marca d’água exige, em última análise, especificar um limiar para distinguir entre textos com marca d’água e sem marca d’água. Fornecemos um calculador básico de taxa de sucesso usando um limiar fixo. Além disso, para minimizar o impacto da seleção do limiar na detectabilidade, também oferecemos um calculador que suporta a seleção dinâmica do limiar. Essa ferramenta pode determinar o limiar que produz a melhor pontuação F1 ou selecionar um limiar com base em uma taxa de falsos positivos (FPR) de destino especificada pelo usuário.

Para o aspecto de robustez, o MarkLLM oferece três ataques de manipulação de texto em nível de palavra: exclusão aleatória de palavras em uma proporção especificada, substituição aleatória de sinônimos usando WordNet como o conjunto de sinônimos e substituição de sinônimos sensível ao contexto utilizando BERT como o modelo de incorporação. Além disso, dois ataques de manipulação de texto em nível de documento são fornecidos: reescrita do contexto via OpenAI API ou o modelo Dipper. Para o aspecto de qualidade do texto, o MarkLLM oferece duas ferramentas de análise direta: um calculador de perplexidade para medir a fluência e um calculador de diversidade para avaliar a variabilidade dos textos. Para analisar o impacto da marca d’água na utilidade do texto em tarefas downstream específicas, fornecemos um calculador de BLEU para tarefas de tradução automática e um juiz de aprovação ou reprovação para tarefas de geração de código. Além disso, dado os métodos atuais para comparar a qualidade de textos com marca d’água e sem marca d’água, que incluem o uso de um LLM mais forte para julgamento, o MarkLLM também oferece um discriminador GPT, utilizando o GPT-4 para comparar a qualidade do texto.

Linhas de Avaliação

Para facilitar a avaliação automatizada de algoritmos de marca d’água de LLM, o MarkLLM fornece duas linhas de avaliação: uma para avaliar a detectabilidade da marca d’água com e sem ataques, e outra para analisar o impacto desses algoritmos na qualidade do texto. Seguindo esse processo, implementamos duas linhas de avaliação: WMDetect3 e UWMDetect4. A principal diferença entre elas reside na fase de geração de texto. A primeira exige o uso do método generate_watermarked_text do algoritmo de marca d’água, enquanto a segunda depende do parâmetro text_source para determinar se deve recuperar texto natural de um conjunto de dados ou invocar o método generate_unwatermarked_text.

Para avaliar o impacto da marca d’água na qualidade do texto, pares de textos com marca d’água e sem marca d’água são gerados. Os textos, juntamente com outras entradas necessárias, são então processados e alimentados em um analisador de qualidade de texto designado para produzir resultados de análise e comparação detalhados. Seguindo esse processo, implementamos três linhas de avaliação para diferentes cenários de avaliação:

DirectQual.5: Essa linha de avaliação é projetada especificamente para analisar a qualidade dos textos comparando as características de textos com marca d’água com as de textos sem marca d’água. Ela avalia métricas como perplexidade (PPL) e diversidade logarítmica, sem a necessidade de textos de referência externos.
RefQual.6: Essa linha de avaliação avalia a qualidade do texto comparando tanto textos com marca d’água quanto textos sem marca d’água com um texto de referência comum. Ela mede o grau de similaridade ou desvio do texto de referência, tornando-a ideal para cenários que exigem tarefas downstream específicas para avaliar a qualidade do texto, como tradução automática e geração de código.
ExDisQual.7: Essa linha de avaliação emprega um juiz externo, como o GPT-4 (OpenAI, 2023), para avaliar a qualidade de ambos os textos com marca d’água e sem marca d’água. O discriminador avalia os textos com base em descrições de tarefas fornecidas pelo usuário, identificando qualquer degradação ou preservação potencial da qualidade devido à marca d’água. Esse método é particularmente valioso quando uma análise avançada, baseada em IA, dos efeitos sutis da marca d’água é necessária.

MarkLLM: Experimentos e Resultados

Para avaliar seu desempenho, o quadro MarkLLM realiza avaliações em nove algoritmos diferentes e avalia seu impacto, robustez e detectabilidade na qualidade do texto.

A tabela acima contém os resultados da avaliação da detectabilidade de nove algoritmos suportados pelo MarkLLM.

Pensamentos Finais

Neste artigo, falamos sobre o MarkLLM, uma ferramenta de código aberto para marca d’água que oferece um quadro extensível e unificado para implementar algoritmos de marca d’água de LLM, enquanto fornece interfaces de usuário amigáveis para garantir facilidade de uso e acesso. Além disso, o quadro MarkLLM suporta a visualização automática dos mecanismos desses quadros, melhorando a compreensão desses modelos. O quadro MarkLLM oferece uma suíte abrangente de 12 ferramentas que cobrem três perspectivas, juntamente com duas linhas de avaliação automatizadas para avaliar seu desempenho.

Kunal Kejriwal

Um engenheiro por profissão, um escritor por coração. Kunal é um escritor técnico com um amor e compreensão profundos de AI e ML, dedicado a simplificar conceitos complexos nestes campos por meio de sua documentação envolvente e informativa.