Inteligência artificial

MARKLLM: Uma Ferramenta de Marcação de LLM de Código Aberto

mm
MARKLLM: An Open-Source Toolkit for LLM Watermarking

A marcação de LLM, que integra sinais imperceptíveis, mas detectáveis, nos resultados do modelo para identificar texto gerado por LLMs, é vital para prevenir o mau uso de grandes modelos de linguagem. Essas técnicas de marcação são principalmente divididas em duas categorias: a Família KGW e a Família Christ. A Família KGW modifica os logits produzidos pelo LLM para criar saída marcada, categorizando o vocabulário em uma lista verde e uma lista vermelha com base no token anterior. Viés é introduzido nos logits dos tokens da lista verde durante a geração de texto, favorecendo esses tokens no texto produzido. Uma métrica estatística é então calculada a partir da proporção de palavras verdes, e um limiar é estabelecido para distinguir entre texto marcado e não marcado. Melhorias no método KGW incluem partitionamento de lista aprimorado, manipulação de logit melhorada, capacidade de informação de marcação aumentada, resistência a ataques de remoção de marcação e a capacidade de detectar marcas publicamente.

Por outro lado, a Família Christ altera o processo de amostragem durante a geração de texto do LLM, incorporando uma marcação ao alterar como os tokens são selecionados. Ambas as famílias de marcação visam equilibrar a detectabilidade da marcação com a qualidade do texto, abordando desafios como robustez em configurações de entropia variadas, aumento da capacidade de informação de marcação e proteção contra tentativas de remoção. Pesquisas recentes se concentraram em refinar o partitionamento de lista e a manipulação de logit, melhorar a capacidade de informação de marcação, desenvolver métodos para resistir à remoção de marcação e permitir a detecção pública. Em última análise, a marcação de LLM é crucial para o uso ético e responsável de grandes modelos de linguagem, fornecendo um método para rastrear e verificar texto gerado por LLM. As Famílias KGW e Christ oferecem duas abordagens distintas, cada uma com forças e aplicações únicas, evoluindo continuamente por meio de pesquisas e inovações em andamento.

Devido à capacidade das estruturas de marcação de LLM de incorporar sinais detectáveis algoritmicamente nos resultados do modelo para identificar texto gerado por uma estrutura de LLM, desempenha um papel crucial na mitigação dos riscos associados ao mau uso de grandes modelos de linguagem. No entanto, há uma abundância de estruturas de marcação de LLM no mercado atualmente, cada uma com suas próprias perspectivas e procedimentos de avaliação, tornando difícil para os pesquisadores experimentar com essas estruturas facilmente. Para contrariar esse problema, MarkLLM, uma ferramenta de marcação de código aberto, oferece uma estrutura extensível e unificada para implementar algoritmos de marcação de LLM, enquanto fornece interfaces de usuário amigáveis para garantir facilidade de uso e acesso. Além disso, a estrutura MarkLLM suporta a visualização automática dos mecanismos dessas estruturas, melhorando a compreensão desses modelos. A estrutura MarkLLM oferece uma suíte abrangente de 12 ferramentas que abordam três perspectivas, juntamente com duas linhas de avaliação automatizadas para avaliar seu desempenho. Este artigo visa cobrir a estrutura MarkLLM em profundidade e exploramos o mecanismo, a metodologia, a arquitetura da estrutura, juntamente com sua comparação com estruturas de ponta.

MarkLLM: Uma Ferramenta de Marcação de LLM de Código Aberto

O surgimento de estruturas de modelo de linguagem grande, como LLaMA, GPT-4, ChatGPT e mais, progrediu significativamente a capacidade dos modelos de IA de realizar tarefas específicas, incluindo escrita criativa, compreensão de conteúdo, formação de recuperação e muito mais. No entanto, juntamente com os benefícios notáveis associados à proficiência excepcional dos atuais grandes modelos de linguagem, certos riscos surgiram, incluindo redação de artigos acadêmicos fantasmas, notícias e representações falsas geradas por LLM e impersonação individual, para citar alguns. Dada a importância de desenvolver métodos confiáveis para distinguir entre conteúdo gerado por LLM e humano, um requisito principal para garantir a autenticidade da comunicação digital e prevenir a propagação de desinformação. Nos últimos anos, a marcação de LLM foi recomendada como uma das soluções promissoras para distinguir entre conteúdo gerado por LLM e humano, e incorporando recursos distintos durante o processo de geração de texto, os resultados do LLM podem ser identificados exclusivamente usando detectores projetados.

Para pontuar a lacuna atual, a estrutura MarkLLM tenta fazer as seguintes contribuições. MARKLLM oferece interfaces consistentes e amigáveis para carregar algoritmos, gerar texto marcado, realizar processos de detecção e coletar dados para visualização. Fornece soluções de visualização personalizadas para ambas as principais famílias de algoritmos de marcação, permitindo que os usuários vejam como diferentes algoritmos funcionam em várias configurações com exemplos do mundo real. A ferramenta inclui um módulo de avaliação abrangente com 12 ferramentas que abordam detectabilidade, robustez e impacto na qualidade do texto. Além disso, apresenta dois tipos de linhas de avaliação automatizadas que suportam a personalização de conjuntos de dados, modelos, métricas de avaliação e ataques, facilitando avaliações flexíveis e abrangentes. Projetada com uma arquitetura modular e solta, MARKLLM melhora a escalabilidade e flexibilidade. Essa escolha de design suporta a integração de novos algoritmos, técnicas de visualização inovadoras e a extensão da ferramenta de avaliação por desenvolvedores futuros.

Vários algoritmos de marcação foram propostos, mas suas abordagens de implementação únicas frequentemente priorizam requisitos específicos sobre a padronização, levando a vários problemas

  1. Falta de Padronização no Design de Classe: Isso exige um esforço significativo para otimizar ou estender métodos existentes devido a designs de classe insuficientemente padronizados.
  2. Falta de Uniformidade nas Interfaces de Chamada de Nível Superior: Interfaces inconsistentes tornam o processamento em lote e a replicação de diferentes algoritmos difíceis e trabalhosos.
  3. Problemas de Padrão de Código: Desafios incluem a necessidade de modificar configurações em vários segmentos de código e documentação inconsistente, complicando a personalização e o uso eficaz. Valores codificados e tratamento de erros inconsistentes dificultam ainda mais a adaptação e os esforços de depuração.

Para abordar esses problemas, nossa ferramenta oferece uma estrutura de implementação unificada que permite a invocação conveniente de vários algoritmos de ponta sob configurações flexíveis. Além disso, nossa estrutura de classe projetada com cuidado abre caminho para extensões futuras. A figura a seguir demonstra o design dessa estrutura de implementação unificada.

Devido ao design distributivo da estrutura, é direto para os desenvolvedores adicionarem interfaces de nível superior a qualquer classe de algoritmo de marcação específica sem se preocupar em afetar outros algoritmos.

MarkLLM: Arquitetura e Metodologia

As técnicas de marcação de LLM são principalmente divididas em duas categorias: a Família KGW e a Família Christ. A Família KGW modifica os logits produzidos pelo LLM para criar saída marcada, categorizando o vocabulário em uma lista verde e uma lista vermelha com base no token anterior. Viés é introduzido nos logits dos tokens da lista verde durante a geração de texto, favorecendo esses tokens no texto produzido. Uma métrica estatística é então calculada a partir da proporção de palavras verdes, e um limiar é estabelecido para distinguir entre texto marcado e não marcado. Melhorias no método KGW incluem partitionamento de lista aprimorado, manipulação de logit melhorada, capacidade de informação de marcação aumentada, resistência a ataques de remoção de marcação e a capacidade de detectar marcas publicamente.

Por outro lado, a Família Christ altera o processo de amostragem durante a geração de texto do LLM, incorporando uma marcação ao alterar como os tokens são selecionados. Ambas as famílias de marcação visam equilibrar a detectabilidade da marcação com a qualidade do texto, abordando desafios como robustez em configurações de entropia variadas, aumento da capacidade de informação de marcação e proteção contra tentativas de remoção. Pesquisas recentes se concentraram em refinar o partitionamento de lista e a manipulação de logit, melhorar a capacidade de informação de marcação, desenvolver métodos para resistir à remoção de marcação e permitir a detecção pública. Em última análise, a marcação de LLM é crucial para o uso ético e responsável de grandes modelos de linguagem, fornecendo um método para rastrear e verificar texto gerado por LLM. As Famílias KGW e Christ oferecem duas abordagens distintas, cada uma com forças e aplicações únicas, evoluindo continuamente por meio de pesquisas e inovações em andamento.

Avaliação Abrangente Automatizada

Avaliar um algoritmo de marcação de LLM é uma tarefa complexa. Primeiramente, requer consideração de vários aspectos, incluindo detectabilidade da marcação, robustez contra adulteração e impacto na qualidade do texto. Em segundo lugar, avaliações de cada perspectiva podem exigir diferentes métricas, cenários de ataque e tarefas. Além disso, realizar uma avaliação geralmente envolve várias etapas, como seleção de modelo e conjunto de dados, geração de texto marcado, pós-processamento, detecção de marcação, adulteração de texto e cálculo de métrica. Para facilitar a avaliação conveniente e abrangente de algoritmos de marcação de LLM, MarkLLM oferece doze ferramentas amigáveis, incluindo vários calculadores de métrica e atacantes que cobrem as três perspectivas de avaliação mencionadas. Além disso, MARKLLM fornece dois tipos de linhas de avaliação automatizadas demo, cujos módulos podem ser personalizados e montados de forma flexível, permitindo fácil configuração e uso.

Para o aspecto da detectabilidade, a maioria dos algoritmos de marcação eventualmente exige a especificação de um limiar para distinguir entre textos marcados e não marcados. Fornecemos um calculador de taxa de sucesso básico usando um limiar fixo. Além disso, para minimizar o impacto da seleção do limiar na detectabilidade, também oferecemos um calculador que suporta a seleção dinâmica do limiar. Essa ferramenta pode determinar o limiar que produz a melhor taxa F1 ou selecionar um limiar com base em uma taxa de falso positivo (FPR) especificada pelo usuário.

Para o aspecto da robustez, MARKLLM oferece três ataques de adulteração de texto em nível de palavra: exclusão aleatória de palavras em uma proporção especificada, substituição de sinônimos aleatórios usando WordNet como o conjunto de sinônimos e substituição de sinônimos sensível ao contexto utilizando BERT como o modelo de incorporação. Além disso, dois ataques de adulteração de texto em nível de documento são fornecidos: parafrasear o contexto via API do OpenAI ou o modelo Dipper. Para o aspecto da qualidade do texto, MARKLLM oferece duas ferramentas de análise direta: um calculador de perplexidade para medir a fluência e um calculador de diversidade para avaliar a variabilidade dos textos. Para analisar o impacto da marcação na utilidade do texto em tarefas downstream específicas, fornecemos um calculador de BLEU para tarefas de tradução automática e um juiz de aprovação ou reprovação para tarefas de geração de código. Além disso, dado os métodos atuais para comparar a qualidade de texto marcado e não marcado, que incluem o uso de um LLM mais forte para julgamento, MarkLLM também oferece um discriminador GPT, utilizando GPT-4 para comparar a qualidade do texto.

Linhas de Avaliação

Para facilitar a avaliação automatizada de algoritmos de marcação de LLM, MARKLLM fornece duas linhas de avaliação: uma para avaliar a detectabilidade da marcação com e sem ataques, e outra para analisar o impacto desses algoritmos na qualidade do texto. Seguindo esse processo, implementamos duas linhas de avaliação: WMDetect3 e UWMDetect4. A principal diferença entre elas está na fase de geração de texto. A primeira exige o uso do método generate_watermarked_text do algoritmo de marcação, enquanto a segunda depende do parâmetro text_source para determinar se deve recuperar texto natural de um conjunto de dados ou invocar o método generate_unwatermarked_text.

Para avaliar o impacto da marcação na qualidade do texto, pares de textos marcados e não marcados são gerados. Os textos, juntamente com outras entradas necessárias, são então processados e alimentados em um analisador de qualidade de texto designado para produzir resultados de análise e comparação detalhados. Seguindo esse processo, implementamos três linhas de avaliação para diferentes cenários de avaliação:

  1. DirectQual.5: Essa linha de avaliação é projetada especificamente para analisar a qualidade dos textos comparando as características dos textos marcados com as dos textos não marcados. Avalia métricas como perplexidade (PPL) e diversidade logarítmica, sem a necessidade de textos de referência externos.
  2. RefQual.6: Essa linha de avaliação avalia a qualidade do texto comparando tanto textos marcados quanto não marcados com um texto de referência comum. Mede o grau de similaridade ou desvio do texto de referência, tornando-a ideal para cenários que exigem tarefas downstream específicas para avaliar a qualidade do texto, como tradução automática e geração de código.
  3. ExDisQual.7: Essa linha de avaliação emprega um juiz externo, como o GPT-4 (OpenAI, 2023), para avaliar a qualidade dos textos marcados e não marcados. O discriminador avalia os textos com base em descrições de tarefas fornecidas pelo usuário, identificando qualquer degradação ou preservação de qualidade devido à marcação. Esse método é particularmente valioso quando uma análise avançada e baseada em IA dos efeitos sutis da marcação é necessária.

MarkLLM: Experimentos e Resultados

Para avaliar seu desempenho, a estrutura MarkLLM realiza avaliações em nove algoritmos diferentes e avalia seu impacto, robustez e detectabilidade na qualidade do texto.

A tabela acima contém os resultados da avaliação da detectabilidade de nove algoritmos suportados no MarkLLM. O ajuste de limiar dinâmico é empregado para avaliar a detectabilidade da marcação, com três configurações fornecidas: sob uma taxa de falso positivo de 10%, sob uma taxa de falso positivo de 1% e sob condições para o desempenho ótimo da taxa F1. 200 textos marcados são gerados, enquanto 200 textos não marcados servem como exemplos negativos. Fornecemos a taxa de verdadeiros positivos (TPR) e a taxa F1 sob ajustes de limiar dinâmicos para 10% e 1% de taxa de falso positivo, juntamente com TPR, TNR, FPR, FNR, P, R, F1, ACC no desempenho ótimo. A tabela a seguir contém os resultados da avaliação da robustez de nove algoritmos suportados no MarkLLM. Para cada ataque, 200 textos marcados são gerados e subsequentemente adulterados, com 200 textos não marcados servindo como exemplos negativos. Relatamos a TPR e a taxa F1 no desempenho ótimo sob cada circunstância.

Pensamentos Finais

Neste artigo, falamos sobre MarkLLM, uma ferramenta de marcação de código aberto que oferece uma estrutura extensível e unificada para implementar algoritmos de marcação de LLM, enquanto fornece interfaces de usuário amigáveis para garantir facilidade de uso e acesso. Além disso, a estrutura MarkLLM suporta a visualização automática dos mecanismos dessas estruturas, melhorando a compreensão desses modelos. A estrutura MarkLLM oferece uma suíte abrangente de 12 ferramentas que abordam três perspectivas, juntamente com duas linhas de avaliação automatizadas para avaliar seu desempenho.

Um engenheiro por profissão, um escritor por coração. Kunal é um escritor técnico com um amor e compreensão profundos de AI e ML, dedicado a simplificar conceitos complexos nestes campos por meio de sua documentação envolvente e informativa.