Искусственный интеллект

MARKLLM: Открытый инструментарий для водяных знаков LLM

Published July 9, 2024

Updated April 4, 2026

Kunal Kejriwal

MARKLLM: An Open-Source Toolkit for LLM Watermarking

Водяные знаки LLM, которые интегрируют незаметные, но обнаруживаемые сигналы в выходных данных модели для идентификации текста, сгенерированного LLM, имеют решающее значение для предотвращения злоупотребления большими языковыми моделями. Эти методы водяных знаков в основном делятся на две категории: семейство KGW и семейство Christ. Семейство KGW изменяет логиты, произведенные LLM, для создания водяного знака, категоризируя словарь в зеленый список и красный список на основе предыдущего токена. Смещение вводится в логиты токенов зеленого списка во время генерации текста, отдавая предпочтение этим токенам в сгенерированном тексте. Затем рассчитывается статистический показатель из пропорции зеленых слов, и устанавливается порог для различия между водяными знаками и не водяными знаками. Улучшения метода KGW включают улучшенную разделение списка, лучшее манипулирование логитами, увеличенную емкость информации водяного знака, устойчивость к атакам на удаление водяного знака и возможность публичного обнаружения.

Напротив, семейство Christ изменяет процесс выборки во время генерации текста LLM, внедряя водяной знак путем изменения того, как выбираются токены. Оба семейства водяных знаков направлены на баланс между обнаруживаемостью водяного знака и качеством текста, решая проблемы, такие как устойчивость в условиях переменной энтропии, увеличение емкости информации водяного знака и защита от попыток удаления. Недавние исследования были сосредоточены на усовершенствовании разделения списка и манипулирования логитами, увеличении емкости информации водяного знака, разработке методов для устойчивости к удалению водяного знака и обеспечении публичного обнаружения. В конечном итоге, водяные знаки LLM имеют решающее значение для этического и ответственного использования больших языковых моделей, предоставляя метод для отслеживания и верификации текста, сгенерированного LLM. Семейства KGW и Christ предлагают два различных подхода, каждый со своими уникальными сильными сторонами и применениями, постоянно эволюционирующими через продолжающиеся исследования и инновации.

Благодаря способности рамок водяных знаков LLM внедрять алгоритмически обнаруживаемые сигналы в выходных данных модели для идентификации текста, сгенерированного рамкой LLM, играет решающую роль в смягчении рисков, связанных с злоупотреблением большими языковыми моделями. Однако существует множество рамок водяных знаков LLM на рынке в настоящее время, каждая со своими собственными перспективами и процедурами оценки, что делает трудным для исследователей легко экспериментировать с этими рамками. Чтобы противостоять этой проблеме, MarkLLM, открытый инструментарий для водяных знаков, предлагает расширяемую и унифицированную рамку для реализации алгоритмов водяных знаков LLM, обеспечивая пользовательские интерфейсы для обеспечения легкости использования и доступа. Кроме того, рамка MarkLLM поддерживает автоматизированную визуализацию механизмов этих рамок, тем самым повышая понимание этих моделей. Рамка MarkLLM предлагает комплексный набор из 12 инструментов, охватывающих три перспективы, а также две автоматизированные оценочные конвейеры для оценки ее производительности. Эта статья направлена на углубленное описание рамки MarkLLM, и мы исследуем механизм, методологию, архитектуру рамки, а также ее сравнение с рамками, находящимися на переднем крае.

MarkLLM: Инструментарий для водяных знаков LLM

Появление рамок больших языковых моделей, таких как LLaMA, GPT-4, ChatGPT и многие другие, существенно продвинуло способность моделей ИИ выполнять конкретные задачи, включая творческое написание, понимание контента, формирование извлечения и многое другое. Однако вместе с замечательными преимуществами, связанными с исключительной производительностью текущих больших языковых моделей, возникли определенные риски, включая написание академических работ, создание фальшивых новостей и изображений, сгенерированных LLM, и индивидуальную имитацию, чтобы назвать несколько. Учитывая риски, связанные с этими проблемами, важно разработать надежные методы, способные различать текст, сгенерированный LLM, и человеческий контент, что является основным требованием для обеспечения аутентичности цифровой коммуникации и предотвращения распространения дезинформации. В течение последних нескольких лет водяные знаки LLM были рекомендованы как одно из перспективных решений для различия текста, сгенерированного LLM, и человеческого контента, и путем включения различных особенностей во время процесса генерации текста выходные данные LLM можно уникально идентифицировать с помощью специально разработанных детекторов. Однако из-за распространения и относительно сложных алгоритмов рамок водяных знаков LLM, а также диверсификации метрик и перспектив оценки стало чрезвычайно трудным экспериментировать с этими рамками.

Чтобы преодолеть текущий разрыв, рамка MarkLLM пытается сделать следующие вклады. MARKLLM предлагает последовательные и пользовательские интерфейсы для загрузки алгоритмов, генерации водяного знака текста, проведения процессов обнаружения и сбора данных для визуализации. Она обеспечивает индивидуальные решения для визуализации как для основных семей водяных знаков алгоритмов, позволяя пользователям видеть, как работают различные алгоритмы под разными конфигурациями с реальными примерами. Инструментарий включает комплексный модуль оценки с 12 инструментами, решающими обнаруживаемость, устойчивость и влияние на качество текста. Кроме того, он включает два типа автоматизированных оценочных конвейеров, поддерживающих пользовательскую настройку наборов данных, моделей, метрик оценки и атак, облегчая гибкие и тщательные оценки. Разработанный с модульной, слабо связанной архитектурой, MARKLLM повышает масштабируемость и гибкость. Этот выбор дизайна поддерживает интеграцию новых алгоритмов, инновационных методов визуализации и расширение инструментария оценки будущими разработчиками.

Многочисленные алгоритмы водяных знаков были предложены, но их уникальные подходы к реализации часто отдают предпочтение конкретным требованиям над стандартизацией, что приводит к нескольким проблемам

Отсутствие стандартизации в дизайне класса: Это требует значительных усилий для оптимизации или расширения существующих методов из-за недостаточно стандартизированных дизайнов классов.
Отсутствие унификации в интерфейсах верхнего уровня: Несоответствующие интерфейсы делают пакетную обработку и репликацию различных алгоритмов громоздкими и трудоемкими.
Проблемы с кодом: Проблемы включают необходимость изменения настроек в нескольких сегментах кода и несоответствующую документацию, что осложняет настройку и эффективное использование. Встроенные значения и несоответствующее обработка ошибок еще больше препятствуют адаптивности и усилиям по отладке.

Чтобы решить эти проблемы, наш инструментарий предлагает унифицированную рамку реализации, которая позволяет удобно вызывать различные алгоритмы, находящиеся на переднем крае, под гибкими конфигурациями. Кроме того, наш тщательно разработанный классовый дизайн открывает путь для будущих расширений. Следующая фигура демонстрирует дизайн этой унифицированной рамки реализации.

Благодаря дистрибутивному дизайну рамки, разработчикам легко добавить дополнительные интерфейсы верхнего уровня к любому конкретному классу алгоритма водяного знака без беспокойства о влиянии на другие алгоритмы.

MarkLLM: Архитектура и методология

Техники водяных знаков LLM в основном делятся на две категории: семейство KGW и семейство Christ. Семейство KGW изменяет логиты, произведенные LLM, для создания водяного знака, категоризируя словарь в зеленый список и красный список на основе предыдущего токена. Смещение вводится в логиты токенов зеленого списка во время генерации текста, отдавая предпочтение этим токенам в сгенерированном тексте. Затем рассчитывается статистический показатель из пропорции зеленых слов, и устанавливается порог для различия между водяными знаками и не водяными знаками. Улучшения метода KGW включают улучшенную разделение списка, лучшее манипулирование логитами, увеличенную емкость информации водяного знака, устойчивость к атакам на удаление водяного знака и возможность публичного обнаружения.

Автоматизированная комплексная оценка

Оценка алгоритма водяного знака LLM – это сложная задача. Во-первых, она требует учета различных аспектов, включая обнаруживаемость водяного знака, устойчивость против взлома и влияние на качество текста. Во-вторых, оценки с каждой перспективы могут требовать различных метрик, сценариев атак и задач. Кроме того, проведение оценки обычно включает несколько шагов, таких как выбор модели и набора данных, генерация водяного знака текста, пост-обработка, обнаружение водяного знака, взлом текста и расчет метрик. Чтобы облегчить удобную и тщательную оценку алгоритмов водяных знаков LLM, MarkLLM предлагает 12 пользовательских инструментов, включая различные калькуляторы метрик и атакующие, которые охватывают три вышеупомянутых перспективы оценки. Кроме того, MARKLLM обеспечивает два типа автоматизированных демонстрационных конвейеров, чьи модули можно настроить и собрать гибко, позволяя легко настроить и использовать.

Для аспекта обнаруживаемости большинство алгоритмов водяных знаков в конечном итоге требуют указания порога для различия между водяными знаками и не водяными знаками. Мы обеспечиваем базовый калькулятор скорости успеха с использованием фиксированного порога. Кроме того, чтобы минимизировать влияние выбора порога на обнаруживаемость, мы также предлагаем калькулятор, который поддерживает динамический выбор порога. Этот инструмент может определить порог, который дает лучший показатель F1 или выбрать порог на основе указанной целевой скорости ложных положительных результатов (FPR).

Для аспекта устойчивости MARKLLM предлагает три атаки на уровне слов на текст: случайное удаление слова в указанном соотношении, случайная замена синонимов с использованием WordNet в качестве набора синонимов и контекстно-зависимая замена синонимов с использованием BERT в качестве модели вложения. Кроме того, обеспечены две атаки на уровне документа на текст: парафразирование контекста через OpenAI API или модель Dipper. Для аспекта качества текста MARKLLM предлагает два прямых аналитических инструмента: калькулятор perplexity для оценки плавности и калькулятор разнообразия для оценки изменчивости текстов. Чтобы проанализировать влияние водяного знака на полезность текста в конкретных задачах, мы обеспечиваем калькулятор BLEU для задач машинного перевода и судью “проходит/не проходит” для задач генерации кода. Кроме того, учитывая текущие методы для сравнения качества водяного знака и не водяного знака текста, которые включают использование более сильной LLM для суждения, MarkLLM также предлагает дискриминатор GPT, использующий GPT-4 для сравнения качества текста.

Оценочные конвейеры

Чтобы облегчить автоматизированную оценку алгоритмов водяных знаков LLM, MARKLLM обеспечивает два оценочных конвейера: один для оценки обнаруживаемости водяного знака с и без атак, и другой для анализа влияния этих алгоритмов на качество текста. Следуя этому процессу, мы реализовали два конвейера: WMDetect3 и UWMDetect4. Основное различие между ними заключается в фазе генерации текста. Первый требует использования метода generate_watermarked_text из алгоритма водяного знака, в то время как второй зависит от параметра text_source для определения того, следует ли直接 извлекать естественный текст из набора данных или вызывать метод generate_unwatermarked_text.

Чтобы оценить влияние водяного знака на качество текста, генерируются пары водяного знака и не водяного знака текстов. Тексты, вместе с другими необходимыми входными данными, затем обрабатываются и подают в назначенный анализатор качества текста для производства подробных результатов анализа и сравнения. Следуя этому процессу, мы реализовали три конвейера для разных сценариев оценки:

DirectQual.5: Этот конвейер специально разработан для анализа качества текстов путем прямого сравнения характеристик водяного знака текстов с характеристиками не водяного знака текстов. Он оценивает метрики, такие как perplexity (PPL) и логарифмическое разнообразие, без необходимости внешних текстов-референтов.
RefQual.6: Этот конвейер оценивает качество текста, сравнивая водяной знак и не водяной знак текстов с общим текстом-референтом. Он измеряет степень сходства или отклонения от текста-референта, что делает его идеальным для сценариев, требующих конкретных задач для оценки качества текста, таких как машинный перевод и генерация кода.
ExDisQual.7: Этот конвейер использует внешний судью, такой как GPT-4 (OpenAI, 2023), для оценки качества водяного знака и не водяного знака текстов. Дискриминатор оценивает тексты на основе предоставленных пользователем описаний задач, выявляя любое потенциальное ухудшение или сохранение качества из-за водяного знака. Этот метод особенно ценен, когда требуется продвинутый, основанный на ИИ анализ тонких эффектов водяного знака.

MarkLLM: Эксперименты и результаты

Чтобы оценить свою производительность, рамка MarkLLM проводит оценки девяти различных алгоритмов и оценивает их влияние, устойчивость и обнаруживаемость на качестве текста.

Таблица выше содержит результаты оценки обнаруживаемости девяти алгоритмов, поддерживаемых в MarkLLM.

Заключительные мысли

В этой статье мы говорили о MarkLLM, открытом инструментарии для водяных знаков, который предлагает расширяемую и унифицированную рамку для реализации алгоритмов водяных знаков LLM, обеспечивая пользовательские интерфейсы для обеспечения легкости использования и доступа. Кроме того, рамка MarkLLM поддерживает автоматизированную визуализацию механизмов этих рамок, тем самым повышая понимание этих моделей. Рамка MarkLLM предлагает комплексный набор из 12 инструментов, охватывающих три перспективы, а также две автоматизированные оценочные конвейеры для оценки ее производительности.

Kunal Kejriwal

"Инженер по профессии, писатель по сердцу". Кунал - технический писатель с глубокой любовью и пониманием ИИ и МО, посвященный упрощению сложных концепций в этих областях посредством своей увлекательной и информативной документации.