Искусственный интеллект
MARKLLM: набор инструментов с открытым исходным кодом для нанесения водяных знаков LLM

Водяные знаки LLM, которые объединяют незаметные, но обнаруживаемые сигналы в выходные данные модели для идентификации текста, генерируемого LLM, имеют жизненно важное значение для предотвращения неправильного использования больших языковых моделей. Эти методы нанесения водяных знаков в основном делятся на две категории: семейство KGW и семейство Христа. Семейство KGW изменяет логиты, создаваемые LLM, для создания выходных данных с водяными знаками, классифицируя словарь на зеленый список и красный список на основе предыдущего токена. Смещение вносится в логиты токенов зеленого списка во время генерации текста, отдавая предпочтение этим токенам в создаваемом тексте. Затем на основе доли зеленых слов рассчитывается статистический показатель и устанавливается пороговое значение, позволяющее различать текст с водяными знаками и текст без водяных знаков. Усовершенствования метода KGW включают улучшенное разделение списков, улучшенное манипулирование логитами, увеличенную емкость информации о водяных знаках, устойчивость к атакам с удалением водяных знаков и возможность публичного обнаружения водяных знаков.
И наоборот, Christ Family изменяет процесс выборки во время генерации текста LLM, встраивая водяной знак, изменяя способ выбора токенов. Оба семейства водяных знаков стремятся сбалансировать обнаружение водяных знаков с качеством текста, решая такие проблемы, как устойчивость в различных настройках энтропии, увеличение информационной емкости водяных знаков и защита от попыток удаления. Недавние исследования были сосредоточены на совершенствовании разделения списков и манипулировании логитами), повышении информационной емкости водяных знаков, разработке методов предотвращения удаления водяных знаков и обеспечении публичного обнаружения. В конечном счете, водяные знаки LLM имеют решающее значение для этичного и ответственного использования. большие языковые модели, предоставляя метод отслеживания и проверки текста, сгенерированного LLM. KGW и Christ Families предлагают два разных подхода, каждый из которых обладает уникальными преимуществами и возможностями применения и постоянно развивается благодаря постоянным исследованиям и инновациям.
Благодаря способности систем создания водяных знаков LLM внедрять алгоритмически обнаруживаемые сигналы в выходные данные модели для идентификации текста, сгенерированного структурой LLM, играет решающую роль в снижении рисков, связанных с неправильным использованием больших языковых моделей. Тем не менее, в настоящее время на рынке существует множество систем водяных знаков LLM, каждая из которых имеет свои собственные точки зрения и процедуры оценки, что затрудняет исследователям возможность легко экспериментировать с этими структурами. Чтобы решить эту проблему, MarkLLM, набор инструментов с открытым исходным кодом для нанесения водяных знаков, предлагает расширяемую и унифицированную структуру для реализации алгоритмов нанесения водяных знаков LLM, обеспечивая при этом удобные интерфейсы для обеспечения простоты использования и доступа. Кроме того, платформа MarkLLM поддерживает автоматическую визуализацию механизмов этих структур, тем самым повышая понятность этих моделей. Платформа MarkLLM предлагает комплексный набор из 12 инструментов, охватывающих три точки зрения, а также два автоматизированных конвейера оценки для оценки ее производительности. Целью этой статьи является более глубокое освещение фреймворка MarkLLM, и мы исследуем механизм, методологию, архитектуру фреймворка, а также его сравнение с современными фреймворками. Итак, давайте начнем.
MarkLLM: набор инструментов для создания водяных знаков LLM
Появление крупных структур языковых моделей, таких как LLaMA, GPT-4, ChatGPT и других, значительно расширило возможности моделей ИИ выполнять конкретные задачи, включая творческое письмо, понимание контента, извлечение данных и многое другое. Однако, наряду с замечательными преимуществами, связанными с исключительным владением современными большими языковыми моделями, возникли определенные риски, включая написание академических статей, создание фейковых новостей и изображений в рамках LLM, а также выдачу себя за отдельное лицо и многое другое. Учитывая риски, связанные с этими проблемами, крайне важно разработать надежные методы, позволяющие различать контент, созданный LLM, и контент, созданный человеком, что является основным требованием для обеспечения подлинности цифровая связьи предотвратить распространение дезинформации. В течение последних нескольких лет водяные знаки LLM рекомендовались как одно из многообещающих решений для различения контента, созданного LLM, от контента, созданного людьми, а за счет включения различных функций в процесс генерации текста выходные данные LLM могут быть однозначно идентифицированы с помощью специально разработанных детекторов. Однако из-за распространения и относительно сложных алгоритмов систем водяных знаков LLM, а также диверсификации показателей оценки и точек зрения невероятно сложно экспериментировать с этими структурами.
Чтобы преодолеть существующий разрыв, структура MarkLLM пытается внести следующий вклад. МАРКЛЛМ предлагает последовательные и удобные интерфейсы для загрузки алгоритмов, создания текста с водяными знаками, проведения процессов обнаружения и сбора данных для визуализации. Он предоставляет индивидуальные решения визуализации для обоих основных семейств алгоритмов водяных знаков, позволяя пользователям увидеть, как разные алгоритмы работают в различных конфигурациях, на реальных примерах. В набор инструментов входит комплексный модуль оценки с 12 инструментами, обеспечивающими обнаружение, надежность и влияние на качество текста. Кроме того, он имеет два типа автоматизированных конвейеров оценки, поддерживающих пользовательскую настройку наборов данных, моделей, показателей оценки и атак, что обеспечивает гибкие и тщательные оценки. MARKLLM, разработанный с использованием модульной слабосвязанной архитектуры, повышает масштабируемость и гибкость. Этот выбор дизайна поддерживает интеграцию новых алгоритмов, инновационных методов визуализации и расширение набора инструментов оценки будущими разработчиками.
Было предложено множество алгоритмов нанесения водяных знаков, но их уникальные подходы к реализации часто отдают приоритет конкретным требованиям над стандартизацией, что приводит к нескольким проблемам.
- Отсутствие стандартизации в проектировании классов: Это требует значительных усилий по оптимизации или расширению существующих методов из-за недостаточно стандартизированной конструкции классов.
- Отсутствие единообразия в интерфейсах вызовов верхнего уровня: Несогласованные интерфейсы делают пакетную обработку и копирование различных алгоритмов громоздкими и трудоемкими.
- Стандартные проблемы кода: Проблемы включают необходимость изменения настроек в нескольких сегментах кода и противоречивую документацию, что усложняет настройку и эффективное использование. Жестко запрограммированные значения и непоследовательная обработка ошибок еще больше затрудняют адаптацию и усилия по отладке.
Для решения этих проблем наш набор инструментов предлагает унифицированную структуру реализации, которая позволяет удобно вызывать различные современные алгоритмы в гибких конфигурациях. Кроме того, наша тщательно разработанная структура классов открывает путь для будущих расширений. На следующем рисунке показана конструкция этой унифицированной платформы реализации.
Благодаря дистрибутивному дизайну платформы разработчикам легко добавлять дополнительные интерфейсы верхнего уровня к любому конкретному классу алгоритма водяных знаков, не беспокоясь о влиянии на другие алгоритмы.
MarkLLM: Архитектура и методология
Методы нанесения водяных знаков LLM в основном делятся на две категории: семейство KGW и семейство Христа. Семейство KGW изменяет логиты, создаваемые LLM, для создания выходных данных с водяными знаками, классифицируя словарь на зеленый список и красный список на основе предыдущего токена. Смещение вносится в логиты токенов зеленого списка во время генерации текста, отдавая предпочтение этим токенам в создаваемом тексте. Затем на основе доли зеленых слов рассчитывается статистический показатель и устанавливается пороговое значение, позволяющее различать текст с водяными знаками и текст без водяных знаков. Усовершенствования метода KGW включают улучшенное разделение списков, улучшенное манипулирование логитами, увеличенную емкость информации о водяных знаках, устойчивость к атакам с удалением водяных знаков и возможность публичного обнаружения водяных знаков.
И наоборот, Christ Family изменяет процесс выборки во время генерации текста LLM, встраивая водяной знак, изменяя способ выбора токенов. Оба семейства водяных знаков стремятся сбалансировать обнаружение водяных знаков с качеством текста, решая такие проблемы, как устойчивость в различных настройках энтропии, увеличение информационной емкости водяных знаков и защита от попыток удаления. Недавние исследования были сосредоточены на совершенствовании разделения списков и манипулировании логитами), повышении информационной емкости водяных знаков, разработке методов предотвращения удаления водяных знаков и обеспечении публичного обнаружения. В конечном счете, водяные знаки LLM имеют решающее значение для этичного и ответственного использования. большие языковые модели, предоставляя метод отслеживания и проверки текста, сгенерированного LLM. KGW и Christ Families предлагают два разных подхода, каждый из которых обладает уникальными преимуществами и возможностями применения и постоянно развивается благодаря постоянным исследованиям и инновациям.
Автоматизированная комплексная оценка
Оценка алгоритма нанесения водяных знаков LLM — сложная задача. Во-первых, это требует рассмотрения различных аспектов, включая возможность обнаружения водяных знаков, устойчивость к несанкционированному вмешательству и влияние на качество текста. Во-вторых, оценки с каждой точки зрения могут потребовать разных показателей, сценариев атак и задач. Более того, проведение оценки обычно включает в себя несколько этапов, таких как выбор модели и набора данных, генерация текста с водяными знаками, постобработка, обнаружение водяных знаков, подделка текста и вычисление показателей. Чтобы облегчить удобную и тщательную оценку алгоритмов создания водяных знаков LLM, MarkLLM предлагает двенадцать удобных для пользователя инструментов, включая различные калькуляторы метрик и средства злоумышленников, которые охватывают три вышеупомянутые точки зрения оценки. Кроме того, MARKLLM предоставляет два типа автоматизированных демонстрационных конвейеров, модули которых можно гибко настраивать и собирать, что упрощает настройку и использование..
Что касается возможности обнаружения, большинство алгоритмов нанесения водяных знаков в конечном итоге требуют указания порога, позволяющего различать тексты с водяными знаками и тексты без водяных знаков. Мы предоставляем базовый калькулятор успеха с использованием фиксированного порога. Кроме того, чтобы свести к минимуму влияние выбора порога на обнаруживаемость, мы также предлагаем калькулятор, поддерживающий динамический выбор порога. Этот инструмент может определить порог, который дает лучший результат F1, или выбрать порог на основе заданного пользователем целевого показателя ложных срабатываний (FPR).
С точки зрения надежности MARKLLM предлагает три атаки подделки текста на уровне слов: случайное удаление слов в заданном соотношении, случайную замену синонимов с использованием WordNet в качестве набора синонимов и контекстно-зависимую замену синонимов с использованием BERT в качестве модели внедрения. Кроме того, предусмотрены две атаки подделки текста на уровне документа: перефразирование контекста через OpenAI API или модель Dipper. Что касается качества текста, MARKLLM предлагает два инструмента прямого анализа: калькулятор недоумения для оценки беглости и калькулятор разнообразия для оценки изменчивости текстов. Чтобы проанализировать влияние водяных знаков на полезность текста в конкретных последующих задачах, мы предоставляем калькулятор BLEU для задач машинного перевода и средство оценки «прошел или нет» для задач генерации кода. Кроме того, учитывая текущие методы сравнения качества текста с водяными знаками и текста без водяных знаков, которые включают использование более сильного LLM для оценки, MarkLLM также предлагает дискриминатор GPT, использующий GPT-4 для сравнения качества текста.
Конвейеры оценки
Чтобы облегчить автоматическую оценку алгоритмов создания водяных знаков LLM, MARKLLM предоставляет два конвейера оценки: один для оценки обнаруживаемости водяных знаков с атаками и без них, а другой для анализа влияния этих алгоритмов на качество текста. Следуя этому процессу, мы реализовали два конвейера: WMDetect3 и UWMDetect4. Основное различие между ними заключается в этапе генерации текста. Первый требует использования методаgenerate_watermarked_text из алгоритма создания водяных знаков, а второй зависит от параметра text_source, чтобы определить, следует ли напрямую извлекать естественный текст из набора данных или вызывать методgenerate_unwatermarked_text.
Чтобы оценить влияние водяных знаков на качество текста, генерируются пары текстов с водяными знаками и без водяных знаков. Тексты вместе с другими необходимыми входными данными затем обрабатываются и подаются в специальный анализатор качества текста для получения результатов детального анализа и сравнения. Следуя этому процессу, мы реализовали три конвейера для различных сценариев оценки:
- DirectQual.5: этот конвейер специально разработан для анализа качества текстов путем прямого сравнения характеристик текстов с водяными знаками и текстов без водяных знаков. Он оценивает такие показатели, как запутанность (PPL) и разнообразие журналов, без необходимости использования каких-либо внешних справочных текстов.
- RefQual.6: этот конвейер оценивает качество текста путем сравнения текстов с водяными знаками и без водяных знаков с общим ссылочным текстом. Он измеряет степень сходства или отклонения от эталонного текста, что делает его идеальным для сценариев, требующих выполнения конкретных последующих задач для оценки качества текста, таких как машинный перевод и генерация кода.
- ExDisQual.7: в этом конвейере используется внешний модуль оценки, такой как GPT-4 (OpenAI, 2023), для оценки качества текстов как с водяными знаками, так и без них. Дискриминатор оценивает тексты на основе описаний задач, предоставленных пользователем, выявляя любое потенциальное ухудшение или сохранение качества из-за водяных знаков. Этот метод особенно ценен, когда требуется расширенный анализ тонких эффектов водяных знаков на основе искусственного интеллекта.
MarkLLM: эксперименты и результаты
Чтобы оценить свою производительность, платформа MarkLLM проводит оценку девяти различных алгоритмов и оценивает их влияние, надежность и обнаруживаемость на качество текста.
В приведенной выше таблице приведены результаты оценки обнаруживаемости девяти алгоритмов, поддерживаемых в MarkLLM. Динамическая настройка порога используется для оценки обнаружения водяных знаков с тремя настройками: при целевом FPR 10 %, при целевом FPR 1 % и при условиях оптимального показателя F1. Генерируется 200 текстов с водяными знаками, а 200 текстов без водяных знаков служат отрицательными примерами. Мы предоставляем показатель TPR и F1 с динамическими пороговыми корректировками для 10% и 1% FPR, а также TPR, TNR, FPR, FNR, P, R, F1, ACC при оптимальной производительности. В следующей таблице представлены результаты оценки надежности девяти алгоритмов, поддерживаемых в MarkLLM. Для каждой атаки создается и впоследствии подделывается 200 текстов с водяными знаками, а еще 200 текстов без водяных знаков служат негативными примерами. Мы сообщаем, что показатели TPR и F1 оптимальны при любых обстоятельствах.
Заключение
В этой статье мы говорили о MarkLLM, наборе инструментов с открытым исходным кодом для нанесения водяных знаков, который предлагает расширяемую и унифицированную структуру для реализации алгоритмов нанесения водяных знаков LLM, обеспечивая при этом удобные интерфейсы для обеспечения простоты использования и доступа. Кроме того, платформа MarkLLM поддерживает автоматическую визуализацию механизмов этих структур, тем самым повышая понятность этих моделей. Платформа MarkLLM предлагает комплексный набор из 12 инструментов, охватывающих три точки зрения, а также два автоматизированных конвейера оценки для оценки ее производительности.