人工知能

MARKLLM: LLMウォーターマーキングのためのオープンソースツールキット

Published July 9, 2024

Updated April 4, 2026

Kunal Kejriwal

MARKLLM: An Open-Source Toolkit for LLM Watermarking

LLMウォーターマーキングは、LLMによって生成されたテキストを識別するために、モデル出力に感知できないが検出可能な信号を統合することが重要です。これらのウォーターマーキング技術は、主に2つのカテゴリに分類されます。KGWファミリーとChristファミリーです。KGWファミリーは、LLMによって生成されるログitsを変更してウォーターマーク付き出力を作成し、前のトークンに基づいてボキャブラリーをグリーンリストとレッドリストに分類します。テキスト生成中にグリーンリストトークンのログitsにバイアスが導入され、これらのトークンが生成されたテキストで優先されます。グリーン単語の割合から統計メトリックが計算され、ウォーターマーク付きテキストとウォーターマークなしテキストを区別するためのしきい値が設定されます。KGW方法の改良には、リスト分割の改善、ログits操作の改善、ウォーターマーク情報容量の増加、ウォーターマーク削除攻撃への抵抗、公開ウォーターマーク検出の能力が含まれます。

一方、Christファミリーは、LLMテキスト生成中にサンプリングプロセスを変更してウォーターマークを埋め込み、トークンの選択方法を変更します。両方のウォーターマーキングファミリーは、ウォーターマークの検出可能性とテキスト品質のバランスをとることを目指し、さまざまなエントロピー設定でのロバスト性、ウォーターマーク情報容量の増加、削除試行への対策などの課題に取り組んでいます。最近の研究は、リスト分割とログits操作の改善、ウォーターマーク情報容量の増加、ウォーターマーク削除への対策の開発、公開検出の可能化に焦点を当てています。最終的に、LLMウォーターマーキングは、大規模言語モデルの倫理的かつ責任ある使用のために不可欠であり、LLM生成テキストを追跡および検証する方法を提供します。KGWファミリーとChristファミリーは、それぞれ独自の強みと応用を持つ2つの異なるアプローチを提供し、継続的な研究と革新を通じて進化しています。

LLMウォーターマーキングフレームワークは、モデル出力にアルゴリズムで検出可能な信号を埋め込むことで、LLMフレームワークによって生成されたテキストを識別するための重要な役割を果たしています。しかし、現在、市場には多数のLLMウォーターマーキングフレームワークがあり、それぞれ独自の視点と評価手順を持っており、研究者がこれらのフレームワークを簡単に実験することが困難です。この問題に対処するために、MarkLLMは、LLMウォーターマーキングアルゴリズムを実装するための拡張可能な統一フレームワークを提供し、ユーザーに優しいインターフェースを提供して使用とアクセスを容易にします。さらに、MarkLLMフレームワークは、これらのフレームワークのメカニズムの自動可視化をサポートし、これらのモデルの理解を向上させます。MarkLLMフレームワークは、3つの視点をカバーする12のツールを提供し、2つの自動評価パイプラインを提供します。

MarkLLM: LLMウォーターマーキングツールキット

LLaMA、GPT-4、ChatGPTなどの大規模言語モデルのフレームワークの出現は、AIモデルの特定のタスクを実行する能力を大幅に進歩させました。これらの大規模言語モデルの卓越した能力に伴う利点は、学術論文のゴーストライティング、LLM生成の偽のニュースや描写、個人の擬装など、リスクも生じています。これらの問題に対処するために、LLM生成テキストと人間が生成したテキストを区別する信頼性の高い方法を開発することが不可欠です。これは、デジタルコミュニケーションの真実性を確保し、誤情報の拡散を防ぐために重要です。過去数年間、LLMウォーターマーキングは、LLM生成テキストと人間が生成したテキストを区別するための有望な解決策として提案されてきました。テキスト生成プロセス中に特定の特徴を組み込むことで、LLM出力を特に設計された検出器を使用して一意に識別できます。しかし、LLMウォーターマーキングフレームワークの増加と複雑なアルゴリズム、評価メトリクスと視点の多様化により、これらのフレームワークを実験することが非常に困難になりました。

このギャップを埋めるために、MarkLLMフレームワークは、アルゴリズムのロード、ウォーターマーク付きテキストの生成、検出プロセスの実行、可視化のためのデータ収集のための一貫したユーザーに優しいインターフェースを提供します。主要なウォーターマーキングアルゴリズムファミリーの両方に対して、カスタム可視化ソリューションを提供し、ユーザーがさまざまな構成と実世界の例で異なるアルゴリズムがどのように機能するかを見られるようにします。ツールキットには、検出可能性、ロバスト性、テキスト品質への影響を扱う12のツールを備えた包括的な評価モジュールが含まれます。さらに、2つの自動評価パイプラインを提供し、ユーザーがデータセット、モデル、評価メトリクス、攻撃をカスタマイズできるようにします。モジュラーで疎結合されたアーキテクチャで設計されたMarkLLMは、拡張性と柔軟性を向上させます。この設計選択により、新しいアルゴリズム、革新的な可視化技術、評価ツールキットの拡張が可能になります。

多数のウォーターマーキングアルゴリズムが提案されていますが、それらの独自の実装アプローチは、標準化よりも特定の要件を優先することが多く、複数の問題を引き起こします

クラス設計の標準化の欠如: このため、既存の方法を最適化または拡張するために、標準化されていないクラス設計のために大量の労力が必要になります。
トップレベル呼び出しインターフェースの統一性の欠如: 一貫性のないインターフェースにより、バッチ処理とさまざまなアルゴリズムの複製が面倒で労力的な作業になります。
コード標準問題: 問題には、複数のコードセグメントの設定を変更する必要性、不一致なドキュメント、カスタマイズと効果的な使用の複雑化が含まれます。ハードコードされた値と一貫性のないエラーハンドリングにより、適応性とデバッグの努力が妨げられます。

これらの問題に対処するために、私たちのツールキットは、さまざまな最先端アルゴリズムを柔軟な構成で実行できる統一された実装フレームワークを提供します。さらに、私たちの慎重に設計されたクラス構造は、将来の拡張の道を開きます。次の図は、この統一された実装フレームワークの設計を示しています。

フレームワークの分散設計により、開発者は、他のアルゴリズムに影響を与えることなく、特定のウォーターマーキングアルゴリズムクラスに追加のトップレベルインターフェースを簡単に追加できます。

MarkLLM: アーキテクチャと方法論

LLMウォーターマーキング技術は、主に2つのカテゴリに分類されます。KGWファミリーとChristファミリーです。KGWファミリーは、LLMによって生成されるログitsを変更してウォーターマーク付き出力を作成し、前のトークンに基づいてボキャブラリーをグリーンリストとレッドリストに分類します。テキスト生成中にグリーンリストトークンのログitsにバイアスが導入され、これらのトークンが生成されたテキストで優先されます。グリーン単語の割合から統計メトリックが計算され、ウォーターマーク付きテキストとウォーターマークなしテキストを区別するためのしきい値が設定されます。KGW方法の改良には、リスト分割の改善、ログits操作の改善、ウォーターマーク情報容量の増加、ウォーターマーク削除攻撃への抵抗、公開ウォーターマーク検出の能力が含まれます。

自動包括評価

LLMウォーターマーキングアルゴリズムを評価することは複雑なタスクです。まず、ウォーターマークの検出可能性、改ざんへのロバスト性、テキスト品質への影響などのさまざまな側面を考慮する必要があります。さらに、評価には、さまざまなメトリクス、攻撃シナリオ、タスクが必要です。また、評価には、モデルとデータセットの選択、ウォーターマーク付きテキストの生成、ポスト処理、ウォーターマーク検出、テキスト改ざん、メトリクスの計算などの複数のステップが必要です。LLMウォーターマーキングアルゴリズムを簡単に評価するために、MarkLLMは、3つの評価視点をカバーする12のユーザーに優しいツールを提供します。また、MarkLLMは、2つの自動評価パイプラインを提供し、モジュールをカスタマイズして柔軟に組み立てることができます。

検出可能性の観点では、ほとんどのウォーターマーキングアルゴリズムは、ウォーターマーク付きテキストとウォーターマークなしテキストを区別するために、しきい値を指定する必要があります。固定しきい値を使用する基本的な成功率計算機を提供します。さらに、しきい値の選択が検出可能性に与える影響を最小限に抑えるために、動的なしきい値選択をサポートする計算機も提供します。このツールは、最適なF1スコアをもたらすしきい値を決定したり、ユーザーが指定したターゲット誤認率に基づいてしきい値を選択したりできます。

ロバスト性の観点では、MarkLLMは、ランダムワード削除、WordNetを使用したランダムシノニム置換、BERTを使用したコンテキストアウェアシノニム置換などの3つのワードレベルのテキスト改ざん攻撃を提供します。さらに、OpenAI APIまたはDipperモデルを使用したパラフレーズ化などの2つのドキュメントレベルのテキスト改ざん攻撃を提供します。テキスト品質の観点では、MarkLLMは、流暢性を測定するための困難度計算機と、テキストの変異性を評価するための多様性計算機を提供します。特定のダウンストリームタスクでのテキストの有用性へのウォーターマーキングの影響を分析するには、機械翻訳タスクのためのBLEU計算機とコード生成タスクのためのパスまたはノットジャッジを提供します。さらに、現在のウォーターマーキングテキストとウォーターマークなしテキストの品質を比較する方法には、より強力なLLMを使用することが含まれるため、MarkLLMは、GPT-4を使用したGPTディスクリミネーターも提供します。

評価パイプライン

LLMウォーターマーキングアルゴリズムを自動評価するために、MarkLLMは2つの評価パイプラインを提供します。1つは、攻撃の有無にかかわらずウォーターマークの検出可能性を評価するためのものです。もう1つは、ウォーターマークアルゴリズムがテキスト品質に与える影響を分析するためのものです。次のプロセスに従って、2つのパイプラインを実装しました。WMDetect3とUWMDetect4です。主な違いは、テキスト生成段階にあるため、前者はウォーターマークアルゴリズムのgenerate_watermarked_textメソッドを使用する必要があり、後者はテキストソースパラメータに基づいて、データセットから自然テキストを直接取得するか、generate_unwatermarked_textメソッドを呼び出すかを決定します。

ウォーターマーキングがテキスト品質に与える影響を評価するには、ウォーターマーク付きテキストとウォーターマークなしテキストのペアを生成します。テキストと他の必要な入力を、指定されたテキスト品質アナライザーに処理してフィードし、詳細な分析と比較結果を生成します。次のプロセスに従って、3つのパイプラインを実装しました。

DirectQual.5: このパイプラインは、ウォーターマーク付きテキストとウォーターマークなしテキストの特性を直接比較することで、テキスト品質を分析するように設計されています。PPLやログ多様性などのメトリクスを評価しますが、外部の参照テキストは必要ありません。
RefQual.6: このパイプラインは、ウォーターマーク付きテキストとウォーターマークなしテキストの両方を共通の参照テキストと比較して、テキスト品質を評価します。参照テキストからの類似性または偏差の程度を測定し、機械翻訳やコード生成などの特定のダウンストリームタスクでテキスト品質を評価する必要があるシナリオに適しています。
ExDisQual.7: このパイプラインは、GPT-4(OpenAI、2023)などの外部ジャッジを使用して、ウォーターマーク付きテキストとウォーターマークなしテキストの品質を評価します。ディスクリミネーターは、ユーザーが提供したタスクの説明に基づいてテキストを評価し、ウォーターマーキングによる潜在的な品質の低下または保持を特定します。この方法は、ウォーターマーキングの微妙な影響をAIベースの分析で評価する必要がある場合に特に有用です。

MarkLLM: 実験と結果

MarkLLMフレームワークのパフォーマンスを評価するために、9つの異なるアルゴリズムで評価を実施し、テキスト品質への影響、ロバスト性、検出可能性を評価しました。

上記の表には、MarkLLMでサポートされている9つのアルゴリズムの検出可能性の評価結果が含まれています。ウォーターマーキングの検出可能性を評価するために、動的なしきい値調整を使用します。3つの設定を提供します。10%のターゲット誤認率の下で、1%のターゲット誤認率の下で、最適なF1スコアのパフォーマンスの下でです。200個のウォーターマーク付きテキストを生成し、200個のウォーターマークなしテキストを負の例として使用します。10%と1%の誤認率の下でのTPRとF1スコア、最適なパフォーマンスの下でのTPR、TNR、FPR、FNR、P、R、F1、ACCを提供します。次の表には、MarkLLMでサポートされている9つのアルゴリズムのロバスト性の評価結果が含まれています。各攻撃に対して、200個のウォーターマーク付きテキストを生成し、さらに200個のウォーターマークなしテキストを負の例として使用します。各状況での最適なパフォーマンスの下でのTPRとF1スコアを報告します。

最終的な考え

この記事では、MarkLLMについて説明しました。MarkLLMは、LLMウォーターマーキングアルゴリズムを実装するための拡張可能な統一フレームワークを提供し、ユーザーに優しいインターフェースを提供して使用とアクセスを容易にします。さらに、MarkLLMフレームワークは、これらのフレームワークのメカニズムの自動可視化をサポートし、これらのモデルの理解を向上させます。MarkLLMフレームワークは、3つの視点をカバーする12のツールを提供し、2つの自動評価パイプラインを提供します。