Trí tuệ nhân tạo

MARKLLM: Bộ Công Cụ Mở Nguồn Cho LLM Watermarking

Published July 9, 2024

Updated April 4, 2026

Kunal Kejriwal

MARKLLM: An Open-Source Toolkit for LLM Watermarking

LLM watermarking, tích hợp tín hiệu không thể nhận biết nhưng có thể phát hiện được trong đầu ra của mô hình để xác định văn bản được tạo bởi LLM, là rất quan trọng để ngăn chặn việc lạm dụng mô hình ngôn ngữ lớn. Các kỹ thuật watermarking này chủ yếu được chia thành hai loại: Gia đình KGW và Gia đình Christ. Gia đình KGW sửa đổi logits được tạo bởi LLM để tạo ra đầu ra có watermark bằng cách phân loại từ vựng thành danh sách xanh và danh sách đỏ dựa trên token trước.Bias được giới thiệu vào logits của token trong danh sách xanh trong quá trình tạo văn bản, ưa thích các token này trong văn bản được tạo. Một metric thống kê sau đó được tính toán từ tỷ lệ của các từ xanh, và một ngưỡng được thiết lập để phân biệt giữa văn bản có watermark và không có watermark. Cải tiến đối với phương pháp KGW bao gồm phân chia danh sách được cải tiến, thao túng logits tốt hơn, tăng khả năng chứa thông tin watermark, khả năng chống lại các cuộc tấn công xóa watermark, và khả năng phát hiện watermark công khai.

Ngược lại, Gia đình Christ thay đổi quá trình lấy mẫu trong quá trình tạo văn bản LLM, nhúng watermark bằng cách thay đổi cách chọn token. Cả hai gia đình watermarking đều nhằm mục đích cân bằng giữa khả năng phát hiện watermark và chất lượng văn bản, giải quyết các thách thức như độ bền trong các thiết lập entropy khác nhau, tăng khả năng chứa thông tin watermark, và bảo vệ chống lại các nỗ lực xóa watermark. Nghiên cứu gần đây đã tập trung vào việc tinh chỉnh phân chia danh sách và thao túng logits), tăng khả năng chứa thông tin watermark, phát triển phương pháp chống lại việc xóa watermark, và cho phép phát hiện công khai. Cuối cùng, LLM watermarking là rất quan trọng cho việc sử dụng mô hình ngôn ngữ lớn một cách đạo đức và có trách nhiệm, cung cấp một phương pháp để theo dõi và xác minh văn bản được tạo bởi LLM. Gia đình KGW và Christ cung cấp hai phương pháp khác nhau, mỗi phương pháp có điểm mạnh và ứng dụng riêng, liên tục phát triển thông qua nghiên cứu và đổi mới.

Do khả năng của các khuôn khổ watermarking LLM nhúng tín hiệu có thể phát hiện được trong đầu ra của mô hình để xác định văn bản được tạo bởi một khuôn khổ LLM đang đóng vai trò quan trọng trong việc giảm thiểu rủi ro liên quan đến việc lạm dụng mô hình ngôn ngữ lớn. Tuy nhiên, có rất nhiều khuôn khổ watermarking LLM trên thị trường hiện nay, mỗi khuôn khổ có quan điểm và thủ tục đánh giá riêng, khiến cho các nhà nghiên cứu khó có thể dễ dàng thử nghiệm với các khuôn khổ này. Để giải quyết vấn đề này, MarkLLM, một bộ công cụ mở nguồn cho watermarking, cung cấp một khuôn khổ thống nhất và có thể mở rộng để thực hiện các thuật toán watermarking LLM trong khi cung cấp các giao diện thân thiện với người dùng để đảm bảo dễ sử dụng và truy cập. Hơn nữa, khuôn khổ MarkLLM hỗ trợ việc trực quan hóa tự động các cơ chế của các khuôn khổ này, do đó tăng cường khả năng hiểu của các mô hình này. Khuôn khổ MarkLLM cung cấp một bộ công cụ toàn diện gồm 12 công cụ bao gồm ba quan điểm cùng với hai đường ống đánh giá tự động để đánh giá hiệu suất của nó. Bài viết này nhằm mục đích giới thiệu khuôn khổ MarkLLM một cách chi tiết, và chúng tôi khám phá cơ chế, phương pháp, kiến trúc của khuôn khổ cùng với so sánh với các khuôn khổ hiện đại. Vậy hãy bắt đầu.

MarkLLM: Bộ Công Cụ Watermarking LLM

Sự xuất hiện của các khuôn khổ mô hình ngôn ngữ lớn như LLaMA, GPT-4, ChatGPT, và nhiều hơn nữa đã tiến bộ đáng kể khả năng của các mô hình AI thực hiện các nhiệm vụ cụ thể bao gồm viết sáng tạo, hiểu nội dung, tạo và thu thập thông tin, và nhiều hơn nữa. Tuy nhiên, cùng với những lợi ích đáng kể liên quan đến sự thành thạo của các mô hình ngôn ngữ lớn hiện tại, một số rủi ro đã xuất hiện bao gồm việc viết bài học giả, tin tức giả và hình ảnh giả được tạo bởi LLM, và giả mạo cá nhân để đặt tên. Cho dù những rủi ro liên quan đến những vấn đề này, điều quan trọng là phải phát triển các phương pháp đáng tin cậy có khả năng phân biệt giữa nội dung được tạo bởi LLM và nội dung của con người, một yêu cầu chính để đảm bảo tính xác thực của truyền thông kỹ thuật số, và ngăn chặn sự lan truyền của thông tin sai lệch. Trong những năm gần đây, watermarking LLM đã được đề xuất như một trong những giải pháp hứa hẹn cho việc phân biệt nội dung được tạo bởi LLM với nội dung của con người, và bằng cách tích hợp các tính năng riêng biệt trong quá trình tạo văn bản, đầu ra LLM có thể được xác định duy nhất bằng cách sử dụng các bộ phát hiện đặc biệt. Tuy nhiên, do sự phổ biến và các thuật toán phức tạp của các khuôn khổ watermarking LLM cùng với sự đa dạng của các metric đánh giá và quan điểm đã làm cho việc thử nghiệm với các khuôn khổ này trở nên vô cùng khó khăn.

Để bắc cầu khoảng cách hiện tại, khuôn khổ MarkLLM cố gắng thực hiện các đóng góp sau. MARKLLM cung cấp các giao diện nhất quán và thân thiện với người dùng để tải thuật toán, tạo văn bản có watermark, thực hiện quá trình phát hiện, và thu thập dữ liệu cho việc trực quan hóa. Nó cung cấp các giải pháp trực quan hóa tùy chỉnh cho cả hai họ watermarking chính, cho phép người dùng xem cách các thuật toán khác nhau hoạt động dưới các cấu hình khác nhau với các ví dụ thực tế. Bộ công cụ bao gồm một môđun đánh giá toàn diện với 12 công cụ giải quyết khả năng phát hiện, độ bền, và tác động đến chất lượng văn bản. Ngoài ra, nó có hai loại đường ống đánh giá tự động hỗ trợ tùy chỉnh của người dùng về tập dữ liệu, mô hình, metric đánh giá, và các cuộc tấn công, tạo điều kiện cho việc đánh giá linh hoạt và toàn diện. Được thiết kế với kiến trúc mô-đun, rời rạc, MARKLLM tăng cường khả năng mở rộng và linh hoạt. Lựa chọn thiết kế này hỗ trợ việc tích hợp các thuật toán mới, các kỹ thuật trực quan hóa sáng tạo, và việc mở rộng bộ công cụ đánh giá bởi các nhà phát triển trong tương lai.

Nhiều thuật toán watermarking đã được đề xuất, nhưng cách tiếp cận thực hiện độc đáo của chúng thường ưu tiên các yêu cầu cụ thể hơn là tiêu chuẩn hóa, dẫn đến một số vấn đề

Thiếu Tiêu Chuẩn Hóa Trong Thiết Kế Lớp: Điều này đòi hỏi nỗ lực đáng kể để tối ưu hóa hoặc mở rộng các phương pháp hiện có do thiết kế lớp không được tiêu chuẩn hóa đầy đủ.
Thiếu Sự Đồng Nhất Trong Giao Diện Gọi Hàng Đầu: Các giao diện không nhất quán làm cho việc xử lý批 và sao chép các thuật toán khác nhau trở nên cồng kềnh và tốn thời gian.
Vấn Đề Mã Code: Thử thách bao gồm việc cần thay đổi cài đặt trên nhiều đoạn mã và tài liệu không nhất quán, khiến việc tùy chỉnh và sử dụng hiệu quả trở nên phức tạp. Các giá trị hard-code và xử lý lỗi không nhất quán còn cản trở khả năng thích nghi và nỗ lực gỡ lỗi.

Để giải quyết những vấn đề này, bộ công cụ của chúng tôi cung cấp một khuôn khổ thực hiện thống nhất cho phép việc gọi thuận tiện các thuật toán hiện đại dưới các cấu hình linh hoạt. Ngoài ra, cấu trúc lớp được thiết kế cẩn thận của chúng tôi mở đường cho các mở rộng trong tương lai. Hình sau minh họa thiết kế của khuôn khổ thực hiện thống nhất này.

Do thiết kế phân phối của khuôn khổ, việc thêm các giao diện hàng đầu vào bất kỳ lớp thuật toán watermarking cụ thể nào trở nên đơn giản mà không ảnh hưởng đến các thuật toán khác.

MarkLLM : Kiến Trúc và Phương Pháp

Các kỹ thuật watermarking LLM chủ yếu được chia thành hai loại: Gia đình KGW và Gia đình Christ. Gia đình KGW sửa đổi logits được tạo bởi LLM để tạo ra đầu ra có watermark bằng cách phân loại từ vựng thành danh sách xanh và danh sách đỏ dựa trên token trước. Bias được giới thiệu vào logits của token trong danh sách xanh trong quá trình tạo văn bản, ưa thích các token này trong văn bản được tạo. Một metric thống kê sau đó được tính toán từ tỷ lệ của các từ xanh, và một ngưỡng được thiết lập để phân biệt giữa văn bản có watermark và không có watermark. Cải tiến đối với phương pháp KGW bao gồm phân chia danh sách được cải tiến, thao túng logits tốt hơn, tăng khả năng chứa thông tin watermark, khả năng chống lại các cuộc tấn công xóa watermark, và khả năng phát hiện watermark công khai.

Đánh Giá Toàn Diện Tự Động

Việc đánh giá một thuật toán watermarking LLM là một nhiệm vụ phức tạp. Đầu tiên, nó đòi hỏi sự xem xét các khía cạnh khác nhau, bao gồm khả năng phát hiện watermark, độ bền chống lại sự giả mạo, và tác động đến chất lượng văn bản. Thứ hai, các đánh giá từ mỗi quan điểm có thể yêu cầu các metric, kịch bản tấn công, và nhiệm vụ khác nhau. Hơn nữa, việc thực hiện một đánh giá thường liên quan đến nhiều bước, như lựa chọn mô hình và tập dữ liệu, tạo văn bản có watermark, xử lý sau, phát hiện watermark, giả mạo văn bản, và tính toán metric. Để tạo điều kiện cho việc đánh giá thuận tiện và toàn diện các thuật toán watermarking LLM, MarkLLM cung cấp 12 công cụ thân thiện với người dùng, bao gồm các máy tính metric và các công cụ tấn công bao phủ ba quan điểm đánh giá đã đề cập. Ngoài ra, MARKLLM cung cấp hai loại đường ống demo tự động, các mô-đun của nó có thể được tùy chỉnh và lắp ráp linh hoạt, cho phép cấu hình và sử dụng dễ dàng .

Về mặt khả năng phát hiện, hầu hết các thuật toán watermarking cuối cùng yêu cầu chỉ định một ngưỡng để phân biệt giữa văn bản có watermark và không có watermark. Chúng tôi cung cấp một máy tính tỷ lệ thành công cơ bản sử dụng một ngưỡng cố định. Ngoài ra, để giảm thiểu tác động của việc chọn ngưỡng đối với khả năng phát hiện, chúng tôi cũng cung cấp một máy tính hỗ trợ việc chọn ngưỡng động. Công cụ này có thể xác định ngưỡng mang lại điểm F1 tốt nhất hoặc chọn ngưỡng dựa trên tỷ lệ giả dương mục tiêu (FPR) do người dùng chỉ định.

Về mặt độ bền, MARKLLM cung cấp ba cuộc tấn công giả mạo văn bản ở cấp độ từ: xóa từ ngẫu nhiên tại một tỷ lệ nhất định, thay thế từ đồng nghĩa ngẫu nhiên sử dụng WordNet làm tập từ đồng nghĩa, và thay thế từ đồng nghĩa nhận thức ngữ cảnh sử dụng BERT làm mô hình nhúng. Ngoài ra, hai cuộc tấn công giả mạo văn bản ở cấp độ tài liệu được cung cấp: diễn đạt lại ngữ cảnh thông qua OpenAI API hoặc mô hình Dipper. Về mặt chất lượng văn bản, MARKLLM cung cấp hai công cụ phân tích trực tiếp: một máy tính độ phức tạp để đo độ trôi chảy và một máy tính đa dạng để đánh giá sự thay đổi của văn bản. Để phân tích tác động của watermarking đến chất lượng văn bản trong các nhiệm vụ cụ thể, chúng tôi cung cấp một máy tính BLEU cho các nhiệm vụ dịch máy và một bộ đánh giá “đạt” hoặc “không đạt” cho các nhiệm vụ tạo mã. Ngoài ra, cho dù các phương pháp hiện tại để so sánh chất lượng của văn bản có watermark và không có watermark, bao gồm việc sử dụng một mô hình LLM mạnh hơn để phán quyết, MarkLLM cũng cung cấp một bộ phân biệt GPT, sử dụng GPT-4 để so sánh chất lượng văn bản.

Đường Ống Đánh Giá

Để tạo điều kiện cho việc đánh giá tự động các thuật toán watermarking LLM, MARKLLM cung cấp hai đường ống đánh giá: một cho việc đánh giá khả năng phát hiện watermark với và không có tấn công, và một cho việc phân tích tác động của các thuật toán này đến chất lượng văn bản. Theo quá trình này, chúng tôi đã thực hiện hai đường ống: WMDetect3 và UWMDetect4. Sự khác biệt chính giữa chúng nằm ở giai đoạn tạo văn bản. Đường ống đầu tiên yêu cầu sử dụng phương thức generate_watermarked_text từ thuật toán watermarking, trong khi đường ống thứ hai phụ thuộc vào tham số text_source để xác định liệu có nên lấy trực tiếp văn bản tự nhiên từ tập dữ liệu hay gọi phương thức generate_unwatermarked_text.

Để đánh giá tác động của watermarking đến chất lượng văn bản, các cặp văn bản có watermark và không có watermark được tạo. Các văn bản, cùng với các đầu vào cần thiết khác, sau đó được xử lý và đưa vào một phân tích chất lượng văn bản được chỉ định để tạo ra kết quả phân tích và so sánh chi tiết. Theo quá trình này, chúng tôi đã thực hiện ba đường ống cho các kịch bản đánh giá khác nhau:

DirectQual.5: Đường ống này được thiết kế đặc biệt để phân tích chất lượng văn bản bằng cách so sánh trực tiếp các đặc điểm của văn bản có watermark với những của văn bản không có watermark. Nó đánh giá các metric như độ phức tạp (PPL) và đa dạng log, mà không cần bất kỳ văn bản tham chiếu nào.
RefQual.6: Đường ống này đánh giá chất lượng văn bản bằng cách so sánh cả văn bản có watermark và không có watermark với một văn bản tham chiếu chung. Nó đo độ tương tự hoặc độ lệch khỏi văn bản tham chiếu, làm cho nó lý tưởng cho các kịch bản yêu cầu các nhiệm vụ cụ thể để đánh giá chất lượng văn bản, như dịch máy và tạo mã.
ExDisQual.7: Đường ống này sử dụng một bộ đánh giá bên ngoài, như GPT-4 (OpenAI, 2023), để đánh giá chất lượng của cả văn bản có watermark và không có watermark. Bộ đánh giá này đánh giá văn bản dựa trên mô tả nhiệm vụ do người dùng cung cấp, xác định bất kỳ sự suy giảm hoặc bảo toàn chất lượng nào do watermarking gây ra. Phương pháp này đặc biệt có giá trị khi một phân tích AI tiên tiến về các hiệu ứng tinh vi của watermarking là cần thiết.

MarkLLM: Thử Nghiệm và Kết Quả

Để đánh giá hiệu suất của nó, khuôn khổ MarkLLM thực hiện các đánh giá trên chín thuật toán khác nhau, và đánh giá tác động, độ bền, và khả năng phát hiện của chúng đối với chất lượng văn bản.

Bảng trên chứa kết quả đánh giá khả năng phát hiện của chín thuật toán được hỗ trợ trong MarkLLM. Việc điều chỉnh ngưỡng động được sử dụng để đánh giá khả năng phát hiện watermark, với ba cài đặt được cung cấp: dưới tỷ lệ giả dương mục tiêu 10%, dưới tỷ lệ giả dương mục tiêu 1%, và dưới điều kiện cho hiệu suất F1 tối ưu. 200 văn bản có watermark được tạo, trong khi 200 văn bản không có watermark phục vụ như ví dụ tiêu cực. Chúng tôi cung cấp TPR và F1-score dưới điều chỉnh ngưỡng động cho 10% và 1% FPR, cùng với TPR, TNR, FPR, FNR, P, R, F1, ACC tại hiệu suất tối ưu. Bảng sau chứa kết quả đánh giá độ bền của chín thuật toán được hỗ trợ trong MarkLLM. Đối với mỗi cuộc tấn công, 200 văn bản có watermark được tạo và sau đó bị giả mạo, với 200 văn bản không có watermark phục vụ như ví dụ tiêu cực. Chúng tôi báo cáo TPR và F1-score tại hiệu suất tối ưu dưới mỗi hoàn cảnh.

Suy Nghĩ Cuối Cùng

Trong bài viết này, chúng tôi đã thảo luận về MarkLLM, một bộ công cụ mở nguồn cho watermarking, cung cấp một khuôn khổ thống nhất và có thể mở rộng để thực hiện các thuật toán watermarking LLM trong khi cung cấp các giao diện thân thiện với người dùng để đảm bảo dễ sử dụng và truy cập. Hơn nữa, khuôn khổ MarkLLM hỗ trợ việc trực quan hóa tự động các cơ chế của các khuôn khổ này, do đó tăng cường khả năng hiểu của các mô hình này. Khuôn khổ MarkLLM cung cấp một bộ công cụ toàn diện gồm 12 công cụ bao gồm ba quan điểm cùng với hai đường ống đánh giá tự động để đánh giá hiệu suất của nó.

Kunal Kejriwal

"Một kỹ sư theo nghề nghiệp, một nhà văn theo trái tim". Kunal là một nhà văn kỹ thuật với tình yêu và hiểu biết sâu sắc về AI và ML, dành để đơn giản hóa các khái niệm phức tạp trong các lĩnh vực này thông qua tài liệu hấp dẫn và thông tin của mình.