Góc của Anderson
Tự động hóa bảo vệ bản quyền trong hình ảnh do AI tạo ra

Như đã thảo luận tuần trước, ngay cả các mô hình nền tảng cốt lõi đằng sau các hệ thống AI tạo sinh phổ biến cũng có thể tạo ra nội dung vi phạm bản quyền, do sự quản lý không đầy đủ hoặc không phù hợp, cũng như sự hiện diện của nhiều phiên bản của cùng một hình ảnh trong dữ liệu đào tạo, dẫn đến quá mứcvà tăng khả năng nhận dạng được các bản sao.
Bất chấp những nỗ lực thống trị không gian AI tạo sinh và áp lực ngày càng tăng nhằm hạn chế vi phạm IP, các nền tảng lớn như MidJourney và DALL-E của OpenAI vẫn tiếp tục đối mặt với những thách thức trong việc ngăn chặn việc sao chép vô ý nội dung có bản quyền:

Khả năng của các hệ thống tạo ra dữ liệu có bản quyền thường xuyên xuất hiện trên các phương tiện truyền thông.
Khi các mô hình mới xuất hiện và khi các mô hình Trung Quốc đạt được sự thống trị, việc ngăn chặn tài liệu có bản quyền trong các mô hình nền tảng là một viễn cảnh khó khăn; trên thực tế, công ty dẫn đầu thị trường open.ai đã tuyên bố vào năm ngoái rằng họ 'không thể nào' để tạo ra các mô hình hiệu quả và hữu ích mà không cần dữ liệu có bản quyền.
Nghệ thuật nguyên thủy
Liên quan đến việc tạo ra tài liệu có bản quyền một cách vô tình, bối cảnh nghiên cứu phải đối mặt với một thách thức tương tự như việc đưa nội dung khiêu dâm và các tài liệu NSFW khác vào dữ liệu nguồn: người ta muốn hưởng lợi từ kiến thức (tức là, giải phẫu người chính xác, mà về mặt lịch sử luôn luôn là dựa trên nghiên cứu khỏa thân) mà không có khả năng lạm dụng nó.
Tương tự như vậy, những người làm mô hình muốn hưởng lợi từ phạm vi rộng lớn của tài liệu có bản quyền tìm đường vào các bộ siêu quy mô như LAION, mà không có mô hình nào phát triển khả năng thực sự xâm phạm SHTT.
Bỏ qua các rủi ro về mặt đạo đức và pháp lý khi cố gắng che giấu việc sử dụng tài liệu có bản quyền, việc lọc đối với trường hợp sau khó khăn hơn đáng kể. Nội dung NSFW thường chứa các nội dung tiềm ẩn cấp thấp riêng biệt Tính năng, đặc điểm cho phép lọc ngày càng hiệu quả mà không cần so sánh trực tiếp với tài liệu thực tế. Ngược lại, nhúng tiềm ẩn việc xác định hàng triệu tác phẩm có bản quyền không chỉ giới hạn ở một tập hợp các dấu hiệu dễ nhận biết, khiến việc phát hiện tự động trở nên phức tạp hơn nhiều.
Bản sao thẩm phán
Phán đoán của con người là một mặt hàng khan hiếm và đắt đỏ, cả trong việc quản lý tập dữ liệu và trong việc tạo ra các bộ lọc hậu xử lý và các hệ thống dựa trên 'an toàn' được thiết kế để đảm bảo rằng tài liệu bị khóa IP không được gửi đến người dùng của các cổng thông tin dựa trên API như MidJourney và khả năng tạo hình ảnh của ChatGPT.
Do đó, một sự hợp tác học thuật mới giữa Thụy Sĩ, Sony AI và Trung Quốc đang được cung cấp Bản sao thẩm phán – một phương pháp tự động để điều phối các nhóm 'thẩm phán' thông đồng liên tiếp dựa trên ChatGPT có thể kiểm tra dữ liệu đầu vào để tìm dấu hiệu vi phạm bản quyền.

CopyJudge đánh giá nhiều thế hệ AI vi phạm IP khác nhau. Nguồn: https://arxiv.org/pdf/2502.15278
CopyJudge cung cấp một khuôn khổ tự động tận dụng các mô hình ngôn ngữ thị giác lớn (LVLM) để xác định mức độ tương đồng đáng kể giữa hình ảnh có bản quyền và hình ảnh được tạo ra bởi các mô hình khuếch tán văn bản sang hình ảnh.

Phương pháp CopyJudge sử dụng phương pháp học tăng cường và các phương pháp khác để tối ưu hóa các lời nhắc vi phạm bản quyền, sau đó sử dụng thông tin từ các lời nhắc đó để tạo ra các lời nhắc mới ít có khả năng gợi lên hình ảnh vi phạm bản quyền hơn.
Mặc dù nhiều trình tạo hình ảnh trực tuyến dựa trên AI lọc các lời nhắc của người dùng về NSFW, tài liệu có bản quyền, nội dung tái tạo từ người thật và nhiều miền bị cấm khác, CopyJudge thay vào đó sử dụng các lời nhắc 'vi phạm' đã được tinh chỉnh để tạo ra các lời nhắc 'đã được khử trùng' ít có khả năng gợi lên hình ảnh không được phép, mà không có ý định chặn trực tiếp nội dung do người dùng gửi.
Mặc dù đây không phải là một cách tiếp cận mới, nhưng nó phần nào giải phóng các hệ thống tạo ra dựa trên API khỏi việc chỉ đơn giản là từ chối đầu vào của người dùng (đặc biệt là vì điều này cho phép người dùng phát triển truy cập cửa sau cho những thế hệ không được phép, thông qua thử nghiệm).
Một lỗ hổng gần đây (đã bị các nhà phát triển đóng lại) cho phép người dùng tạo ra nội dung khiêu dâm trên nền tảng AI tạo hình Kling chỉ bằng cách thêm một cây thánh giá nổi bật hoặc hình thánh giá vào hình ảnh được tải lên trong quy trình làm việc chuyển đổi hình ảnh thành video.

Trong một lỗ hổng được các nhà phát triển Kling vá vào cuối năm 2024, người dùng có thể buộc hệ thống tạo ra đầu ra NSFW bị cấm chỉ bằng cách bao gồm một cây thánh giá hoặc thánh giá trong hình ảnh hạt giống I2V. Không có lời giải thích nào được đưa ra về logic đằng sau vụ hack hiện đã hết hạn này. Nguồn: Discord
Những trường hợp như thế này nhấn mạnh nhu cầu khử trùng nhanh chóng trong các hệ thống tạo trực tuyến, đặc biệt là vì việc bỏ học máy, trong đó bản thân mô hình nền tảng được thay đổi để loại bỏ các khái niệm bị cấm, có thể có hiệu ứng không mong muốn về khả năng sử dụng của mô hình cuối cùng.
Tìm kiếm các giải pháp ít quyết liệt hơn, hệ thống CopyJudge mô phỏng các phán quyết pháp lý dựa trên con người bằng cách sử dụng AI để chia hình ảnh thành các yếu tố chính như bố cục và màu sắc, để lọc ra các phần không có bản quyền và so sánh những gì còn lại. Nó cũng bao gồm một phương pháp do AI điều khiển để điều chỉnh lời nhắc và sửa đổi việc tạo hình ảnh, giúp tránh các vấn đề về bản quyền trong khi vẫn bảo toàn nội dung sáng tạo.
Các tác giả khẳng định, kết quả thử nghiệm chứng minh sự tương đương của CopyJudge với các phương pháp tiên tiến nhất trong mục tiêu này và chỉ ra rằng hệ thống này thể hiện tính vượt trội sự khái quát và khả năng diễn giải, khi so sánh với các tác phẩm trước đó.
giấy mới có tiêu đề CopyJudge: Nhận dạng và giảm thiểu vi phạm bản quyền tự động trong các mô hình khuếch tán văn bản sang hình ảnhvà đến từ năm nhà nghiên cứu tại EPFL, Sony AI và Đại học Westlake của Trung Quốc.
Phương pháp
Mặc dù CopyJudge sử dụng GPT để tạo ra các tòa án luân phiên gồm các thẩm phán tự động, các tác giả nhấn mạnh rằng hệ thống này không được tối ưu hóa cho sản phẩm của OpenAI và có thể sử dụng bất kỳ Mô hình ngôn ngữ tầm nhìn lớn (LVLM) thay thế nào.
Trước tiên, khuôn khổ trừu tượng hóa-lọc-so sánh của tác giả là cần thiết để phân tích hình ảnh nguồn thành các thành phần cấu thành, như minh họa ở phía bên trái của sơ đồ bên dưới:

Sơ đồ khái niệm cho giai đoạn đầu của quy trình làm việc CopyJudge.
Ở góc dưới bên trái, chúng ta thấy một tác nhân lọc đang chia nhỏ các phần hình ảnh để cố gắng xác định các đặc điểm có thể vốn có trong một tác phẩm có bản quyền, nhưng bản thân chúng quá chung chung để có thể coi là hành vi vi phạm.
Nhiều LVLM sau đó được sử dụng để đánh giá các phần tử đã lọc – một phương pháp đã được chứng minh là hiệu quả trong các bài báo như CSAIL 2023 cung cấp Cải thiện tính thực tế và lý luận trong các mô hình ngôn ngữ thông qua tranh luận đa tác nhânvà Trò chuyệnĐánh giá, trong số nhiều điều khác được thừa nhận trong bài báo mới.
Các tác giả tuyên bố:
'[Chúng tôi] áp dụng phương pháp tranh luận giao tiếp đồng bộ được kết nối hoàn toàn, trong đó mỗi LVLM nhận được [phản hồi] từ các LVLM [khác] trước khi đưa ra phán đoán tiếp theo. Điều này tạo ra một vòng phản hồi động giúp tăng cường độ tin cậy và chiều sâu của phân tích, khi các mô hình điều chỉnh đánh giá của chúng dựa trên những hiểu biết mới do các đối tác của chúng đưa ra.
'Mỗi LVLM có thể điều chỉnh điểm của mình dựa trên phản hồi từ các LVLM khác hoặc giữ nguyên điểm.'
Nhiều cặp hình ảnh do con người chấm điểm cũng được đưa vào quy trình thông qua việc học theo ngữ cảnh qua một vài bức ảnh'
Khi các 'tòa án' trong vòng lặp đã đạt được điểm số đồng thuận nằm trong phạm vi có thể chấp nhận được, kết quả sẽ được chuyển đến 'thẩm phán siêu cấp' LVLM, nơi tổng hợp các kết quả thành điểm số cuối cùng.
Giảm nhẹ
Tiếp theo, các tác giả tập trung vào quá trình giảm thiểu nhanh chóng được mô tả trước đó.

Sơ đồ của CopyJudge nhằm giảm thiểu vi phạm bản quyền bằng cách tinh chỉnh lời nhắc và nhiễu tiềm ẩn. Hệ thống điều chỉnh lời nhắc theo chu kỳ, sử dụng học tăng cường để sửa đổi các biến tiềm ẩn khi lời nhắc phát triển, hy vọng giảm thiểu nguy cơ vi phạm.
Hai phương pháp được sử dụng để giảm thiểu nhanh chóng là kiểm soát nhanh chóng dựa trên LVLM, trong đó các lời nhắc không vi phạm hiệu quả được phát triển lặp đi lặp lại trên các cụm GPT – một phương pháp hoàn toàn là 'hộp đen', không yêu cầu quyền truy cập nội bộ vào kiến trúc mô hình; và học tăng cường- phương pháp dựa trên RL, trong đó phần thưởng được thiết kế để phạt những sản phẩm vi phạm bản quyền.
Dữ liệu và Kiểm tra
Để kiểm tra CopyJudge, nhiều tập dữ liệu khác nhau đã được sử dụng, bao gồm Đại diện D, bao gồm các cặp hình ảnh thật và giả được con người chấm điểm theo thang điểm từ 0-5.

Khám phá tập dữ liệu D-Rep tại Hugging Face. Bộ sưu tập này ghép nối hình ảnh thực và hình ảnh được tạo. Nguồn: https://huggingface.co/datasets/WenhaoWang/D-Rep/viewer/default/
Sơ đồ CopyJudge coi các hình ảnh D-Rep có điểm 4 trở lên là ví dụ vi phạm, phần còn lại được giữ lại vì không liên quan đến IP. 4000 hình ảnh chính thức trong tập dữ liệu được sử dụng làm hình ảnh thử nghiệm. Hơn nữa, các nhà nghiên cứu đã chọn và quản lý hình ảnh cho 10 nhân vật hoạt hình nổi tiếng từ Wikipedia.
Ba kiến trúc dựa trên sự khuếch tán được sử dụng để tạo ra những hình ảnh có khả năng vi phạm là Khuếch tán ổn định V2; Kandinsky2-2; Và Khuếch tán ổn định XL. Các tác giả đã chọn thủ công một hình ảnh vi phạm và một hình ảnh không vi phạm từ mỗi mô hình, thu được 60 mẫu dương tính và 60 mẫu âm tính.
Các phương pháp cơ sở được chọn để so sánh là: L2 định mức; Đã học được sự tương đồng của hình ảnh nhận thức (LPIPS); SSCD; RLCP; Và PDF-Emb. Đối với số liệu, Độ chính xác và Điểm F1 được sử dụng làm tiêu chí để vi phạm.
GPT-4o được sử dụng để điền vào các nhóm tranh luận nội bộ của CopyJudge, sử dụng ba tác nhân cho tối đa năm lần lặp lại trên bất kỳ hình ảnh cụ thể nào được gửi. Ba hình ảnh ngẫu nhiên từ mỗi lần chấm điểm trong D-Rep được sử dụng làm con người mồi để các tác nhân xem xét.

Kết quả vi phạm của CopyJudge ở vòng đầu tiên.
Về những kết quả này, các tác giả bình luận:
'[Rõ ràng] là các phương pháp phát hiện sao chép hình ảnh truyền thống có những hạn chế trong nhiệm vụ xác định vi phạm bản quyền. Cách tiếp cận của chúng tôi vượt trội hơn hẳn hầu hết các phương pháp khác. Đối với phương pháp tiên tiến nhất, PDF-Emb, được đào tạo trên 36,000 mẫu từ D-Rep, hiệu suất của chúng tôi trên D-Rep kém hơn một chút.
'Tuy nhiên, hiệu suất kém của nó trên tập dữ liệu Cartoon IP và Artwork cho thấy khả năng khái quát hóa còn hạn chế, trong khi phương pháp của chúng tôi cho thấy kết quả tuyệt vời trên nhiều tập dữ liệu khác nhau.'
Các tác giả cũng lưu ý rằng CopyJudge cung cấp ranh giới 'tương đối' rõ ràng hơn giữa các trường hợp hợp lệ và vi phạm:

Các ví dụ khác từ các vòng thử nghiệm có trong tài liệu bổ sung của bài báo mới.
Các nhà nghiên cứu đã so sánh phương pháp của họ với một AI của Sony hợp tác từ năm 2024 có tiêu đề Phát hiện, Giải thích và Giảm thiểu Ghi nhớ trong Mô hình Khuếch tán. Công trình này sử dụng mô hình khuếch tán ổn định được tinh chỉnh với 200 hình ảnh được ghi nhớ (tức là được điều chỉnh quá mức) để thu thập dữ liệu có bản quyền tại thời điểm suy luận.
Các tác giả của công trình mới nhận thấy rằng phương pháp giảm thiểu nhanh chóng của họ, so với phương pháp năm 2024, có thể tạo ra những hình ảnh ít có khả năng gây ra vi phạm hơn.

Kết quả giảm thiểu ghi nhớ bằng CopyJudge so với công trình năm 2024.
Các tác giả bình luận ở đây:
'Phương pháp của chúng tôi có thể tạo ra những hình ảnh ít có khả năng gây ra vi phạm hơn, đồng thời vẫn duy trì độ chính xác khớp lệnh tương đương, tuy nhiên giảm nhẹ. Như được thể hiện trong [hình ảnh bên dưới], phương pháp của chúng tôi đã khắc phục hiệu quả những thiếu sót của phương pháp trước, bao gồm việc không giảm thiểu được việc ghi nhớ hoặc tạo ra những hình ảnh có độ lệch cao.'

So sánh hình ảnh và lời nhắc được tạo ra trước và sau khi giảm thiểu ghi nhớ.
Các tác giả đã tiến hành thêm các thử nghiệm liên quan đến việc giảm thiểu vi phạm, nghiên cứu rõ ràng và ngầm sự vi phạm.
Vi phạm rõ ràng xảy ra khi lời nhắc trực tiếp tham chiếu đến tài liệu có bản quyền, chẳng hạn như 'Tạo hình ảnh chú chuột Mickey'Để kiểm tra điều này, các nhà nghiên cứu đã sử dụng 20 mẫu phim hoạt hình và tác phẩm nghệ thuật, tạo ra các hình ảnh vi phạm trong Stable Diffusion v2 với lời nhắc bao gồm rõ ràng tên hoặc thông tin tác giả.

So sánh giữa phương pháp Kiểm soát tiềm ẩn (LC) của tác giả và phương pháp Kiểm soát nhanh (PC) của tác phẩm trước, với nhiều biến thể khác nhau, sử dụng phương pháp Khuếch tán ổn định để tạo ra hình ảnh mô tả hành vi vi phạm rõ ràng.
Vi phạm ngầm xảy ra khi lời nhắc không có tham chiếu bản quyền rõ ràng nhưng vẫn dẫn đến hình ảnh vi phạm do một số yếu tố mô tả nhất định – một tình huống đặc biệt liên quan đến các mô hình chuyển văn bản thành hình ảnh thương mại, thường kết hợp các hệ thống phát hiện nội dung để xác định và chặn lời nhắc liên quan đến bản quyền.
Để khám phá điều này, các tác giả đã sử dụng các mẫu khóa IP giống như trong thử nghiệm vi phạm rõ ràng, nhưng tạo ra các hình ảnh vi phạm mà không có tham chiếu bản quyền trực tiếp, sử dụng DALL-E 3 (mặc dù bài báo lưu ý rằng mô-đun phát hiện an toàn tích hợp của mô hình đã được quan sát thấy là từ chối một số lời nhắc kích hoạt bộ lọc của nó).

Vi phạm ngầm định sử dụng DALLE-3, với điểm vi phạm và điểm CLIP.
Các tác giả tuyên bố:
'[Có thể thấy] rằng phương pháp của chúng tôi làm giảm đáng kể khả năng vi phạm, cả vi phạm rõ ràng và vi phạm ngầm, với chỉ một chút giảm trong Điểm CLIP. Điểm vi phạm sau khi chỉ kiểm soát tiềm ẩn tương đối cao hơn sau khi kiểm soát nhanh vì việc truy xuất các tiềm ẩn không vi phạm mà không thay đổi lời nhắc là khá khó khăn. Tuy nhiên, chúng tôi vẫn có thể giảm hiệu quả điểm vi phạm trong khi vẫn duy trì chất lượng khớp hình ảnh-văn bản cao hơn.
'[Hình ảnh bên dưới] hiển thị kết quả trực quan, trong đó có thể thấy rằng chúng tôi tránh được hành vi vi phạm IP trong khi vẫn bảo toàn các yêu cầu của người dùng.'

Hình ảnh được tạo ra trước và sau khi giảm thiểu hành vi xâm phạm IP.
Kết luận
Mặc dù nghiên cứu này đưa ra một cách tiếp cận đầy hứa hẹn về bảo vệ bản quyền trong hình ảnh do AI tạo ra, việc dựa vào các mô hình ngôn ngữ thị giác lớn (LVLM) để phát hiện vi phạm có thể gây ra lo ngại về sự thiên vị và tính nhất quán, vì các phán đoán do AI đưa ra không phải lúc nào cũng phù hợp với các tiêu chuẩn pháp lý.
Có lẽ quan trọng nhất là dự án này cũng cho rằng việc thực thi bản quyền có thể được tự động hóa, bất chấp các quyết định pháp lý trong thế giới thực thường liên quan đến các yếu tố chủ quan và bối cảnh mà AI có thể gặp khó khăn trong việc diễn giải.
Trong thế giới thực, việc tự động hóa sự đồng thuận về mặt pháp lý, đặc biệt là xung quanh kết quả từ AI, có vẻ như vẫn là một vấn đề gây tranh cãi vượt xa thời điểm này và vượt xa phạm vi của lĩnh vực được đề cập trong công trình này.
Lần đầu tiên xuất bản Thứ Hai, ngày 24 tháng 2025 năm XNUMX