Góc nhìn Anderson

Các Hình Ảnh Được ‘Bảo Vệ’ Dễ Bị Đánh Cắp Bằng Trí Tuệ Nhân Tạo Hơn

Published June 9, 2025

Updated April 26, 2026

Martin Anderson

A shadowy man steals into an art gallery as the guard sleeps. Krita/Flux-1 Dev + Firefly

Nghiên cứu mới cho thấy các công cụ đánh dấu nước nhằm ngăn chặn chỉnh sửa hình ảnh AI có thể phản tác dụng. Thay vì ngăn mô hình như Stable Diffusion thực hiện thay đổi, một số biện pháp bảo vệ thực sự giúp trí tuệ nhân tạo tuân theo các lệnh chỉnh sửa chặt chẽ hơn, khiến việc thao túng không mong muốn trở nên dễ dàng hơn.

Có một lĩnh vực nghiên cứu đáng chú ý và mạnh mẽ trong lĩnh vực thị giác máy tính dành để bảo vệ hình ảnh bản quyền khỏi được đào tạo vào các mô hình AI hoặc được sử dụng trong các quy trình AI hình ảnh trực tiếp. Các hệ thống này nói chung nhằm vào Mô hình khuếch tán tiềm ẩn (LDMs) như Stable Diffusion và Flux, những mô hình này sử dụng quy trình dựa trên nhiễu để mã hóa và giải mã hình ảnh.

Bằng cách chèn nhiễu đối lập vào hình ảnh nhìn bình thường, có thể gây ra việc phát hiện hình ảnh đoán nội dung hình ảnh không chính xác và làm hỏng hệ thống tạo hình ảnh từ việc khai thác dữ liệu bản quyền:

Từ bài báo ‘Raising the Cost of Malicious AI-Powered Image Editing’ của MIT, các ví dụ về hình ảnh nguồn được ‘miễn dịch’ khỏi thao túng (hàng dưới). Nguồn: https://arxiv.org/pdf/2302.06588

Kể từ khi phản ứng từ các nghệ sĩ đối với việc sử dụng hình ảnh web-scraped tự do của Stable Diffusion (bao gồm cả hình ảnh bản quyền) vào năm 2023, cảnh quan nghiên cứu đã tạo ra nhiều biến thể trên cùng một chủ đề – ý tưởng rằng hình ảnh có thể bị ‘độc’ vô hình chống lại việc được đào tạo vào các hệ thống AI hoặc bị hút vào đường ống AI tạo sinh, mà không ảnh hưởng tiêu cực đến chất lượng hình ảnh đối với người xem trung bình.

Trong tất cả các trường hợp, có mối tương quan trực tiếp giữa cường độ của sự xáo trộn áp đặt, mức độ mà hình ảnh sau đó được bảo vệ và mức độ mà hình ảnh không trông khá tốt như nó nên:

Mặc dù chất lượng của tệp PDF nghiên cứu không hoàn toàn minh họa vấn đề, nhưng lượng nhiễu đối lập lớn hơn sẽ hy sinh chất lượng để đổi lấy bảo mật. Ở đây, chúng ta thấy sự thay đổi chất lượng trong dự án ‘Fawkes’ năm 2020 do Đại học Chicago dẫn đầu. Nguồn: https://arxiv.org/pdf/2002.08327

Đặc biệt quan tâm đến các nghệ sĩ tìm cách bảo vệ phong cách của họ khỏi việc sử dụng không được ủy quyền là khả năng của các hệ thống không chỉ che giấu danh tính và các thông tin khác, mà còn ‘thuyết phục’ quá trình đào tạo AI rằng nó đang nhìn thấy điều gì khác với thực tế, để các kết nối không hình thành giữa các miền ngữ nghĩa và trực quan cho dữ liệu đào tạo ‘bảo vệ’ (tức là, một lệnh như ‘Theo phong cách của Paul Klee’).

Mist và Glaze là hai phương pháp tiêm phổ biến có khả năng ngăn chặn, hoặc ít nhất là làm hỏng nghiêm trọng các nỗ lực sử dụng phong cách bản quyền trong các công việc và quy trình đào tạo AI. Nguồn: https://arxiv.org/pdf/2506.04394

Bàn Thắng

Giờ đây, nghiên cứu mới từ Mỹ đã phát hiện ra không chỉ rằng các xáo trộn có thể thất bại trong việc bảo vệ hình ảnh, mà việc thêm xáo trộn thực sự có thể cải thiện khả năng khai thác hình ảnh trong tất cả các quy trình AI mà xáo trộn được thiết kế để miễn dịch.

Bài báo cho biết:

‘Trong các thí nghiệm của chúng tôi với các phương pháp bảo vệ hình ảnh dựa trên xáo trộn trên nhiều miền (hình ảnh cảnh tự nhiên và tác phẩm nghệ thuật) và nhiệm vụ chỉnh sửa (tạo hình ảnh từ hình ảnh và chỉnh sửa phong cách), chúng tôi phát hiện ra rằng sự bảo vệ này không đạt được mục tiêu hoàn toàn.

‘Trong hầu hết các kịch bản, việc chỉnh sửa dựa trên khuếch tán của hình ảnh được bảo vệ tạo ra hình ảnh đầu ra mong muốn mà tuân thủ chặt chẽ lệnh hướng dẫn.

‘Các phát hiện của chúng tôi cho thấy rằng việc thêm nhiễu vào hình ảnh có thể gây ra sự kết hợp tăng lên với các lệnh văn bản đã cho trong quá trình tạo, dẫn đến các hậu quả không mong muốn như chỉnh sửa tốt hơn .

‘Do đó, chúng tôi cho rằng các phương pháp dựa trên xáo trộn có thể không cung cấp giải pháp bảo vệ hình ảnh đủ mạnh chống lại việc chỉnh sửa dựa trên khuếch tán.’

Trong các thử nghiệm, hình ảnh được bảo vệ đã được đưa qua hai kịch bản chỉnh sửa AI quen thuộc: tạo hình ảnh từ hình ảnh và chuyển phong cách. Những quá trình này phản ánh các cách phổ biến mà mô hình AI có thể khai thác nội dung được bảo vệ, либо bằng cách thay đổi trực tiếp hình ảnh, hoặc bằng cách mượn các đặc điểm phong cách của nó để sử dụng ở nơi khác.

Hình ảnh được bảo vệ, được rút từ nguồn hình ảnh và tác phẩm nghệ thuật tiêu chuẩn, đã được chạy qua các đường ống này để xem liệu các xáo trộn thêm vào có thể chặn hoặc làm hỏng các chỉnh sửa hay không.

Thay vào đó, sự hiện diện của bảo vệ thường dường như làm sắc nét sự liên kết của mô hình với các lệnh, tạo ra đầu ra sạch và chính xác nơi một số thất bại đã được dự kiến.

Các tác giả khuyên, về cơ bản, rằng phương pháp bảo vệ phổ biến này có thể cung cấp một cảm giác an ninh sai lầm, và rằng bất kỳ phương pháp miễn dịch dựa trên xáo trộn nào nên được kiểm tra kỹ lưỡng chống lại các phương pháp của chính họ.

Phương Pháp

Các tác giả đã chạy các thí nghiệm sử dụng ba phương pháp bảo vệ áp dụng xáo trộn đối lập được thiết kế cẩn thận: PhotoGuard; Mist; và Glaze.

Glaze, một trong các khung được thử nghiệm bởi các tác giả. Ví dụ bảo vệ Glaze cho ba nghệ sĩ. Hai cột đầu tiên hiển thị tác phẩm nghệ thuật gốc. Cột thứ ba hiển thị kết quả bắt chước không có bảo vệ. Cột thứ tư hiển thị các phiên bản chuyển phong cách được sử dụng để tối ưu hóa áo choàng, cùng với tên phong cách đích. Cột thứ năm và thứ sáu hiển thị kết quả bắt chước với áo choàng được áp dụng ở mức xáo trộn p = 0,05 và p = 0,1. Tất cả kết quả sử dụng mô hình Stable Diffusion. https://arxiv.org/pdf/2302.04222

Glaze, một trong các khung được thử nghiệm bởi các tác giả, minh họa ví dụ bảo vệ Glaze cho ba nghệ sĩ. Hai cột đầu tiên hiển thị tác phẩm nghệ thuật gốc; cột thứ ba hiển thị kết quả bắt chước không có bảo vệ; cột thứ tư, các phiên bản chuyển phong cách được sử dụng để tối ưu hóa áo choàng, cùng với tên phong cách đích. Cột thứ năm và thứ sáu hiển thị kết quả bắt chước với áo choàng được áp dụng ở mức xáo trộn p = 0,05 và p = 0,1. Tất cả kết quả sử dụng mô hình Stable Diffusion. https://arxiv.org/pdf/2302.04222

PhotoGuard được áp dụng cho hình ảnh cảnh tự nhiên, trong khi Mist và Glaze được sử dụng trên tác phẩm nghệ thuật (tức là ‘miền phong cách nghệ thuật’).

Thử nghiệm bao gồm cả hình ảnh tự nhiên và nghệ thuật để phản ánh các ứng dụng thực tế có thể xảy ra. Hiệu quả của mỗi phương pháp được đánh giá bằng cách kiểm tra xem mô hình AI có thể tạo ra các chỉnh sửa thực tế và phù hợp với lệnh khi làm việc trên hình ảnh được bảo vệ hay không; nếu hình ảnh kết quả trông thuyết phục và phù hợp với lệnh, bảo vệ được coi là thất bại.

Stable Diffusion v1.5 đã được sử dụng làm trình tạo hình ảnh pre-trained cho các nhiệm vụ chỉnh sửa của các nhà nghiên cứu. Năm hạt giống đã được chọn để đảm bảo tính tái tạo: 9222, 999, 123, 66 và 42. Tất cả các cài đặt tạo khác, như thang dẫn, cường độ và tổng bước, đều theo các giá trị mặc định được sử dụng trong các thí nghiệm PhotoGuard.

PhotoGuard đã được thử nghiệm trên hình ảnh cảnh tự nhiên bằng cách sử dụng Bộ dữ liệu Flickr8k, chứa hơn 8.000 hình ảnh được ghép nối với tối đa năm chú thích mỗi hình ảnh.

Suy Nghĩ Đối Lập

Hai tập chú thích sửa đổi đã được tạo từ chú thích đầu tiên của mỗi hình ảnh với sự giúp đỡ của Claude Sonnet 3.5. Một tập chứa các lệnh gần gần gũi về ngữ cảnh với các chú thích gốc; tập khác chứa các lệnh xa gũi về ngữ cảnh.

Ví dụ, từ chú thích gốc ‘Một cô gái trẻ trong váy màu hồng đi vào một cabin gỗ’, một lệnh gần sẽ là ‘Một cậu bé trong áo sơ mi màu xanh đi vào một ngôi nhà gạch’. Ngược lại, một lệnh xa sẽ là ‘Hai con mèo nằm trên một chiếc ghế sofa’.

Lệnh gần được xây dựng bằng cách thay thế danh từ và tính từ bằng các thuật ngữ ngữ nghĩa tương tự; lệnh xa được tạo ra bằng cách hướng dẫn mô hình tạo ra các chú thích rất khác về ngữ cảnh.

Tất cả các chú thích được tạo ra đã được kiểm tra thủ công về chất lượng và liên quan ngữ nghĩa. Bộ mã hóa câu Universal Sentence Encoder của Google đã được sử dụng để tính toán điểm tương đồng ngữ nghĩa giữa chú thích gốc và sửa đổi:

Từ tài liệu phụ, phân phối điểm tương đồng ngữ nghĩa cho các chú thích sửa đổi được sử dụng trong các thử nghiệm Flickr8k. Biểu đồ bên trái hiển thị điểm tương đồng cho các chú thích sửa đổi gần, trung bình khoảng 0,6. Biểu đồ bên phải hiển thị các chú thích sửa đổi rộng rãi, trung bình khoảng 0,1, phản ánh khoảng cách ngữ nghĩa lớn hơn từ các chú thích gốc. Các giá trị được tính toán bằng Bộ mã hóa câu Universal Sentence Encoder của Google. Nguồn: https://sigport.org/sites/default/files/docs/IncompleteProtection_SM_0.pdf

Mỗi hình ảnh, cùng với phiên bản được bảo vệ, đã được chỉnh sửa bằng cả lệnh gần và lệnh xa. Đánh giá chất lượng hình ảnh không cần tham chiếu (BRISQUE) đã được sử dụng để đánh giá chất lượng hình ảnh:

Kết quả tạo hình ảnh từ hình ảnh trên các bức ảnh tự nhiên được bảo vệ bởi PhotoGuard. Mặc dù có sự hiện diện của xáo trộn, Stable Diffusion v1.5 đã thành công trong việc theo dõi cả các thay đổi ngữ nghĩa nhỏ và lớn trong các lệnh chỉnh sửa, tạo ra các đầu ra thực tế phù hợp với các lệnh mới.

Độ Đạc

Để đánh giá mức độ bảo vệ cản trở việc chỉnh sửa AI, các nhà nghiên cứu đo lường mức độ các hình ảnh cuối cùng phù hợp với lệnh, sử dụng các hệ thống điểm so sánh nội dung hình ảnh với lệnh văn bản để xem chúng phù hợp như thế nào.

Để làm điều này, CLIP-S sử dụng một mô hình có thể hiểu cả hình ảnh và văn bản để kiểm tra sự tương đồng giữa chúng, trong khi PAC-S++ thêm các mẫu được tạo bởi AI để so sánh của nó phù hợp hơn với ước tính của con người.

Những điểm tương đồng hình ảnh-văn bản (ITA) này biểu thị mức độ AI tuân theo lệnh khi sửa đổi hình ảnh được bảo vệ: nếu một hình ảnh được bảo vệ vẫn dẫn đến đầu ra được liên kết cao, thì bảo vệ được coi là thất bại trong việc chặn chỉnh sửa.

Ảnh hưởng của bảo vệ trên bộ dữ liệu Flickr8k trên năm hạt giống, sử dụng cả lệnh gần và lệnh xa. Sự liên kết hình ảnh-văn bản được đo bằng điểm CLIP-S và PAC-S++.

Các nhà nghiên cứu so sánh mức độ AI tuân theo lệnh khi chỉnh sửa hình ảnh được bảo vệ so với hình ảnh không được bảo vệ. Họ đầu tiên xem xét sự khác biệt giữa hai, được gọi là Thay Đổi Thực Tế. Sau đó, sự khác biệt được điều chỉnh để tạo ra một Thay Đổi Phần Trăm, làm cho nó dễ dàng hơn để so sánh kết quả trên nhiều thử nghiệm.

Quá trình này tiết lộ liệu bảo vệ có làm cho việc AI phù hợp với lệnh dễ dàng hơn hay không. Các thử nghiệm được lặp lại năm lần bằng cách sử dụng các hạt giống ngẫu nhiên khác nhau, bao gồm cả thay đổi nhỏ và lớn đối với các chú thích gốc.

Tấn Công Nghệ Thuật

Đối với các thử nghiệm trên hình ảnh tự nhiên, bộ dữ liệu Flickr1024 đã được sử dụng, chứa hơn một nghìn hình ảnh chất lượng cao. Mỗi hình ảnh đã được chỉnh sửa bằng các lệnh theo mẫu: ‘thay đổi phong cách thành [V]’, nơi [V] đại diện cho một trong bảy phong cách nghệ thuật nổi tiếng: Lập thể; Hậu ấn tượng; Ấn tượng; Siêu thực; Baroque; Fauvism; và Phục hưng.

Quá trình này bao gồm việc áp dụng PhotoGuard cho hình ảnh gốc, tạo ra các phiên bản được bảo vệ, và sau đó chạy cả hình ảnh được bảo vệ và không được bảo vệ qua cùng một tập hợp các chỉnh sửa chuyển phong cách:

Hình ảnh gốc và được bảo vệ của một hình ảnh cảnh tự nhiên, mỗi hình ảnh được chỉnh sửa để áp dụng phong cách Lập thể, Siêu thực và Fauvism.

Để thử nghiệm các phương pháp bảo vệ trên tác phẩm nghệ thuật, chuyển phong cách đã được thực hiện trên hình ảnh từ Bộ dữ liệu WikiArt, bộ dữ liệu này thu thập một loạt các phong cách nghệ thuật. Các lệnh chỉnh sửa theo cùng định dạng như trước, chỉ dẫn AI thay đổi phong cách thành một phong cách ngẫu nhiên, không liên quan được chọn từ các nhãn WikiArt.

Cả hai phương pháp bảo vệ Mist và Glaze đã được áp dụng cho hình ảnh trước khi chỉnh sửa, cho phép các nhà nghiên cứu quan sát mức độ mỗi biện pháp phòng thủ có thể chặn hoặc làm hỏng kết quả chuyển phong cách:

Ví dụ về cách các phương pháp bảo vệ ảnh hưởng đến chuyển phong cách trên tác phẩm nghệ thuật. Hình ảnh gốc Baroque được hiển thị cùng với các phiên bản được bảo vệ bởi Mist và Glaze. Sau khi áp dụng chuyển phong cách Lập thể, sự khác biệt trong cách mỗi bảo vệ thay đổi đầu ra cuối cùng có thể được nhìn thấy.

Các nhà nghiên cứu đã kiểm tra các so sánh một cách định lượng:

Thay đổi điểm tương đồng hình ảnh-văn bản sau khi chỉnh sửa chuyển phong cách.

Trong số những kết quả này, các tác giả nhận xét:

‘Kết quả này làm nổi bật một hạn chế đáng kể của xáo trộn đối lập để bảo vệ. Thay vì cản trở sự liên kết, xáo trộn đối lập thường tăng cường khả năng phản ứng của mô hình tạo sinh với lệnh, vô tình cho phép những kẻ khai thác tạo ra đầu ra phù hợp hơn với mục tiêu của họ. Loại bảo vệ này không gây rối loạn cho quá trình chỉnh sửa hình ảnh và có thể không thể ngăn chặn các tác nhân độc hại sao chép vật liệu không được ủy quyền.

‘Hậu quả không lường trước của việc sử dụng xáo trộn đối lập tiết lộ sự dễ bị tổn thương trong các phương pháp hiện có và nhấn mạnh nhu cầu cấp thiết đối với các kỹ thuật bảo vệ hiệu quả hơn.’

Các tác giả giải thích rằng kết quả không mong muốn này có thể được truy nguyên từ cách các mô hình khuếch tán hoạt động: LDM chỉnh sửa hình ảnh bằng cách đầu tiên chuyển chúng thành một phiên bản nén gọi là tiềm ẩn; nhiễu sau đó được thêm vào tiềm ẩn này qua nhiều bước, cho đến khi dữ liệu trở nên gần như ngẫu nhiên.

Mô hình đảo ngược quá trình này trong quá trình tạo, loại bỏ nhiễu từng bước. Tại mỗi giai đoạn của quá trình đảo ngược này, lệnh văn bản giúp hướng dẫn cách nhiễu nên được làm sạch, dần dần định hình hình ảnh để phù hợp với lệnh:

So sánh giữa các thế hệ từ hình ảnh không được bảo vệ và hình ảnh được bảo vệ bởi PhotoGuard, với các trạng thái tiềm ẩn trung gian được chuyển đổi trở lại thành hình ảnh để trực quan hóa.

Các phương pháp bảo vệ thêm một lượng nhỏ nhiễu extra vào hình ảnh gốc trước khi nó tham gia vào quá trình này. Mặc dù những xáo trộn này là nhỏ ở đầu, nhưng chúng tích lũy khi mô hình áp dụng các lớp nhiễu của riêng nó.

Sự tích lũy này để lại nhiều phần của hình ảnh ‘không chắc chắn’ khi mô hình bắt đầu loại bỏ nhiễu. Với sự không chắc chắn lớn hơn, mô hình dựa nhiều hơn vào lệnh văn bản để lấp đầy các chi tiết bị thiếu, cho lệnh có ảnh hưởng thậm chí còn lớn hơn so với bình thường.

Hiệu quả là, các biện pháp bảo vệ làm cho nó dễ dàng hơn cho AI để định hình lại hình ảnh để phù hợp với lệnh, thay vì khó hơn.

Cuối cùng, các tác giả đã tiến hành một thử nghiệm thay thế xáo trộn được tạo bằng cách sử dụng Raising the Cost of Malicious AI-Powered Image Editing paper cho nhiễu Gaussian thuần túy.

Kết quả theo cùng mô hình được quan sát trước đó: trên tất cả các thử nghiệm, các giá trị Thay Đổi Phần Trăm vẫn còn dương. Thậm chí nhiễu ngẫu nhiên, không có cấu trúc này dẫn đến sự liên kết mạnh hơn giữa các hình ảnh được tạo và lệnh.

Ảnh hưởng của bảo vệ mô phỏng bằng nhiễu Gaussian trên bộ dữ liệu Flickr8k.

Điều này hỗ trợ giải thích cơ bản rằng bất kỳ nhiễu nào được thêm vào, bất kể thiết kế của nó, tạo ra sự không chắc chắn lớn hơn cho mô hình trong quá trình tạo, cho phép lệnh văn bản thực hiện sự kiểm soát thậm chí còn lớn hơn đối với hình ảnh cuối cùng.

Kết Luận

Cảnh quan nghiên cứu đã đẩy xáo trộn đối lập vào vấn đề bản quyền LDM trong gần như toàn bộ thời gian tồn tại của LDM; nhưng không có giải pháp mạnh mẽ nào đã xuất hiện từ số lượng lớn các bài báo được xuất bản trên hướng này.

Hoặc các xáo trộn áp đặt làm giảm chất lượng hình ảnh quá mức, hoặc các mẫu chứng minh không đủ mạnh để chống lại các quá trình thao túng và biến đổi.

Tuy nhiên, đây là một giấc mơ khó bỏ, vì giải pháp thay thế dường như là các khuôn khổ giám sát và xuất xứ của bên thứ ba như C2PA do Adobe dẫn đầu, nhằm duy trì chuỗi giám sát hình ảnh từ cảm biến máy ảnh, nhưng không có kết nối nội tại với nội dung được mô tả.

Trong mọi trường hợp, nếu xáo trộn đối lập thực sự làm cho vấn đề trở nên tồi tệ hơn, như bài báo mới chỉ ra có thể đúng trong nhiều trường hợp, người ta tự hỏi liệu việc tìm kiếm bảo vệ bản quyền thông qua các phương tiện như vậy thuộc về ‘hóa học’.

Được xuất bản lần đầu vào Thứ Hai, ngày 9 tháng 6 năm 2025

Martin Anderson

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]