Connect with us

Trí tuệ nhân tạo

Trích Xuất Dữ Liệu Huấn Luyện Từ Các Mô Hình Stable Diffusion Đã Được Tinh Chỉnh

mm
Examples of training images (below), extracted from a trained model (above). Source: https://arxiv.org/pdf/2410.03039

Nghiên cứu mới từ Hoa Kỳ trình bày một phương pháp để trích xuất phần lớn dữ liệu huấn luyện từ các mô hình đã được tinh chỉnh.

Điều này có khả năng cung cấp bằng chứng pháp lý trong các trường hợp phong cách của một nghệ sĩ bị sao chép, hoặc khi các hình ảnh có bản quyền đã được sử dụng để huấn luyện các mô hình sinh tạo về nhân vật nổi tiếng, nhân vật được bảo vệ bởi sở hữu trí tuệ, hoặc các nội dung khác.

Từ bài báo mới: các hình ảnh huấn luyện gốc được thấy ở hàng trên, và các hình ảnh được trích xuất được mô tả ở hàng dưới. Nguồn: https://arxiv.org/pdf/2410.03039

Từ bài báo mới: các hình ảnh huấn luyện gốc được thấy ở hàng trên, và các hình ảnh được trích xuất được mô tả ở hàng dưới. Nguồn: https://arxiv.org/pdf/2410.03039

Các mô hình như vậy có sẵn rộng rãi và miễn phí trên internet, chủ yếu thông qua kho lưu trữ khổng lồ do người dùng đóng góp của civit.ai, và ở mức độ thấp hơn, trên nền tảng kho lưu trữ Hugging Face.

Mô hình mới được các nhà nghiên cứu phát triển có tên là FineXtract, và các tác giả cho rằng nó đạt được kết quả tiên tiến nhất trong nhiệm vụ này.

Bài báo nhận xét:

‘[Khung làm việc của chúng tôi] giải quyết hiệu quả thách thức trích xuất dữ liệu tinh chỉnh từ các checkpoint DM đã tinh chỉnh có sẵn công khai. Bằng cách tận dụng sự chuyển đổi từ phân phối DM tiền huấn luyện sang phân phối dữ liệu tinh chỉnh, FineXtract hướng dẫn chính xác quá trình tạo sinh về phía các vùng có xác suất cao của phân phối dữ liệu đã tinh chỉnh, cho phép trích xuất dữ liệu thành công.’

Ở cột ngoài cùng bên phải, hình ảnh gốc được sử dụng trong huấn luyện. Cột thứ hai từ phải sang, hình ảnh được trích xuất qua FineXtract. Các cột khác đại diện cho các phương pháp thay thế, trước đây.

Ở cột ngoài cùng bên phải, hình ảnh gốc được sử dụng trong huấn luyện. Cột thứ hai từ phải sang, hình ảnh được trích xuất qua FineXtract. Các cột khác đại diện cho các phương pháp thay thế, trước đây. Vui lòng tham khảo bài báo nguồn để có độ phân giải tốt hơn.

Tại Sao Điều Này Quan Trọng

Các mô hình huấn luyện gốc cho các hệ thống sinh tạo văn bản thành hình ảnh như Stable DiffusionFlux có thể được tải xuống và tinh chỉnh bởi người dùng cuối, sử dụng các kỹ thuật như triển khai DreamBooth năm 2022.

Thậm chí dễ dàng hơn, người dùng có thể tạo một mô hình LoRA nhỏ hơn nhiều mà hiệu quả gần như một mô hình được tinh chỉnh đầy đủ.

Một ví dụ về LORA đã được huấn luyện, được cung cấp để tải xuống miễn phí tại trang web Civitai cực kỳ phổ biến. Một mô hình như vậy có thể được tạo ra trong vòng vài phút đến vài giờ, bởi những người đam mê sử dụng phần mềm mã nguồn mở cài đặt cục bộ – và trực tuyến, thông qua một số hệ thống huấn luyện dựa trên API dễ dãi hơn. Nguồn: civitai.com

Một ví dụ về LORA đã được huấn luyện, được cung cấp để tải xuống miễn phí tại miền civitai cực kỳ phổ biến. Một mô hình như vậy có thể được tạo ra trong vòng vài phút đến vài giờ, bởi những người đam mê sử dụng phần mềm mã nguồn mở cài đặt cục bộ – và trực tuyến, thông qua một số hệ thống huấn luyện dựa trên API dễ dãi hơn. Nguồn: civitai.com

Kể từ năm 2022, việc tạo các checkpoint tinh chỉnh và LoRA cụ thể cho danh tính đã trở nên tầm thường, chỉ bằng cách cung cấp một số lượng nhỏ (trung bình 5-50) hình ảnh có chú thích, và huấn luyện checkpoint (hoặc LoRA) cục bộ, trên một framework mã nguồn mở như Kohya ss, hoặc sử dụng các dịch vụ trực tuyến.

Phương pháp tạo deepfake dễ dàng này đã đạt được tiếng xấu trên truyền thông trong vài năm qua. Nhiều nghệ sĩ cũng đã có tác phẩm của họ được đưa vào các mô hình sinh tạo sao chép phong cách của họ. Cuộc tranh cãi xung quanh những vấn đề này đã tăng cường sức mạnh trong 18 tháng qua.

Sự dễ dàng mà người dùng có thể tạo ra các hệ thống AI sao chép tác phẩm của các nghệ sĩ thực đã gây ra sự phẫn nộ và nhiều chiến dịch khác nhau trong hai năm qua. Nguồn: https://www.technologyreview.com/2022/09/16/1059598/this-artist-is-dominating-ai-generated-art-and-hes-not-happy-about-it/

Sự dễ dàng mà người dùng có thể tạo ra các hệ thống AI sao chép tác phẩm của các nghệ sĩ thực đã gây ra sự phẫn nộ và nhiều chiến dịch khác nhau trong hai năm qua. Nguồn: https://www.technologyreview.com/2022/09/16/1059598/this-artist-is-dominating-ai-generated-art-and-hes-not-happy-about-it/

Rất khó để chứng minh những hình ảnh nào đã được sử dụng trong một checkpoint đã tinh chỉnh hoặc trong một LoRA, vì quá trình khái quát hóa ‘trừu tượng hóa’ danh tính từ các tập dữ liệu huấn luyện nhỏ, và không có khả năng tái tạo các ví dụ từ dữ liệu huấn luyện (ngoại trừ trường hợp overfitting, nơi người ta có thể coi việc huấn luyện đã thất bại).

Đây là lúc FineXtract xuất hiện. Bằng cách so sánh trạng thái của mô hình khuếch tán ‘mẫu’ mà người dùng đã tải xuống với mô hình mà họ sau đó tạo ra thông qua tinh chỉnh hoặc thông qua LoRA, các nhà nghiên cứu đã có thể tạo ra các bản tái tạo dữ liệu huấn luyện có độ chính xác cao.

Mặc dù FineXtract chỉ có thể tái tạo 20% dữ liệu từ một lần tinh chỉnh*, nhưng điều này nhiều hơn mức thường cần thiết để cung cấp bằng chứng rằng người dùng đã sử dụng tài liệu có bản quyền hoặc được bảo vệ hoặc bị cấm khác trong việc tạo ra một mô hình sinh tạo. Trong hầu hết các ví dụ được cung cấp, hình ảnh được trích xuất cực kỳ gần với tài liệu nguồn đã biết.

Mặc dù cần có chú thích để trích xuất hình ảnh nguồn, đây không phải là rào cản đáng kể vì hai lý do: a) người tải lên thường muốn tạo điều kiện cho việc sử dụng mô hình trong cộng đồng và thường sẽ cung cấp các ví dụ prompt phù hợp; và b) các nhà nghiên cứu nhận thấy rằng việc trích xuất các từ khóa then chốt một cách mù quáng từ mô hình đã tinh chỉnh không quá khó:

Các từ khóa thiết yếu thường có thể được trích xuất một cách mù quáng từ mô hình đã tinh chỉnh bằng cách sử dụng một cuộc tấn công L2-PGD qua 1000 lần lặp, từ một prompt ngẫu nhiên.

Các từ khóa thiết yếu thường có thể được trích xuất một cách mù quáng từ mô hình đã tinh chỉnh bằng cách sử dụng một cuộc tấn công L2-PGD qua 1000 lần lặp, từ một prompt ngẫu nhiên.

Người dùng thường tránh công khai tập dữ liệu huấn luyện của họ cùng với mô hình đã huấn luyện kiểu ‘hộp đen’. Đối với nghiên cứu, các tác giả đã hợp tác với những người đam mê học máy, những người thực sự đã cung cấp tập dữ liệu.

Bài báo mới có tiêu đề Revealing the Unseen: Guiding Personalized Diffusion Models to Expose Training Data, và đến từ ba nhà nghiên cứu tại các trường đại học Carnegie Mellon và Purdue.

Phương Pháp

‘Kẻ tấn công’ (trong trường hợp này là hệ thống FineXtract) so sánh các phân phối dữ liệu ước tính trên mô hình gốc và mô hình đã tinh chỉnh, trong một quá trình mà các tác giả gọi là ‘hướng dẫn mô hình’.

Thông qua 'hướng dẫn mô hình', được phát triển bởi các nhà nghiên cứu của bài báo mới, các đặc điểm tinh chỉnh có thể được ánh xạ, cho phép trích xuất dữ liệu huấn luyện.

Thông qua ‘hướng dẫn mô hình’, được phát triển bởi các nhà nghiên cứu của bài báo mới, các đặc điểm tinh chỉnh có thể được ánh xạ, cho phép trích xuất dữ liệu huấn luyện.

Các tác giả giải thích:

‘Trong quá trình tinh chỉnh, các [mô hình khuếch tán] dần chuyển dịch phân phối đã học từ [phân phối] của các DM tiền huấn luyện về phía [phân phối] dữ liệu tinh chỉnh.

‘Do đó, chúng tôi xấp xỉ một cách tham số [phân phối] đã học của các [mô hình khuếch tán] đã tinh chỉnh.’

Bằng cách này, tổng sự khác biệt giữa mô hình lõi và mô hình đã tinh chỉnh cung cấp quá trình hướng dẫn.

Các tác giả nhận xét thêm:

‘Với hướng dẫn mô hình, chúng tôi có thể mô phỏng hiệu quả một [bộ khử nhiễu] “giả”, có thể được sử dụng để điều hướng quá trình lấy mẫu về phía vùng có xác suất cao trong phân phối dữ liệu đã tinh chỉnh.’

Việc hướng dẫn một phần dựa vào một quá trình thêm nhiễu thay đổi theo thời gian tương tự như <a href="https://openaccess.thecvf.com/content/ICCV2023/papers/Gandikota

Nhà văn về học máy, chuyên gia trong lĩnh vực tổng hợp hình ảnh con người. Nguyên trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]