Trí tuệ nhân tạo

Loại bỏ dữ liệu có bản quyền từ LLM đã được đào tạo - Có khả thi không?

Được phát hành

4 tháng trước

23 Tháng một, 2024

Trong lĩnh vực trí tuệ nhân tạo (AI) và máy học (ML), các mô hình ngôn ngữ lớn (LLM) thể hiện cả thành tựu và thách thức. Được đào tạo trên các tập dữ liệu văn bản rộng lớn, mô hình LLM gói gọn ngôn ngữ và kiến thức của con người.

Tuy nhiên, khả năng tiếp thu và bắt chước sự hiểu biết của con người của họ đặt ra những thách thức về pháp lý, đạo đức và công nghệ. Hơn nữa, bộ dữ liệu khổng lồ cung cấp năng lượng cho LLM có thể chứa tài liệu độc hại, văn bản có bản quyền, thông tin không chính xác hoặc dữ liệu cá nhân.

Làm cho LLM quên dữ liệu đã chọn đã trở thành một vấn đề cấp bách để đảm bảo tuân thủ pháp luật và trách nhiệm đạo đức.

Hãy cùng khám phá khái niệm làm cho LLM loại bỏ dữ liệu có bản quyền để giải quyết một câu hỏi cơ bản: Liệu có thể thực hiện được không?

Tại sao việc học LLM lại cần thiết?

LLM thường chứa dữ liệu gây tranh cãi, bao gồm cả dữ liệu có bản quyền. Việc có dữ liệu như vậy trong LLM đặt ra những thách thức pháp lý liên quan đến thông tin cá nhân, thông tin sai lệch, dữ liệu bản quyền và các yếu tố sai lệch hoặc có hại.

Do đó, việc loại bỏ là điều cần thiết để đảm bảo rằng LLM tuân thủ các quy định về quyền riêng tư và tuân thủ quyền tác giả pháp luật, thúc đẩy LLM có trách nhiệm và đạo đức.

Tuy nhiên, việc trích xuất nội dung có bản quyền từ lượng kiến thức rộng lớn mà các mô hình này thu được là một thách thức. Dưới đây là một số kỹ thuật quên đi có thể giúp giải quyết vấn đề này:

Lọc dữ liệu: Nó liên quan đến việc xác định và loại bỏ một cách có hệ thống các yếu tố có bản quyền, dữ liệu nhiễu hoặc sai lệch khỏi dữ liệu huấn luyện của mô hình. Tuy nhiên, việc lọc có thể dẫn đến khả năng mất thông tin có giá trị không có bản quyền trong quá trình lọc.
Phương pháp chuyển màu: Các phương pháp này điều chỉnh các tham số của mô hình dựa trên độ dốc của hàm mất mát, giải quyết vấn đề dữ liệu có bản quyền trong các mô hình ML. Tuy nhiên, các điều chỉnh có thể ảnh hưởng xấu đến hiệu suất tổng thể của mô hình trên dữ liệu không có bản quyền.
Việc học hỏi trong ngữ cảnh: Kỹ thuật này loại bỏ một cách hiệu quả tác động của các điểm đào tạo cụ thể lên mô hình bằng cách cập nhật các tham số của nó mà không ảnh hưởng đến kiến thức không liên quan. Tuy nhiên, phương pháp này gặp phải những hạn chế trong việc đạt được độ chính xác unlearning, đặc biệt là với các mô hình lớn và hiệu quả của nó cần được đánh giá thêm.

Những kỹ thuật này tốn nhiều tài nguyên và thời gian, khiến chúng khó thực hiện.

Nghiên cứu điển hình

Để hiểu tầm quan trọng của việc loại bỏ LLM, những trường hợp thực tế này nêu bật cách các công ty đang phải đương đầu với những thách thức pháp lý liên quan đến mô hình ngôn ngữ lớn (LLM) và dữ liệu có bản quyền.

Vụ kiện OpenAI: OpenAI, một công ty AI nổi tiếng, đã bị tấn công bởi nhiều kiện qua dữ liệu đào tạo của LLM. Những hành động pháp lý này đặt câu hỏi về việc sử dụng tài liệu có bản quyền trong đào tạo LLM. Ngoài ra, họ đã đưa ra các yêu cầu về cơ chế mà các mô hình sử dụng để đảm bảo quyền cho từng tác phẩm có bản quyền được tích hợp vào quy trình đào tạo của họ.

Vụ kiện của Sarah Silverman: Sản phẩm Vụ án Sarah Silverman liên quan đến cáo buộc rằng mô hình ChatGPT đã tạo ra bản tóm tắt sách của cô ấy mà không được phép. Hành động pháp lý này nhấn mạnh các vấn đề quan trọng liên quan đến tương lai của AI và dữ liệu có bản quyền.

Việc cập nhật khung pháp lý để phù hợp với tiến bộ công nghệ đảm bảo việc sử dụng các mô hình AI một cách có trách nhiệm và hợp pháp. Hơn nữa, cộng đồng nghiên cứu phải giải quyết những thách thức này một cách toàn diện để làm cho LLM trở nên có đạo đức và công bằng.

Kỹ thuật học LLM truyền thống

Việc loại bỏ LLM giống như tách các thành phần cụ thể khỏi một công thức phức tạp, đảm bảo rằng chỉ những thành phần mong muốn mới góp phần tạo nên món ăn cuối cùng. Truyền thống LLM bỏ học các kỹ thuật, như tinh chỉnh dữ liệu được quản lý và đào tạo lại, thiếu các cơ chế đơn giản để xóa dữ liệu có bản quyền.

Cách tiếp cận rộng rãi của họ thường tỏ ra không hiệu quả và tốn nhiều tài nguyên cho nhiệm vụ phức tạp là loại bỏ việc học có chọn lọc vì họ yêu cầu đào tạo lại rộng rãi.

Mặc dù các phương pháp truyền thống này có thể điều chỉnh các tham số của mô hình nhưng chúng gặp khó khăn trong việc nhắm mục tiêu chính xác vào nội dung có bản quyền, có nguy cơ mất dữ liệu ngoài ý muốn và tuân thủ dưới mức tối ưu.

Do đó, những hạn chế của các kỹ thuật truyền thống và các giải pháp mạnh mẽ đòi hỏi phải thử nghiệm các kỹ thuật loại bỏ thay thế.

Kỹ thuật mới: Loại bỏ một tập hợp con dữ liệu đào tạo

Sản phẩm tài liệu nghiên cứu của Microsoft giới thiệu một kỹ thuật đột phá để loại bỏ dữ liệu có bản quyền trong LLM. Tập trung vào ví dụ về mô hình Llama2-7b và sách Harry Potter, phương pháp này bao gồm ba thành phần cốt lõi để khiến LLM quên đi thế giới của Harry Potter. Những thành phần này bao gồm:

Nhận dạng mô hình tăng cường: Việc tạo ra một mô hình được củng cố bao gồm việc tinh chỉnh dữ liệu mục tiêu (ví dụ: Harry Potter) để củng cố kiến thức về nội dung chưa được học.
Thay thế các biểu thức mang phong cách riêng: Các biểu thức Harry Potter độc đáo trong dữ liệu mục tiêu được thay thế bằng các biểu thức chung chung, tạo điều kiện cho sự hiểu biết tổng quát hơn.
Tinh chỉnh các dự đoán thay thế: Mô hình cơ sở được tinh chỉnh dựa trên những dự đoán thay thế này. Về cơ bản, nó xóa văn bản gốc khỏi bộ nhớ một cách hiệu quả khi gặp ngữ cảnh liên quan.

Mặc dù kỹ thuật của Microsoft đang ở giai đoạn đầu và có thể có những hạn chế, nhưng nó thể hiện sự tiến bộ đầy hứa hẹn hướng tới các LLM mạnh mẽ hơn, có đạo đức hơn và có khả năng thích ứng cao hơn.

Kết quả của kỹ thuật mới lạ

Phương pháp đổi mới để làm cho LLM quên đi dữ liệu có bản quyền được trình bày trong tài liệu nghiên cứu của Microsoft là một bước hướng tới các mô hình có trách nhiệm và đạo đức.

Kỹ thuật mới này liên quan đến việc xóa nội dung liên quan đến Harry Potter khỏi mô hình Llama2-7b của Meta, được biết là đã được đào tạo về tập dữ liệu “books3” chứa các tác phẩm có bản quyền. Đáng chú ý, những phản hồi ban đầu của mô hình đã thể hiện sự hiểu biết phức tạp về vũ trụ của JK Rowling, ngay cả với những gợi ý chung chung.

Tuy vậy, Của Microsoft kỹ thuật đề xuất đã thay đổi đáng kể các phản ứng của nó. Dưới đây là ví dụ về lời nhắc thể hiện sự khác biệt đáng chú ý giữa mẫu Llama2-7b ban đầu và phiên bản đã tinh chỉnh.

nguồn hình ảnh

Bảng này minh họa rằng các mô hình loại bỏ được tinh chỉnh duy trì hiệu suất của chúng qua các điểm chuẩn khác nhau (chẳng hạn như Hellaswag, Winogrande, piqa, boolq và arc).

nguồn hình ảnh

Phương pháp đánh giá, dựa trên gợi ý của mô hình và phân tích phản hồi tiếp theo, tỏ ra hiệu quả nhưng có thể bỏ qua các phương pháp trích xuất thông tin đối nghịch, phức tạp hơn.

Mặc dù kỹ thuật này đầy hứa hẹn nhưng vẫn cần nghiên cứu sâu hơn để sàng lọc và mở rộng, đặc biệt là trong việc giải quyết các nhiệm vụ quên kiến thức rộng hơn trong LLM.

Những thách thức về kỹ thuật học tập mới lạ

Trong khi kỹ thuật quên đi của Microsoft tỏ ra đầy hứa hẹn, vẫn tồn tại một số thách thức và hạn chế về bản quyền AI.

Những hạn chế chính và các lĩnh vực cần nâng cao bao gồm:

Rò rỉ thông tin bản quyền: Phương pháp này có thể không giảm thiểu hoàn toàn rủi ro Thông tin bản quyền bị rò rỉ, vì mô hình có thể giữ lại một số thông tin về nội dung mục tiêu trong quá trình tinh chỉnh.
Đánh giá các bộ dữ liệu khác nhau: Để đánh giá tính hiệu quả, kỹ thuật này phải trải qua quá trình đánh giá bổ sung trên nhiều bộ dữ liệu khác nhau, vì thử nghiệm ban đầu chỉ tập trung vào sách Harry Potter.
Khả năng mở rộng: Việc thử nghiệm trên các bộ dữ liệu lớn hơn và các mô hình ngôn ngữ phức tạp hơn là bắt buộc để đánh giá khả năng ứng dụng và khả năng thích ứng của kỹ thuật trong các tình huống thực tế.

Sự gia tăng các vụ kiện pháp lý liên quan đến AI, đặc biệt là các vụ kiện bản quyền nhắm vào LLM, nhấn mạnh sự cần thiết phải có hướng dẫn rõ ràng. Những phát triển đầy hứa hẹn, như phương pháp quên học tập do Microsoft đề xuất, mở đường cho AI có đạo đức, hợp pháp và có trách nhiệm.

Đừng bỏ lỡ những tin tức và phân tích mới nhất về AI và ML – hãy truy cập đoàn kết.ai hôm nay.