Connect with us

Góc nhìn Anderson

Việc kiểm duyệt các mô hình AI không hoạt động tốt, nghiên cứu tiết lộ

mm
ChatGPT-4o, Krita (Flux/Flux Koncept Dev), Firefly.

Những nỗ lực nhằm kiểm duyệt các trình tạo ảnh AI bằng cách xóa nội dung bị cấm (như khiêu dâm, bạo lực hoặc phong cách bản quyền) từ các mô hình đã được đào tạo đang thất bại: một nghiên cứu mới cho thấy rằng các phương pháp xóa khái niệm hiện tại cho phép các thuộc tính “bị cấm” tràn vào các hình ảnh không liên quan và cũng không thể ngăn chặn các phiên bản liên quan chặt chẽ của nội dung “đã xóa” khỏi việc xuất hiện.

 

Nếu các công ty sản xuất mô hình AI cơ bản không thể ngăn chặn chúng khỏi việc bị lạm dụng để tạo ra tài liệu phản cảm hoặc bất hợp pháp, họ có nguy cơ bị truy tố và / hoặc bị đóng cửa. Ngược lại, các nhà cung cấp chỉ làm cho các mô hình của họ có sẵn thông qua API, như với động cơ tạo sinh Firefly của Adobe, đang ở vị trí không cần lo lắng về những gì mô hình của họ có thể tạo ra, vì cả lời nhắc của người dùng và đầu ra kết quả đều được kiểm tra và làm sạch:

Hệ thống Firefly của Adobe, được sử dụng trong các công cụ như Photoshop, đôi khi từ chối một yêu cầu tạo sinh ngay lập tức bằng cách chặn lời nhắc trước khi bất kỳ thứ gì được tạo. Những lần khác, nó tạo ra hình ảnh nhưng sau đó chặn kết quả sau khi xem xét. Loại từ chối trong quá trình này cũng có thể xảy ra trong ChatGPT, khi mô hình bắt đầu một phản hồi nhưng cắt nó sau khi nhận ra vi phạm chính sách.

Hệ thống Firefly của Adobe, được sử dụng trong các công cụ như Photoshop, đôi khi từ chối một yêu cầu tạo sinh ngay lập tức bằng cách chặn lời nhắc trước khi bất kỳ thứ gì được tạo. Những lần khác, nó tạo ra hình ảnh nhưng sau đó chặn kết quả sau khi xem xét. Loại từ chối trong quá trình này cũng có thể xảy ra trong ChatGPT, khi mô hình bắt đầu một phản hồi nhưng cắt nó sau khi nhận ra vi phạm chính sách – và thỉnh thoảng một người có thể nhìn thấy hình ảnh bị hủy bỏ trong quá trình này.

Tuy nhiên, các bộ lọc kiểu API như này thường có thể bị trung hòa bởi người dùng trên các mô hình được cài đặt cục bộ, bao gồm cả mô hình ngôn ngữ tầm nhìn (VLMs) mà người dùng có thể muốn tùy chỉnh thông qua đào tạo cục bộ trên dữ liệu tùy chỉnh.

Trong hầu hết các trường hợp, việc vô hiệu hóa các hoạt động như vậy là rất đơn giản, liên quan đến việc bình luận một cuộc gọi hàm trong Python (mặc dù các bản hack như này thường phải được lặp lại hoặc tái phát minh sau khi cập nhật khung).

Từ góc độ kinh doanh, rất khó để hiểu làm thế nào điều này có thể là một vấn đề, vì cách tiếp cận API tối đa hóa quyền kiểm soát của công ty đối với luồng công việc của người dùng. Tuy nhiên, từ góc độ của người dùng, cả chi phí của các mô hình chỉ API và rủi ro kiểm duyệt sai hoặc quá mức có khả năng buộc họ tải xuống và tùy chỉnh các bản cài đặt cục bộ của các giải pháp mã nguồn mở – ít nhất, nơi giấy phép FOSS thuận lợi.

Mô hình quan trọng cuối cùng được phát hành mà không có bất kỳ nỗ lực nào để cấy ghép tự kiểm duyệt là Stable Diffusion V1.5, gần ba năm trước. Sau đó, việc tiết lộ rằng các tập dữ liệu đào tạo của nó bao gồm dữ liệu lạm dụng trẻ em dẫn đến những lời kêu gọi ngày càng tăng để cấm việc cung cấp của nó và loại bỏ khỏi kho lưu trữ Hugging Face vào năm 2024.

Cắt nó ra!

Những người hoài nghi cho rằng lợi ích của một công ty trong việc kiểm duyệt các mô hình AI tạo sinh cục bộ chỉ dựa trên mối quan tâm về tiếp xúc pháp lý, nếu các khung của họ trở nên nổi tiếng vì tạo điều kiện cho nội dung bất hợp pháp hoặc phản cảm.

Thật vậy, một số mô hình “thân thiện với địa phương” mã nguồn mở không quá khó để giải kiểm duyệt (như Stable Diffusion 1.5DeepSeek R1).

Ngược lại, việc phát hành gần đây của Black Forest Lab’s Flux Kontext model series đã được đánh dấu bởi cam kết đáng chú ý của công ty trong việc làm cho toàn bộ dòng Kontext trở nên sạch sẽ. Điều này đã được thực hiện cả bằng cách cẩn thận kiểm duyệt dữ liệu và bằng cách tinh chỉnh có mục tiêu sau khi đào tạo, nhằm loại bỏ bất kỳ xu hướng nào còn lại để tạo ra nội dung NSFW hoặc bị cấm.

Đây là nơi mà trọng tâm của hành động đã được trong cảnh nghiên cứu trong 2-3 năm qua: với sự nhấn mạnh vào việc sửa chữa sau khi đào tạo các mô hình có dữ liệu chưa được kiểm duyệt. Các dịch vụ của loại này bao gồm Unified Concept Editing in Diffusion Models (UCE); Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models (RECE); Mass Concept Erasure in Diffusion Models (MACE); và concept-Semi-Permeable structure is injected as a Membrane (SPM):

Bài báo năm 2024 'Unified Concept Editing in Diffusion Models' cung cấp các chỉnh sửa dạng đóng để trọng số chú ý, cho phép chỉnh sửa hiệu quả nhiều khái niệm trong các mô hình hình ảnh đến văn bản. Nhưng phương pháp này có đứng lên được trước sự kiểm tra?

Bài báo năm 2024 ‘Unified Concept Editing in Diffusion Models’ cung cấp các chỉnh sửa dạng đóng để trọng số chú ý, cho phép chỉnh sửa hiệu quả nhiều khái niệm trong các mô hình hình ảnh đến văn bản. Nhưng phương pháp này có đứng lên được trước sự kiểm tra? Nguồn: https://arxiv.org/pdf/2308.14761

Mặc dù đây là một cách tiếp cận hiệu quả (các bộ sưu tập siêu lớn như LAION quá lớn để kiểm duyệt thủ công), nhưng nó không nhất thiết là một cách tiếp cận hiệu quả: theo một nghiên cứu mới của Mỹ, không có phương pháp chỉnh sửa nào trong số những phương pháp được đề cập – những phương pháp này đại diện cho trạng thái hiện tại của việc sửa đổi mô hình AI sau đào tạo – thực sự hoạt động rất tốt.

Các tác giả đã tìm thấy rằng những Kỹ thuật Xóa Khái niệm (CETs) này thường có thể được tránh dễ dàng, và ngay cả khi chúng hiệu quả, chúng có những tác dụng phụ đáng kể:

Hiệu ứng của việc xóa khái niệm trên các mô hình hình ảnh đến văn bản. Mỗi cột hiển thị một lời nhắc và khái niệm được đánh dấu để xóa, cùng với đầu ra được tạo trước và sau khi chỉnh sửa. Các hệ thống phân cấp chỉ ra mối quan hệ cha-con giữa các khái niệm. Các ví dụ này突出 các tác dụng phụ chung, bao gồm việc không thể xóa các khái niệm con, việc ức chế các khái niệm lân cận, việc tránh qua việc viết lại và việc chuyển các thuộc tính đã xóa sang các đối tượng không liên quan.

Hiệu ứng của việc xóa khái niệm trên các mô hình hình ảnh đến văn bản. Mỗi cột hiển thị một lời nhắc và khái niệm được đánh dấu để xóa, cùng với đầu ra được tạo trước và sau khi chỉnh sửa. Các hệ thống phân cấp chỉ ra mối quan hệ cha-con giữa các khái niệm. Các ví dụ này突出 các tác dụng phụ chung, bao gồm việc không thể xóa các khái niệm con, việc ức chế các khái niệm lân cận, việc tránh qua việc viết lại và việc chuyển các thuộc tính đã xóa sang các đối tượng không liên quan. Nguồn: https://arxiv.org/pdf/2508.15124

Các tác giả đã tìm thấy rằng các phương pháp xóa khái niệm hàng đầu hiện tại không thể chặn lời nhắc tổng hợp (ví dụ, xe hơi đỏ hoặc ghế gỗ nhỏ); thường để các phân lớp trượt qua ngay cả sau khi xóa một loại cha (như xe hơi hoặc xe buýt tiếp tục xuất hiện sau khi xóa phương tiện); và giới thiệu các vấn đề mới như sự rò rỉ thuộc tính (trong đó, ví dụ, việc xóa ghế sofa xanh có thể khiến mô hình tạo ra các đối tượng không liên quan như ghế xanh).

Trong hơn 80% số trường hợp thử nghiệm, việc xóa một khái niệm rộng như phương tiện không ngăn chặn mô hình tạo ra các thể hiện cụ thể hơn của phương tiện như xe hơi hoặc xe buýt.

Việc chỉnh sửa, bài báo quan sát, cũng khiến bản đồ chú ý (các phần của mô hình quyết định nơi tập trung vào hình ảnh) bị phân tán, làm suy yếu chất lượng đầu ra.

Đáng chú ý, bài báo cho thấy rằng việc xóa các khái niệm đã được đào tạo một cách tuần tự hoạt động tốt hơn so với việc cố gắng xóa chúng tất cả cùng một lúc – mặc dù nó không loại bỏ tất cả các khiếm khuyết của các phương pháp chỉnh sửa được nghiên cứu:

So sánh các chiến lược xóa tiến bộ và tất cả cùng một lúc. Khi tất cả các biến thể của 'gấu bông' được xóa đồng thời, mô hình tiếp tục tạo ra các đối tượng giống gấu. Việc xóa các biến thể từng bước một là hiệu quả hơn, dẫn đến mô hình ức chế khái niệm mục tiêu một cách đáng tin cậy hơn.

So sánh các chiến lược xóa tiến bộ và tất cả cùng một lúc. Khi tất cả các biến thể của ‘gấu bông’ được xóa đồng thời, mô hình tiếp tục tạo ra các đối tượng giống gấu. Việc xóa các biến thể từng bước một là hiệu quả hơn, dẫn đến mô hình ức chế khái niệm mục tiêu một cách đáng tin cậy hơn.

Mặc dù các nhà nghiên cứu hiện tại không thể cung cấp giải pháp cho các vấn đề mà bài báo nêu ra, họ đã phát triển một bộ dữ liệu mới và điểm chuẩn có thể giúp các dự án nghiên cứu sau này hiểu liệu các mô hình “kiểm duyệt” của họ có hoạt động như mong đợi hay không.

Bài báo tuyên bố:

‘Các đánh giá trước đây chỉ dựa trên một tập hợp nhỏ các lớp mục tiêu và lớp bảo tồn; ví dụ, khi xóa ‘xe hơi’, chỉ khả năng tạo ra xe hơi của mô hình được kiểm tra. Chúng tôi chứng minh rằng cách tiếp cận này là cơ bản không đầy đủ và việc đánh giá xóa khái niệm nên được toàn diện hơn để bao gồm tất cả các khái niệm con liên quan như ‘xe hơi đỏ’.

‘Bằng cách giới thiệu một bộ dữ liệu đa dạng với các biến thể tổng hợp và phân tích hệ thống các hiệu ứng như tác động đến các khái niệm lân cận, tránh khái niệm và rò rỉ thuộc tính, chúng tôi tiết lộ các hạn chế và tác dụng phụ đáng kể của các CET hiện có.

‘Điểm chuẩn của chúng tôi là không phụ thuộc vào mô hình và dễ dàng tích hợp và lý tưởng để hỗ trợ sự phát triển của các Kỹ thuật Xóa Khái niệm (CETs) mới.’

Mặc dù CETs xóa khái niệm mục tiêu 'chim', chúng thất bại trên biến thể tổng hợp 'chim đỏ' (trên cùng). Sau khi xóa 'ghế sofa xanh', tất cả các phương pháp cũng mất khả năng tạo ra một chiếc ghế xanh (dưới cùng). Các kết quả thành công được đánh dấu bằng biểu tượng tick xanh, và thất bại với biểu tượng chữ thập đỏ.

Mặc dù CETs xóa khái niệm mục tiêu ‘chim’, chúng thất bại trên biến thể tổng hợp ‘chim đỏ’ (trên cùng). Sau khi xóa ‘ghế sofa xanh’, tất cả các phương pháp cũng mất khả năng tạo ra một chiếc ghế xanh (dưới cùng). Các kết quả thành công được đánh dấu bằng biểu tượng tick xanh, và thất bại với biểu tượng chữ thập đỏ.

Nghiên cứu cung cấp một cái nhìn sâu sắc thú vị về mức độ liên kết của các khái niệm được đào tạo vào không gian tiềm ẩn của mô hình, và mức độ mà sự liên kết sẽ không dễ dàng cho phép bất kỳ loại xóa khái niệm rời rạc và thực sự nào.

Bài báo mới có tiêu đề Side Effects of Erasing Concepts from Diffusion Models, và đến từ bốn nhà nghiên cứu từ Đại học Maryland.

Phương pháp và Dữ liệu

Các tác giả cho rằng các công việc trước đây tuyên bố xóa khái niệm từ các mô hình khuếch tán không chứng minh tuyên bố một cách đầy đủ, tuyên bố*:

‘Các tuyên bố về việc xóa cần phải được đánh giá một cách mạnh mẽ và toàn diện hơn. Ví dụ, nếu khái niệm cần xóa là ‘phương tiện’, các khái niệm con như ‘xe hơi’ và các khái niệm tổng hợp như ‘xe hơi đỏ’ hoặc ‘xe hơi nhỏ’ cũng nên được xóa.

‘Tuy nhiên, khía cạnh của hệ thống phân cấp khái niệm và tính tổng hợp này không được xem xét trong các giao thức đánh giá hiện có vì chúng chỉ tập trung vào độ chính xác của khái niệm đã xóa duy nhất. [Các tác giả của EraseBench] đánh giá cách các CET ảnh hưởng đến các khái niệm tương tự về mặt trực quan và viết lại (như ‘mèo’ và ‘kitten’)[;] tuy nhiên, họ không kiểm tra đầy đủ hệ thống phân cấp và tính tổng hợp của các khái niệm.’

Để cung cấp dữ liệu chuẩn cho các dự án trong tương lai, các tác giả đã tạo ra bộ dữ liệu Đánh giá Tác dụng phụ (SEE) – một bộ sưu tập lớn các lời nhắc văn bản được thiết kế để kiểm tra xem các phương pháp xóa khái niệm hoạt động tốt như thế nào.

Các lời nhắc theo một mẫu đơn giản trong đó một đối tượng được mô tả với các thuộc tính về kích thước, màu sắc và vật liệu – ví dụ, một hình ảnh của một chiếc xe hơi đỏ nhỏ làm bằng gỗ.

Các đối tượng được lấy từ bộ dữ liệu MS-COCO, và được tổ chức thành một hệ thống phân cấp của các siêu lớp như phương tiện, và các lớp con như xe hơi hoặc xe buýt, với các kết hợp thuộc tính của chúng tạo thành các nút lá (cấp độ cụ thể nhất của hệ thống phân cấp). Cấu trúc này cho phép kiểm tra việc xóa tại các cấp độ ngữ nghĩa khác nhau, từ các loại rộng đến các biến thể cụ thể.

Để hỗ trợ đánh giá tự động, mỗi lời nhắc được ghép với một câu hỏi có / không, chẳng hạn như Liệu có một chiếc xe hơi trong hình ảnh không?, và cũng được sử dụng làm nhãn lớp cho các mô hình phân loại hình ảnh:

Các kết hợp lời nhắc trong bộ dữ liệu SEE được tạo ra bằng cách thay đổi các thuộc tính kích thước, màu sắc và vật liệu.

Các kết hợp lời nhắc trong bộ dữ liệu SEE được tạo ra bằng cách thay đổi các thuộc tính kích thước, màu sắc và vật liệu.

Để đo lường mức độ hiệu quả của mỗi phương pháp xóa khái niệm, các tác giả đã tạo ra hai phương pháp chấm điểm: độ chính xác mục tiêu, theo dõi tần suất các khái niệm đã xóa vẫn xuất hiện trong các hình ảnh được tạo; và độ chính xác bảo tồn, theo dõi xem mô hình có tiếp tục tạo ra tài liệu mà không được phép xóa.

Sự cân bằng giữa hai điểm số này旨在 tiết lộ xem phương pháp có thành công trong việc loại bỏ khái niệm bị cấm mà không làm hỏng đầu ra rộng hơn của mô hình hay không.

Các tác giả đã đánh giá việc xóa khái niệm trên ba chế độ thất bại: đầu tiên, một phép đo xem việc loại bỏ một khái niệm như xe hơi có làm gián đoạn các khái niệm lân cận hoặc không liên quan; thứ hai, một thử nghiệm xem việc xóa có thể bị vượt qua bằng cách đưa ra các khái niệm con như xe hơi đỏ sau khi xóa phương tiện.

Cuối cùng, một kiểm tra đã được thực hiện để xem liệu việc rò rỉ thuộc tính có xảy ra, nơi các thuộc tính liên kết với khái niệm đã xóa xuất hiện trong các đối tượng khác (ví dụ, việc xóa ghế sofa có thể khiến một đối tượng khác, chẳng hạn như một chậu cây, kế thừa màu sắc hoặc vật liệu của nó).

Bộ dữ liệu cuối cùng chứa 5056 lời nhắc tổng hợp

Thử nghiệm

Các khuôn khổ trước đây được thử nghiệm là những khuôn khổ đã được đề cập trước đó – UCE, RECE, MACE và SPM. Các nhà nghiên cứu đã áp dụng các cài đặt mặc định từ các dự án ban đầu và tinh chỉnh tất cả các mô hình trên một GPU NVIDIA RTX 6000 với 48GB VRAM.

Stable Diffusion 1.4, một trong những mô hình lâu đời nhất trong tài liệu, đã được sử dụng cho tất cả các thử nghiệm – có lẽ không chỉ vì các mô hình SD đầu tiên có rất ít hoặc không có sự kiềm chế khái niệm, và như vậy cung cấp một tờ giấy trắng trong bối cảnh nghiên cứu này.

Mỗi lời nhắc trong 5056 lời nhắc từ bộ dữ liệu SEE đã được chạy qua cả phiên bản chưa chỉnh sửa và phiên bản đã chỉnh sửa của mô hình, tạo ra bốn hình ảnh cho mỗi lời nhắc bằng cách sử dụng các hạt giống ngẫu nhiên cố định, cho phép kiểm tra xem các hiệu ứng xóa có vẫn nhất quán trên nhiều đầu ra hay không. Mỗi mô hình đã chỉnh sửa đã tạo ra tổng cộng 20.224 hình ảnh.

Sự hiện diện của các khái niệm được bảo tồn đã được đánh giá theo các phương pháp trước đây cho các thủ tục xóa hình ảnh đến văn bản, sử dụng các mô hình VQA BLIP, QWEN 2.5 VLFlorence-2base.

Tác động đến các khái niệm lân cận

Thử nghiệm đầu tiên đo lường xem việc xóa một khái niệm có vô tình ảnh hưởng đến các khái niệm lân cận. Ví dụ, sau khi xóa xe hơi, mô hình nên ngừng tạo ra xe hơi đỏ hoặc xe hơi lớn, nhưng vẫn có thể tạo ra các khái niệm liên quan như xe buýt hoặc xe tải, và các khái niệm không liên quan như đũa.

Phân tích sử dụng CLIP độ tương tự của bản nhúng và khoảng cách chỉnh sửa dựa trên thuộc tính để ước tính mức độ gần gũi của mỗi khái niệm với khái niệm mục tiêu đã xóa:

Kết quả kết hợp cho độ chính xác mục tiêu (trái) và độ chính xác bảo tồn (phải) được vẽ theo độ tương tự ngữ nghĩa (trên cùng) và khoảng cách tổng hợp (dưới cùng). Một phương pháp xóa khái niệm lý tưởng sẽ hiển thị độ chính xác mục tiêu thấp và độ chính xác bảo tồn cao trên tất cả các khoảng cách, nhưng kết quả cho thấy các kỹ thuật hiện tại không tổng hợp sạch sẽ, với các khái niệm gần gũi hơn hoặc không đủ xóa hoặc bị gián đoạn quá mức.

Kết quả kết hợp cho độ chính xác mục tiêu (trái) và độ chính xác bảo tồn (phải) được vẽ theo độ tương tự ngữ nghĩa (trên cùng) và khoảng cách tổng hợp (dưới cùng). Một phương pháp xóa khái niệm lý tưởng sẽ hiển thị độ chính xác mục tiêu thấp và độ chính xác bảo tồn cao trên tất cả các khoảng cách, nhưng kết quả cho thấy các kỹ thuật hiện tại không tổng hợp sạch sẽ, với các khái niệm gần gũi hơn hoặc không đủ xóa hoặc bị gián đoạn quá mức.

Trong số những kết quả này, các tác giả nhận xét:

‘Tất cả các CETs tiếp tục tạo ra các biến thể tổng hợp hoặc các khái niệm cách xa về mặt ngữ nghĩa của khái niệm mục tiêu, mặc dù đã xóa. Điều này lý tưởng không nên xảy ra.

‘UCE nhất quán đạt được độ chính xác cao hơn so với các phương pháp CET khác trên [tập hợp bảo tồn], cho thấy tác động không chủ ý tối thiểu đến các khái niệm liên quan về mặt ngữ nghĩa.

‘Ngược lại, SPM đạt được độ chính xác thấp nhất, cho thấy chiến lược chỉnh sửa của nó dễ bị ảnh hưởng bởi sự tương đồng của khái niệm.’

Trong số bốn phương pháp được thử nghiệm, RECE là phương pháp hiệu quả nhất trong việc chặn khái niệm mục tiêu. Tuy nhiên, như thể hiện ở phía bên trái của hình ảnh trên, tất cả các phương pháp đều thất bại trong việc ức chế các biến thể tổng hợp. Sau khi xóa chim, mô hình vẫn tạo ra hình ảnh của một con chim đỏ, cho thấy khái niệm vẫn còn một phần.

Việc xóa ghế sofa xanh cũng ngăn chặn mô hình tạo ra một chiếc ghế xanh, cho thấy sự gián đoạn của các khái niệm lân cận.

RECE xử lý các biến thể tổng hợp tốt hơn so với các phương pháp khác, trong khi UCE làm tốt hơn trong việc bảo tồn các khái niệm liên quan.

Xâm phạm xóa

Thử nghiệm xâm phạm xóa đánh giá xem mô hình có thể tạo ra các khái niệm con sau khi siêu lớp của chúng đã bị xóa. Ví dụ, nếu phương tiện bị xóa, thử nghiệm kiểm tra xem mô hình có thể tạo ra các đầu ra như xe đạp hoặc xe hơi đỏ.

Các lời nhắc nhắm vào cả các lớp con trực tiếp và các biến thể tổng hợp để xác định xem việc xóa khái niệm có thực sự loại bỏ toàn bộ hệ thống phân cấp hay có thể bị vượt qua bằng cách sử dụng các mô tả cụ thể hơn:

Trên Stable Diffusion v1.4, việc vượt qua các siêu lớp đã xóa thông qua các lớp con và các biến thể tổng hợp, với độ chính xác cao hơn cho thấy sự xâm phạm lớn hơn.

Trên Stable Diffusion v1.4, việc vượt qua các siêu lớp đã xóa thông qua các lớp con và các biến thể tổng hợp, với độ chính xác cao hơn cho thấy sự xâm phạm lớn hơn.

Mô hình chưa chỉnh sửa giữ độ chính xác cao trên tất cả các siêu lớp, xác nhận rằng nó không xóa bất kỳ khái niệm mục tiêu nào. Trong số các CETs, MACE cho thấy sự xâm phạm ít nhất, đạt được độ chính xác thấp nhất của lớp con trong hơn một nửa số thể loại được thử nghiệm. RECE cũng hoạt động tốt, đặc biệt là trong các nhóm phụ kiện, thể thaođiện tử.

Ngược lại, UCE và SPM cho thấy độ chính xác của lớp con cao hơn, cho thấy rằng các khái niệm đã xóa có thể dễ dàng bị vượt qua bằng cách sử dụng các lời nhắc liên quan hoặc lồng nhau.

Các tác giả lưu ý:

‘[Tất cả] CETs thành công trong việc ức chế khái niệm siêu lớp mục tiêu (“thực phẩm”). Tuy nhiên, khi được nhắc với các trẻ em thuộc tính của phân cấp thực phẩm (ví dụ, một chiếc bánh pizza lớn”), tất cả các phương pháp đều tạo ra các món ăn.

‘Tương tự, trong thể loại phương tiện, tất cả các mô hình đều tạo ra xe đạp, mặc dù đã xóa “phương tiện”.’

Rò rỉ thuộc tính

Thử nghiệm cuối cùng, rò rỉ thuộc tính, kiểm tra xem các thuộc tính liên kết với một khái niệm đã xóa có xuất hiện trong các phần khác của hình ảnh.

Ví dụ, sau khi xóa ghế sofa, mô hình không nên tạo ra một chiếc ghế sofa hoặc áp dụng các thuộc tính điển hình của nó (như màu sắc hoặc vật liệu) cho các đối tượng không liên quan trong cùng một lời nhắc. Điều này được đo bằng cách nhắc mô hình với các cặp đối tượng và kiểm tra xem các thuộc tính đã xóa có vô tình xuất hiện trong các khái niệm được bảo tồn:

Bản đồ chú ý cho các token thuộc tính sau khi xóa khái niệm. Trái: Khi 'ghế dài' bị xóa, token 'gỗ' chuyển sang chim thay thế, dẫn đến việc tạo ra những con chim bằng gỗ. Phải: Việc xóa 'ghế sofa' không ngăn chặn việc tạo ra ghế sofa, trong khi token 'lớn' bị gán sai cho chiếc bánh ngọt.

Bản đồ chú ý cho các token thuộc tính sau khi xóa khái niệm. Trái: Khi ‘ghế dài’ bị xóa, token ‘gỗ’ chuyển sang chim thay thế, dẫn đến việc tạo ra những con chim bằng gỗ. Phải: Việc xóa ‘ghế sofa’ không ngăn chặn việc tạo ra ghế sofa, trong khi token ‘lớn’ bị gán sai cho chiếc bánh ngọt.

RECE là phương pháp hiệu quả nhất trong việc xóa các thuộc tính mục tiêu, nhưng cũng giới thiệu nhiều rò rỉ thuộc tính nhất vào các lời nhắc được bảo tồn, vượt qua cả mô hình chưa chỉnh sửa. UCE rò rỉ ít hơn so với các phương pháp khác.

Kết quả, các tác giả cho rằng, chỉ ra sự cần thiết của một sự đánh đổi vốn có, với việc xóa mạnh hơn làm tăng nguy cơ chuyển thuộc tính sai.

Kết luận

Không gian tiềm ẩn của một mô hình không lấp đầy một cách có trật tự trong quá trình đào tạo, với các khái niệm phái sinh được đặt cẩn thận vào các kệ hoặc tủ hồ sơ; nhưng các bản nhúng đã được đào tạo là cả nội dung và các thùng chứa của chúng: không được ngăn cách bởi bất kỳ ranh giới rõ ràng nào, mà thay vào đó hòa trộn vào nhau theo cách khiến việc xóa trở nên khó khăn – giống như cố gắng lấy một pound thịt mà không mất bất kỳ giọt máu nào.

Trong các hệ thống thông minh và phát triển, các sự kiện cơ bản – chẳng hạn như bị bỏng và sau đó đối xử với lửa một cách thận trọng – được gắn liền với các hành vi và mối quan hệ mà chúng hình thành sau này, khiến việc tạo ra một mô hình có thể đã được để lại với các hệ quả của một khái niệm trung tâm, có khả năng bị “cấm”, nhưng thiếu khái niệm đó trong chính nó.

 

* Sự chuyển đổi của tôi từ trích dẫn nội tuyến của tác giả sang các liên kết.

Được xuất bản lần đầu vào thứ Sáu, ngày 22 tháng 8 năm 2025

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]