sơ khai 'Ngôn ngữ vô nghĩa' có thể phá hoại hệ thống kiểm duyệt tổng hợp hình ảnh - Unite.AI
Kết nối với chúng tôi

Trí tuệ nhân tạo

'Ngôn ngữ vô nghĩa' có thể lật đổ các hệ thống kiểm duyệt tổng hợp hình ảnh

mm
cập nhật on
DALL-E 2: 'một người đàn ông trong trạng thái exaspenttausacion' . https://labs.openai.com/s/PHCrZh2i5FC2N814U8pbxuug
DALL-E 2: 'một người đàn ông trong trạng thái exaspenttausacion' . https://labs.openai.com/s/PHCrZh2i5FC2N814U8pbxuug

Nghiên cứu mới từ trường đại học Columbia cho thấy rằng các biện pháp bảo vệ ngăn chặn các mô hình tổng hợp hình ảnh như DALL-E 2, Imagen và Parti không thể tạo ra hình ảnh gây hại hoặc gây tranh cãi dễ bị tấn công bởi một loại tấn công đối nghịch liên quan đến các từ 'bịa đặt'.

Tác giả đã phát triển hai cách tiếp cận có khả năng ghi đè lên các biện pháp kiểm duyệt nội dung trong một hệ thống tổng hợp hình ảnh và nhận thấy rằng chúng rất mạnh ngay cả trên các kiến ​​trúc khác nhau, cho thấy rằng điểm yếu không chỉ mang tính hệ thống và có thể ảnh hưởng đến một số nguyên tắc cơ bản nhất của tổng hợp văn bản thành hình ảnh.

Cái đầu tiên, và cái mạnh hơn trong hai cái, được gọi là nhắc nhở macaronic. Thuật ngữ 'macaronic' ban đầu đề cập đến một hỗn hợp của nhiều ngôn ngữ, như được tìm thấy trong Esperanto hoặc không biết. Có lẽ ví dụ phổ biến nhất về mặt văn hóa sẽ là tiếng Urdu-tiếng Anh, một kiểu 'trộn mã' phổ biến ở Pakistan, trộn lẫn khá tự do các danh từ tiếng Anh và các hậu tố tiếng Urdu.

Lời nhắc tổng hợp macaronic trong DALL-E 2. Nguồn: https://arxiv.org/pdf/2208.04135.pdf

Lời nhắc tổng hợp macaronic trong DALL-E 2. Nguồn: https://arxiv.org/pdf/2208.04135.pdf

Trong một số ví dụ trên, các phân số của các từ có nghĩa đã được dán lại với nhau, sử dụng tiếng Anh như một 'giá đỡ'. Các ví dụ khác trong bài báo sử dụng nhiều ngôn ngữ trên một dấu nhắc.

Hệ thống sẽ phản hồi theo cách có ý nghĩa về mặt ngữ nghĩa do thiếu sự quản lý tương đối trong các nguồn web mà hệ thống đã được đào tạo. Những nguồn như vậy thường được hoàn thiện với các nhãn đa ngôn ngữ (tức là từ các bộ dữ liệu không được thiết kế riêng cho tác vụ tổng hợp hình ảnh) và mỗi từ được nhập vào, bằng bất kỳ ngôn ngữ nào, sẽ trở thành 'mã thông báo'; nhưng tương tự, các phần của những từ đó sẽ trở thành 'từ phụ' hoặc mã thông báo phân số. Trong Xử lý ngôn ngữ tự nhiên (NLP), kiểu 'bắt nguồn' này giúp phân biệt từ nguyên của các từ có nguồn gốc dài hơn có thể phát sinh trong các hoạt động chuyển đổi, nhưng cũng tạo ra một 'bộ Lego' từ vựng khổng lồ mà lời nhắc 'sáng tạo' có thể tận dụng.

Các từ ghép đơn ngữ cũng có hiệu quả trong việc thu được hình ảnh thông qua ngôn ngữ gián tiếp hoặc không thô tục.

Các từ ghép đơn ngữ cũng có hiệu quả trong việc thu được hình ảnh thông qua ngôn ngữ gián tiếp hoặc không thô tục, với các kết quả rất giống nhau thường có được trên các kiến ​​trúc khác nhau, chẳng hạn như DALL-E 2 và DALL-E Mini (Craiyon).

Trong loại tiếp cận thứ hai, được gọi là gợi mở, Một số từ dính liền có âm điệu tương tự như chuỗi 'học sinh Latinh' dành cho lứa tuổi thanh thiếu niên hơn chứng minh in Cuộc đời Brian của Monty Python (1979).

Không đùa đâu – tiếng Latinh giả tạo thường thành công trong việc tạo ra phản hồi có ý nghĩa từ DALL-E 2.

Không đùa đâu – tiếng Latinh giả tạo thường thành công trong việc tạo ra phản hồi có ý nghĩa từ DALL-E 2.

Tác giả nói:

'Một mối quan tâm rõ ràng với phương pháp này là việc phá vỡ các bộ lọc nội dung dựa trên lời nhắc trong danh sách đen. Về nguyên tắc, nhắc macaronic có thể cung cấp một cách dễ dàng và có vẻ đáng tin cậy để bỏ qua các bộ lọc như vậy nhằm tạo nội dung có hại, xúc phạm, bất hợp pháp hoặc nhạy cảm, bao gồm hình ảnh bạo lực, hận thù, phân biệt chủng tộc, phân biệt giới tính hoặc khiêu dâm và có thể là hình ảnh vi phạm sở hữu trí tuệ hoặc mô tả các cá nhân thực sự.

'Các công ty cung cấp dịch vụ tạo hình ảnh đã rất quan tâm đến việc ngăn chặn việc tạo ra các đầu ra như vậy theo chính sách nội dung của họ. Do đó, nhắc macaronic nên được điều tra một cách có hệ thống như một mối đe dọa đối với các giao thức an toàn được sử dụng để tạo hình ảnh thương mại.'

Tác giả đề xuất một số biện pháp khắc phục lỗ hổng này, một số biện pháp mà ông thừa nhận có thể bị coi là quá hạn chế.

Giải pháp khả thi đầu tiên là tốn kém nhất: quản lý các hình ảnh đào tạo nguồn cẩn thận hơn, với sự giám sát của con người nhiều hơn và ít thuật toán hơn. Tuy nhiên, bài báo thừa nhận rằng điều này sẽ không ngăn hệ thống tổng hợp hình ảnh tạo ra sự kết hợp gây khó chịu giữa hai khái niệm hình ảnh mà bản thân chúng có khả năng vô hại.

Thứ hai, bài báo gợi ý rằng các hệ thống tổng hợp hình ảnh có thể chạy đầu ra thực tế của chúng thông qua một hệ thống lọc, chặn mọi liên kết có vấn đề trước khi chúng được phục vụ cho người dùng. Có thể DALL-E 2 hiện đang vận hành một bộ lọc như vậy, mặc dù OpenAI chưa tiết lộ chính xác cách thức hoạt động của việc kiểm duyệt nội dung của DALL-E 2.

Cuối cùng, tác giả xem xét khả năng có một 'danh sách trắng từ điển', danh sách này sẽ chỉ cho phép các từ đã được kiểm duyệt và phê duyệt truy xuất và hiển thị các khái niệm, nhưng thừa nhận rằng điều này có thể thể hiện một hạn chế quá nghiêm trọng đối với tiện ích của hệ thống.

Mặc dù nhà nghiên cứu chỉ thử nghiệm với năm ngôn ngữ (tiếng Anh, tiếng Đức, tiếng Pháp, tiếng Tây Ban Nha và tiếng Ý) trong việc tạo ra các tổ hợp nhanh, nhưng ông tin rằng kiểu 'tấn công đối nghịch' này có thể trở nên 'khó hiểu' hơn và khó ngăn chặn hơn bằng cách mở rộng số lượng ngôn ngữ. ngôn ngữ, với điều kiện là các mô hình siêu tỷ lệ như DALL-E 2 được đào tạo trên nhiều ngôn ngữ (đơn giản vì sử dụng đầu vào 'thô' hoặc được lọc nhẹ dễ dàng hơn so với việc xem xét chi phí lớn để quản lý nó và vì có thể có nhiều chiều hơn để thêm vào tính hữu ích của hệ thống).

Sản phẩm giấy có tiêu đề Các cuộc tấn công của đối thủ vào việc tạo hình ảnh bằng các từ được tạo ra, và đến từ Raphaël Millière tại Đại học Columbia.

Ngôn ngữ mật mã trong DALL-E 2

Nó đã được đề xuất trước đây rằng tiếng vô nghĩa mà DALL-E 2 phát ra bất cứ khi nào nó cố gắng mô tả ngôn ngữ viết có thể tự nó là một 'từ vựng ẩn'. Tuy nhiên, nghiên cứu trước đây về ngôn ngữ bí ẩn này đã không đưa ra bất kỳ cách nào để phát triển chuỗi nonce có thể triệu tập hình ảnh cụ thể.

Của công việc trước, bài báo viết:

'[Nó] không cung cấp một phương pháp đáng tin cậy để tìm các chuỗi nonce gợi ra hình ảnh cụ thể. Hầu hết văn bản vô nghĩa có trong DALL-E 2 trong hình ảnh dường như không được liên kết một cách đáng tin cậy với các khái niệm trực quan cụ thể khi được phiên âm và sử dụng làm lời nhắc. Điều này hạn chế khả năng tồn tại của phương pháp này như một cách để phá vỡ việc kiểm duyệt nội dung có hại hoặc xúc phạm; như vậy, nó không phải là một rủi ro đặc biệt liên quan đến việc lạm dụng các mô hình tạo hình ảnh hướng dẫn bằng văn bản.'

Thay vào đó, hai phương pháp của tác giả được trau chuốt như những phương tiện mà những thứ vô nghĩa có thể triệu hồi những hình ảnh có liên quan và có ý nghĩa trong khi bỏ qua nghi thức thông thường hiện đang phát triển thành kỹ thuật nhanh chóng.

Ví dụ, tác giả xem xét từ 'chim' trong năm ngôn ngữ thuộc phạm vi của bài báo: chim bằng tiếng Đức, uccelli ở Ý, bằng tiếng Pháp và chim bằng tiếng Tây Ban Nha.

Với mã hóa cặp byte (BPE) mã thông báo được sử dụng bằng cách triển khai CLIP đó là tích hợp vào DALL-E 2 , các từ được mã hóa thành tiếng Anh không dấu và có thể được 'kết hợp một cách sáng tạo' để tạo thành các từ nonce có vẻ vô nghĩa đối với chúng tôi, nhưng vẫn giữ nguyên ý nghĩa gắn liền với nhau của chúng đối với DALL-E 2, cho phép hệ thống để thể hiện ý định nhận thức:

Trong ví dụ trên, hai trong số các từ 'nước ngoài' cho chim được dán lại với nhau thành một chuỗi vô nghĩa. Nhờ trọng lượng phân đoạn của các từ phụ, ý nghĩa được giữ lại.

Tác giả nhấn mạnh rằng cũng có thể thu được các kết quả có ý nghĩa mà không cần tuân thủ ranh giới của phân đoạn từ phụ, có lẽ là do DALL-E 2 (nghiên cứu chính của bài báo) đã khái quát đủ tốt để làm mờ ranh giới của các từ phụ mà không phá hủy chúng. nghĩa.

Để chứng minh thêm các cách tiếp cận đã phát triển, bài viết đưa ra các ví dụ về nhắc macaronic trên các lĩnh vực khác nhau, sử dụng danh sách các từ mã thông báo được minh họa bên dưới (với các từ lai ghép vô nghĩa ở ngoài cùng bên phải).

Tác giả tuyên bố rằng các ví dụ sau từ DALL-E 2 không phải là 'quả anh đào':

Lingua franca

Bài báo cũng nhận thấy rằng một số ví dụ như vậy hoạt động tốt như nhau, hoặc ít nhất là rất giống nhau, trên cả DALL-E 2 và DALL-E Mini (hiện tại bút sáp màu), và điều này thật đáng ngạc nhiên, vì DALL-E 2 là mẫu khuếch tán còn DALL-E Mini thì không; hai hệ thống được đào tạo trên các bộ dữ liệu khác nhau; và DALL-E Mini sử dụng một BART mã thông báo thay vì mã thông báo CLIP được ưa chuộng bởi DALL-E 2.

Kết quả tương tự đáng chú ý từ DALL-E Mini, so với hình ảnh trước đó, có kết quả từ cùng một đầu vào 'vô nghĩa' từ DALL-E 2.

Kết quả tương tự đáng chú ý từ DALL-E Mini, so với hình ảnh trước đó, có kết quả từ cùng một đầu vào 'vô nghĩa' từ DALL-E 2.

Như đã thấy trong hình ảnh đầu tiên ở trên, lời nhắc macaronic cũng có thể được lắp ráp thành các câu có âm thanh về mặt cú pháp để tạo ra các cảnh phức tạp hơn. Tuy nhiên, điều này đòi hỏi phải sử dụng tiếng Anh làm 'giá đỡ' để lắp ráp các khái niệm, khiến cho quy trình có nhiều khả năng bị chặn bởi các hệ thống kiểm duyệt tiêu chuẩn trong khuôn khổ tổng hợp hình ảnh.

Bài báo quan sát thấy rằng sự lai ghép từ vựng, sự 'ghép lại với nhau' của các từ để gợi ra nội dung liên quan từ một hệ thống tổng hợp hình ảnh, cũng có thể được thực hiện bằng một ngôn ngữ duy nhất, bằng cách sử dụng từ portmanteau.

Nhắc gợi

Cách tiếp cận 'gợi ý gợi mở' được nêu trong bài báo phụ thuộc vào việc 'gợi ý' phản hồi rộng hơn từ hệ thống bằng các từ không hoàn toàn dựa trên từ phụ hoặc mã thông báo phụ hoặc nhãn được chia sẻ một phần.

Một loại lời nhắc gợi liên tưởng là pseudolatin, trong số những cách sử dụng khác, có thể tạo ra hình ảnh của các loại thuốc hư cấu, ngay cả khi không có bất kỳ thông số kỹ thuật nào mà DALL-E 2 sẽ lấy lại khái niệm về 'thuốc':

Lời nhắc gợi ý cũng hoạt động đặc biệt tốt với các lời nhắc vô nghĩa liên quan rộng rãi đến các vị trí địa lý có thể và hoạt động khá đáng tin cậy trên các kiến ​​trúc khác nhau của DALL-E 2 và DALL-E Mini:

Các từ được sử dụng cho các lời nhắc này đối với DALL-E 2 và DALL-E Mini là tên thật, nhưng bản thân chúng hoàn toàn vô nghĩa. Tuy nhiên, các hệ thống đã 'bắt bầu không khí' của các từ.

Các từ được sử dụng cho các lời nhắc này đối với DALL-E 2 và DALL-E Mini là tên thật, nhưng bản thân chúng hoàn toàn vô nghĩa. Tuy nhiên, các hệ thống đã 'bắt bầu không khí' của các từ.

Dường như có một số sự giao thoa giữa lời nhắc macaronic và gợi nhiều liên tưởng. Bài báo viết:

'Có vẻ như sự khác biệt về dữ liệu đào tạo, kích thước mô hình và kiến ​​trúc mô hình có thể khiến các mô hình khác nhau phân tích các lời nhắc như voiscellpajaraux và eidelucertlagarzard theo kiểu “macaronic” hoặc “gợi cảm”, ngay cả khi các mô hình này được chứng minh là đáp ứng cả hai phương pháp nhắc .'

Bài báo kết luận:

'Mặc dù các thuộc tính khác nhau của các mô hình này – bao gồm kích thước, kiến ​​trúc, mã thông báo [quy trình] và dữ liệu đào tạo – có thể ảnh hưởng đến tính dễ bị tổn thương của chúng đối với các cuộc tấn công đối nghịch dựa trên văn bản, nhưng bằng chứng sơ bộ được thảo luận trong công trình này cho thấy rằng một số cuộc tấn công này có thể vẫn hoạt động một cách đáng tin cậy trên toàn bộ người mẫu.'

Có thể cho rằng trở ngại lớn nhất đối với thử nghiệm thực sự xung quanh các phương pháp này là nguy cơ bị hệ thống máy chủ gắn cờ và cấm. DALL-E 2 yêu cầu một số điện thoại được liên kết cho mỗi tài khoản người dùng, hạn chế số lượng 'tài khoản ghi đĩa' có thể cần thiết để thực sự kiểm tra ranh giới của loại hack từ vựng này, về mặt phá vỡ các phương pháp kiểm duyệt hiện có. Hiện tại, biện pháp bảo vệ chính của DALL-E 2 vẫn là tính không ổn định của quyền truy cập.

 

Xuất bản lần đầu vào ngày 9 tháng 2022 năm XNUMX.