Trí tuệ nhân tạo

Giải pháp độc đáo của DALL-E 2 để nhân đôi ý nghĩa

cập nhật on 9 Tháng mười hai, 2022

Bất cứ ai đã học tiếng Ý đều sớm chú ý đến ngữ cảnh khi mô tả một chổi, bởi vì từ tiếng Ý cho mặt hàng nội địa trần tục này có NSFW cực kỳ ý nghĩa thứ hai như một động từ*. Mặc dù chúng ta sớm học cách tháo gỡ ánh xạ ngữ nghĩa và khả năng ứng dụng (thích hợp) của các từ có nhiều nghĩa, nhưng đây không phải là một kỹ năng dễ dàng chuyển sang các hệ thống tổng hợp hình ảnh siêu tỷ lệ như DALL-E 2 và Khuếch tán ổn định, bởi vì chúng dựa vào Đào tạo trước ngôn ngữ–hình ảnh tương phản của OpenAI (CLIP), mô-đun xử lý các đối tượng và thuộc tính của chúng khá lỏng lẻo hơn (tuy nhiên điều này đang đạt được đất hơn bao giờ hết trong không gian tổng hợp hình ảnh và video khuếch tán tiềm ẩn.

Nghiên cứu sự thiếu hụt này, một hợp tác nghiên cứu mới từ Đại học Bar-Ilan và Viện trí tuệ nhân tạo Allen cung cấp một nghiên cứu sâu rộng về mức độ mà DALL-E 2 được xử lý đối với các lỗi ngữ nghĩa như vậy:

Ý nghĩa kép được chia thành nhiều đối tượng trong DALL-E 2 – mặc dù bất kỳ hệ thống khuếch tán tiềm ẩn nào cũng có thể tạo ra các ví dụ như vậy. Trong hình ảnh phía trên bên phải, việc xóa 'vàng' khỏi lời nhắc sẽ thay đổi loài cá, trong khi trong trường hợp 'ngựa vằn băng qua', cần phải nêu rõ mặt đường để xóa liên kết trùng lặp. Nguồn: https://export.arxiv.org/pdf/2210.10606

Ý nghĩa kép được chia thành nhiều cách hiểu trong DALL-E 2 – mặc dù bất kỳ hệ thống khuếch tán tiềm ẩn nào cũng có thể tạo ra các ví dụ như vậy. Trong hình ảnh phía trên bên phải, việc xóa 'vàng' khỏi lời nhắc sẽ thay đổi loài cá, trong khi trong trường hợp 'ngựa vằn băng qua', cần phải nêu rõ mặt đường để xóa liên kết trùng lặp. Nguồn: https://export.arxiv.org/pdf/2210.10606

Các tác giả đã phát hiện ra rằng xu hướng diễn giải kép các từ và cụm từ dường như không chỉ phổ biến đối với tất cả các mô hình khuếch tán do CLIP hướng dẫn mà còn trở nên tồi tệ hơn khi các mô hình được đào tạo trên lượng dữ liệu ngày càng cao. Bài báo lưu ý rằng các phiên bản 'rút gọn' của các mô hình chuyển văn bản thành hình ảnh, bao gồm cả DALL-E Mini (nay là Craiyon) đưa ra các loại lỗi này ít thường xuyên hơn và điều đó Khuếch tán ổn định cũng ít lỗi hơn – mặc dù chỉ bởi vì, rất thường xuyên, nó hoàn toàn không tuân theo lời nhắc, đây là một loại lỗi khác.

Lời nhắc đơn giản 'date' buộc DALL-E 2 gọi ra hai trong số nhiều nghĩa của từ này, trong khi từ 'fan' cũng chia thành hai ánh xạ ngữ nghĩa của nó và, trong hình ảnh thứ ba, cụm từ 'cone' đáng tin cậy biến thức ăn không xác định trong lời nhắc thành kem, thứ được liên kết với 'hình nón'.

Giải thích cách chúng tôi thực hiện phân tách từ vựng hiệu quả, bài viết nêu rõ:

'Mặc dù các biểu tượng – cũng như cấu trúc câu – có thể mơ hồ, nhưng sau khi diễn giải được xây dựng, sự mơ hồ này đã được giải quyết. Ví dụ, trong khi biểu tượng con dơi trong con dơi đang bay có thể được hiểu là một thanh gỗ hoặc một con vật, thì những cách hiểu có thể có của chúng ta về câu này là một thanh gỗ đang bay hoặc một con vật đang bay, nhưng không bao giờ có cả hai cùng một lúc. Một khi từ con dơi đã được sử dụng trong cách hiểu để biểu thị một đối tượng (ví dụ như một thanh gỗ), nó không thể được sử dụng lại để biểu thị một đối tượng khác (một con vật) trong cùng một cách hiểu.'

DALL-E 2, bài báo quan sát, không bị hạn chế theo cách này:

'Một con dơi đang bay trên sân vận động bóng chày' - hình ảnh đầu tiên là từ bài báo, ba hình ảnh còn lại thu được từ việc chỉ đưa cùng một lời nhắc vào DALL-E 2.

Tài sản này đã được tên độ nhạy tài nguyên.

Bài báo xác định ba hành vi bất thường được thể hiện bởi DALL-E 2: rằng một từ hoặc một cụm từ có thể được diễn giải và phân chia hiệu quả thành hai thực thể riêng biệt, hiển thị một đối tượng hoặc khái niệm cho từng đối tượng trong cùng một cảnh; rằng một từ có thể được hiểu là từ bổ nghĩa của hai thực thể khác nhau (xem 'con cá vàng' và các ví dụ khác ở trên); và rằng một từ có thể được hiểu đồng thời vừa là từ bổ nghĩa vừa là thực thể thay thế – được minh họa bằng lời nhắc 'một con dấu đang mở một lá thư':

'Một con dấu đang mở một lá thư' – hình minh họa đầu tiên là từ tờ giấy, ba hình bên cạnh, bản sao giống hệt từ DALL-E 2. Các ví dụ ảnh thực bên dưới có thêm văn bản 'ảnh, Canon50, 85mm, F5.6, giải thưởng- ảnh đoạt giải'.

Các tác giả xác định hai chế độ thất bại cho các mô hình khuếch tán về mặt này: đó là kết quả của lời nhắc của người dùng với các từ mơ hồ về nghĩa thường sẽ thể hiện từ được cụ thể hóa cùng với một số biểu hiện của khái niệm; Và rò rỉ khái niệm, trong đó các thuộc tính của một đối tượng 'rò rỉ' vào một đối tượng được hiển thị khác.

'Kết hợp lại với nhau, các hiện tượng mà chúng tôi kiểm tra cung cấp bằng chứng về những hạn chế trong khả năng ngôn ngữ của DALLE-2 và mở ra con đường cho nghiên cứu trong tương lai nhằm khám phá xem liệu những hiện tượng đó có xuất phát từ các vấn đề với mã hóa văn bản, mô hình tổng quát hay cả hai hay không. Tổng quát hơn, phương pháp được đề xuất có thể được mở rộng sang các kịch bản khác trong đó quá trình giải mã được sử dụng để phát hiện ra sai lệch quy nạp và những thiếu sót của các mô hình chuyển văn bản thành hình ảnh.'

Sử dụng 17 từ sẽ khiến DALL-E 2 chia đầu vào thành nhiều đầu ra, các tác giả đã quan sát thấy rằng đồng âm sự trùng lặp xảy ra ở hơn 80% trong số 216 hình ảnh được hiển thị.

Các nhà nghiên cứu đã sử dụng các cặp kiểm soát kích thích để kiểm tra mức độ cần thiết của ngôn ngữ cụ thể và được cho là quá cụ thể để ngăn chặn những sự trùng lặp này xảy ra. Đối với các thử nghiệm giữa thực thể với thuộc tính, 10 cặp như vậy đã được tạo và các tác giả lưu ý rằng dấu nhắc kích thích kích thích thuộc tính được chia sẻ trong 92.5% trường hợp, trong khi dấu nhắc kiểm soát chỉ gợi ra nó trong 6.6% trường hợp.

'[Để] chứng minh, hãy xem xét một con ngựa vằn và một con đường, ở đây, ngựa vằn là một thực thể, nhưng nó thay đổi đường phố và DALLE-2 liên tục tạo ra các lối băng qua đường, có thể là do các sọc ngựa vằn giống như một lối băng qua đường. Và phù hợp với phỏng đoán của chúng tôi, mẫu kiểm soát ngựa vằn và đường rải sỏi xác định loại đường thường không có lối băng qua đường dành cho người đi bộ và thực tế, tất cả các mẫu kiểm soát của chúng tôi cho lời nhắc này đều không có lối băng qua đường dành cho người đi bộ.'

Các thử nghiệm của nhà nghiên cứu với DALL-E Mini không thể sao chép những phát hiện này, mà các nhà nghiên cứu cho rằng khả năng thấp hơn của các mô hình này và khả năng các quá trình khử của chúng làm sáng tỏ cách giải thích 'rõ ràng' nhất của một từ mơ hồ về ý nghĩa dễ dàng hơn:

'Chúng tôi đưa ra giả thuyết rằng – nghịch lý thay – chính dung lượng thấp hơn của DALLE-mini và Stable-diffusion và thực tế là chúng không tuân theo lời nhắc một cách mạnh mẽ, khiến chúng có vẻ “tốt hơn” đối với các lỗi mà chúng tôi kiểm tra. Việc đánh giá kỹ lưỡng mối quan hệ giữa quy mô, kiến trúc mô hình và rò rỉ khái niệm được dành cho công việc trong tương lai.'

Trước khi làm việc từ 2021, các tác giả lưu ý, đã quan sát thấy rằng các phần nhúng của CLIP không ràng buộc rõ ràng các thuộc tính của một khái niệm với chính đối tượng đó. 'Theo đó,' họ viết. 'họ quan sát thấy rằng các bản dựng lại từ bộ giải mã thường trộn lẫn các thuộc tính và đối tượng.'

* DALL-E 2 có một số vấn đề trong trường hợp cụ thể này. Nhập lời nhắc 'Una donna che sta scopando' ('một phụ nữ đang quét dọn') sẽ triệu tập nhiều phụ nữ trung niên đang quét sân, v.v. Tuy nhiên, nếu bạn thêm 'in a bedroom' (bằng tiếng Ý), lời nhắc sẽ gọi DALL-E 2 của bộ lọc NSFW, nói rằng kết quả vi phạm chính sách nội dung của OpenAI.

Xuất bản lần đầu vào ngày 20 tháng 2022 năm XNUMX.