sơ khai Hệ thống phát hiện cho các khung tổng hợp hình ảnh thuần túy như DALL-E 2 - Unite.AI
Kết nối với chúng tôi

Trí tuệ nhân tạo

Hệ thống phát hiện cho các khung tổng hợp hình ảnh thuần túy như DALL-E 2

mm
cập nhật on

Mới nghiên cứu từ Đại học California tại Berkeley cung cấp một phương pháp để xác định liệu đầu ra từ thế hệ khung tổng hợp hình ảnh mới – chẳng hạn như Open AI's DALL-E2và của Google ẢnhĐảng – có thể được phát hiện là 'không thực', bằng cách nghiên cứu hình học, bóng và phản xạ xuất hiện trong các hình ảnh tổng hợp.

Nghiên cứu các hình ảnh được tạo bởi lời nhắc văn bản trong DALL-E 2, các nhà nghiên cứu đã phát hiện ra rằng mặc dù tính hiện thực ấn tượng mà kiến ​​trúc có thể mang lại, một số mâu thuẫn dai dẳng xảy ra liên quan đến việc hiển thị phối cảnh toàn cầu, việc tạo và bố trí bóng đổ, và đặc biệt là liên quan đến việc kết xuất các đối tượng phản ánh.

Bài báo viết:

'Các cấu trúc [Hình học], đổ bóng và phản xạ trên các bề mặt được nhân đôi không hoàn toàn phù hợp với hình học phối cảnh dự kiến ​​của cảnh thiên nhiên. Các cấu trúc hình học và bóng nói chung là nhất quán cục bộ nhưng không nhất quán toàn cầu.

'Mặt khác, các phản chiếu thường được hiển thị một cách không hợp lý, có lẽ vì chúng ít phổ biến hơn trong tập dữ liệu hình ảnh đào tạo.'

Theo nghiên cứu mới, việc thiếu các giao điểm nhất quán giữa đối tượng được hiển thị và kết xuất hình ảnh phản chiếu của nó hiện là một cách đáng tin cậy để phát hiện hình ảnh DALL-E 2. Nguồn: https://arxiv.org/pdf/2206.14617.pdf

Theo nghiên cứu mới, việc thiếu các giao điểm nhất quán giữa đối tượng được hiển thị và kết xuất hình ảnh phản chiếu của nó hiện là một cách đáng tin cậy để phát hiện hình ảnh DALL-E 2. Nguồn: https://arxiv.org/pdf/2206.14617.pdf

Bài viết thể hiện bước đột phá ban đầu vào lĩnh vực mà cuối cùng có thể trở thành một lĩnh vực đáng chú ý trong cộng đồng nghiên cứu thị giác máy tính – Phát hiện tổng hợp hình ảnh.

Kể từ khi deepfake xuất hiện vào năm 2017, phát hiện deepfake (chủ yếu của tự động mã hóa đầu ra từ các gói như DeepFaceLabHoán đổi khuôn mặt) đã trở thành một năng động và cạnh tranh học thuật, với các bài báo và phương pháp khác nhau nhắm mục tiêu 'kể' về các khuôn mặt tổng hợp đang phát triển trong cảnh quay video thực.

Tuy nhiên, cho đến khi xuất hiện gần đây các hệ thống tạo ảnh được huấn luyện siêu tỷ lệ, đầu ra từ các hệ thống nhắc văn bản như CLIP không gây ra mối đe dọa nào đối với hiện trạng của 'photoreality'. Các tác giả của bài báo mới tin rằng điều này sắp thay đổi và ngay cả những điểm không nhất quán mà họ đã phát hiện ra trong đầu ra của DALL-E 2 có thể không tạo ra nhiều khác biệt đối với khả năng đánh lừa người xem của hình ảnh đầu ra.

Các tác giả tuyên bố *:

'Những thất bại [như vậy] có thể không quan trọng lắm đối với hệ thống thị giác của con người, hệ thống này đã được phát hiện là không phù hợp một cách đáng ngạc nhiên đối với các phán đoán hình học nhất định, bao gồm cả sự không nhất quán trong thắp sáng, bóng tối, phản ánh, vị trí xemsự biến dạng phối cảnh.'

Mất uy tín

Kiểm tra pháp y đầu tiên của các tác giả đối với đầu ra DALL-E 2 liên quan đến phép chiếu phối cảnh – cách mà vị trí của các cạnh thẳng trong các đối tượng và kết cấu gần đó sẽ phân giải thống nhất thành một 'điểm biến mất'.

Còn lại, các đường song song trên cùng một mặt phẳng phân giải thành một điểm biến mất chung; phải, nhiều điểm biến mất trên cùng một mặt phẳng và song song xác định một đường biến ảo (được mô tả bằng màu đỏ).

Còn lại, các đường song song trên cùng một mặt phẳng phân giải thành một điểm biến mất chung; phải, nhiều điểm biến mất trên cùng một mặt phẳng và song song xác định một đường biến ảo (được mô tả bằng màu đỏ).

Để kiểm tra tính nhất quán của DALL-E 2 về vấn đề này, các tác giả đã sử dụng DALL-E 2 để tạo ra 25 hình ảnh tổng hợp về nhà bếp – một không gian quen thuộc, ngay cả trong những ngôi nhà đầy đủ tiện nghi, thường đủ hạn chế để cung cấp nhiều điểm biến mất khả dĩ cho một phạm vi của các đối tượng và kết cấu.

Kiểm tra đầu ra từ dấu nhắc 'ảnh nhà bếp với sàn lát gạch', các nhà nghiên cứu phát hiện ra rằng mặc dù có sự thể hiện thuyết phục nói chung trong từng trường hợp (trừ một số hiện vật kỳ lạ, nhỏ hơn không liên quan đến phối cảnh), các đối tượng được mô tả dường như không bao giờ hội tụ một cách chính xác.

Các tác giả lưu ý rằng mặc dù mỗi tập hợp các đường song song từ mẫu gạch nhất quán và giao nhau tại một điểm biến mất duy nhất (màu xanh lam trong hình bên dưới), nhưng điểm biến mất của mặt bàn (màu lục lam) không giống với cả hai đường biến mất (màu đỏ ) và điểm biến mất bắt nguồn từ các ô.

Các tác giả quan sát thấy rằng ngay cả khi mặt bàn không song song với gạch, điểm biến mất màu lục lam sẽ phân giải thành đường biến mất (màu đỏ) được xác định bởi các điểm biến mất của gạch lát sàn.

Bài báo viết:

'Mặc dù phối cảnh trong những hình ảnh này – một cách ấn tượng – nhất quán tại địa phương, nhưng nó không nhất quán trên toàn cầu. Mô hình tương tự này đã được tìm thấy trong mỗi 25 hình ảnh nhà bếp được tổng hợp.'

pháp y bóng tối

Như bất kỳ ai đã từng xử lý phương pháp dò tia đều biết, bóng tối cũng có những điểm biến mất tiềm năng, biểu thị sự chiếu sáng đơn hoặc đa nguồn. Đối với các bóng bên ngoài dưới ánh sáng mặt trời gay gắt, người ta mong đợi các bóng trên tất cả các khía cạnh của hình ảnh sẽ phân giải nhất quán thành một nguồn sáng duy nhất (mặt trời).

Như với thí nghiệm trước, các nhà nghiên cứu đã tạo ra 25 hình ảnh DALL-E 2 với lời nhắc 'ba khối lập phương trên vỉa hè được chụp vào một ngày nắng', cũng như thêm 25 với lời nhắc ''ba khối lập phương trên vỉa hè được chụp vào một ngày nhiều mây'.

Ở hàng trên cùng, các hình ảnh được tạo ra từ gợi ý của các nhà nghiên cứu 'ba khối lập phương trên vỉa hè được chụp vào một ngày nhiều mây'; ở hàng dưới, hình ảnh được tạo ra từ lời nhắc 'ba khối lập phương trên vỉa hè được chụp vào một ngày nắng'.

Ở hàng trên cùng, các hình ảnh được tạo ra từ gợi ý của các nhà nghiên cứu 'ba khối lập phương trên vỉa hè được chụp vào một ngày nhiều mây'; ở hàng dưới, hình ảnh được tạo ra từ lời nhắc 'ba khối lập phương trên vỉa hè được chụp vào một ngày nắng'.

Các nhà nghiên cứu lưu ý rằng khi thể hiện các điều kiện nhiều mây, DALL-E 2 có thể hiển thị các bóng có liên quan khuếch tán hơn theo cách thuyết phục và hợp lý, có lẽ đặc biệt là vì loại bóng này có thể phổ biến hơn trong các hình ảnh tập dữ liệu mà trên đó khung đã được đào tạo.

Tuy nhiên, các tác giả nhận thấy một số bức ảnh 'có nắng' không phù hợp với cảnh được chiếu sáng từ một nguồn sáng duy nhất.

Đối với hình ảnh trên, các thế hệ đã được chuyển đổi thành thang độ xám để rõ ràng hơn và hiển thị từng đối tượng với 'mặt trời' chuyên dụng của riêng nó.

Mặc dù người xem bình thường có thể không phát hiện ra những điểm bất thường như vậy, nhưng một số hình ảnh được tạo ra có nhiều ví dụ rõ ràng hơn về 'lỗi bóng':

Mặc dù một số bóng chỉ đơn giản là ở sai vị trí, nhưng thật thú vị, nhiều bóng trong số chúng tương ứng với loại khác biệt về hình ảnh được tạo ra trong mô hình CGI khi tốc độ lấy mẫu cho ánh sáng ảo quá thấp.

Phản xạ trong DALL-E 2

Các kết quả đáng sợ nhất về mặt phân tích pháp y xuất hiện khi các tác giả kiểm tra khả năng tạo ra các bề mặt có độ phản chiếu cao của DALL-E 2, đây cũng là một phép tính nặng nề trong dò tia CGI và các thuật toán kết xuất truyền thống khác.

Đối với thử nghiệm này, các tác giả đã tạo ra 25 hình ảnh DALL-E 2 với lời nhắc "bức ảnh về một con khủng long đồ chơi và hình ảnh phản chiếu của nó trong gương trang điểm".

Trong mọi trường hợp, các tác giả báo cáo, hình ảnh phản chiếu của đồ chơi được kết xuất theo một cách nào đó bị ngắt kết nối với khía cạnh và cách bố trí của khủng long đồ chơi 'thật'. Các tác giả tuyên bố rằng vấn đề có khả năng chống lại các biến thể trong lời nhắc văn bản và nó dường như là một điểm yếu cơ bản trong hệ thống.

Dường như có một logic trong một số lỗi - ví dụ đầu tiên và thứ ba ở hàng trên cùng dường như cho thấy một con khủng long đang trùng lặp rất tốt, nhưng không được nhân đôi.

Các tác giả nhận xét:

'Không giống như bóng đổ và cấu trúc hình học trong các phần trước, DALL·E-2 gặp khó khăn trong việc tổng hợp các phản xạ hợp lý, có lẽ là do các phản xạ như vậy ít phổ biến hơn trong tập dữ liệu hình ảnh huấn luyện của nó.'

Những trục trặc như thế này có thể được giải quyết trong các mô hình chuyển văn bản thành hình ảnh trong tương lai có khả năng xem xét logic ngữ nghĩa tổng thể của đầu ra một cách hiệu quả hơn và sẽ có thể áp đặt các quy tắc vật lý trừu tượng lên các cảnh mà ở một mức độ nào đó đã được được lắp ráp từ các tính năng phù hợp với từ trong không gian tiềm ẩn của hệ thống.

Trước xu hướng ngày càng tăng đối với các kiến ​​trúc tổng hợp ngày càng lớn hơn, các tác giả kết luận:

'[Nó] có thể chỉ là vấn đề thời gian trước khi các công cụ tổng hợp theo từng văn bản học cách hiển thị hình ảnh với tính nhất quán phối cảnh toàn diện. Tuy nhiên, cho đến thời điểm đó, các phân tích pháp y hình học có thể tỏ ra hữu ích trong việc phân tích những hình ảnh này.'

 

* Việc tôi chuyển đổi các trích dẫn nội tuyến của tác giả thành các siêu liên kết.

Xuất bản lần đầu vào ngày 30 tháng 2022 năm XNUMX.