Trí tuệ nhân tạo
Hệ Thống Phát Hiện Đối Với Các Khung Hình Ảnh Tổng Hợp Sạch Như DALL-E 2

Nghiên cứu mới nghiên cứu từ Đại học California tại Berkeley cung cấp một phương pháp để xác định liệu đầu ra từ thế hệ mới của các khung hình ảnh tổng hợp – như Open AI’s DALL-E 2, và Google’s Imagen và Parti – có thể được phát hiện là ‘không thực’, bằng cách nghiên cứu hình học, bóng và phản xạ xuất hiện trong các hình ảnh được tổng hợp.
Nghiên cứu hình ảnh được tạo ra bởi các lời nhắc văn bản trong DALL-E 2, các nhà nghiên cứu đã tìm thấy rằng mặc dù sự hiện thực ấn tượng mà kiến trúc này có thể đạt được, một số sự không nhất quán dai dẳng xảy ra liên quan đến việc kết xuất góc nhìn toàn cầu, việc tạo ra và sắp xếp bóng, và đặc biệt là việc kết xuất các vật thể phản xạ.
Bài báo tuyên bố:
‘[Cấu trúc] hình học, bóng và phản xạ trong các bề mặt gương không hoàn toàn nhất quán với hình học góc nhìn dự kiến của các cảnh tự nhiên. Cấu trúc hình học và bóng thường là nhất quán cục bộ, nhưng không nhất quán toàn cầu.
‘Phản xạ, mặt khác, thường được kết xuất không hợp lý, có lẽ vì chúng ít phổ biến hơn trong tập dữ liệu hình ảnh đào tạo.’

Sự thiếu hụt giao điểm nhất quán giữa vật thể được kết xuất và kết xuất phản xạ của nó hiện là một cách đáng tin cậy để phát hiện hình ảnh DALL-E 2, theo nghiên cứu mới. Nguồn: https://arxiv.org/pdf/2206.14617.pdf
Bài báo đại diện cho một cuộc thám hiểm sớm vào những gì cuối cùng có thể trở thành một lĩnh vực nghiên cứu đáng chú ý trong cộng đồng nghiên cứu thị giác máy tính – Phát hiện Tổng hợp Hình ảnh.
Kể từ khi ra đời của deepfakes vào năm 2017, phát hiện deepfake (chủ yếu là đầu ra autoencoder từ các gói như DeepFaceLab và FaceSwap) đã trở thành một lĩnh vực nghiên cứu học thuật tích cực và cạnh tranh, với các bài báo và phương pháp khác nhau nhắm vào các ‘tells’ tiến hóa của các khuôn mặt được tổng hợp trong video thực.
Tuy nhiên, cho đến khi xuất hiện gần đây của các hệ thống tạo hình ảnh được đào tạo với quy mô lớn, đầu ra từ các hệ thống tổng hợp hình ảnh bằng lời nhắc văn bản như CLIP không đe dọa đến hiện trạng của ‘hiện thực ảnh’. Các tác giả của bài báo mới tin rằng điều này sắp thay đổi, và rằng thậm chí những sự không nhất quán mà họ đã phát hiện trong đầu ra DALL-E 2 có thể không làm khác biệt nhiều đến khả năng đánh lừa của các hình ảnh đầu ra.
Các tác giả tuyên bố*:
‘[Những] thất bại này có thể không quan trọng lắm đối với hệ thống thị giác con người, đã được phát hiện là khá bất ngờ khi thực hiện các phán đoán hình học nhất định, bao gồm sự không nhất quán trong ánh sáng, bóng, phản xạ, vị trí xem, và hiệu ứng畸 biến góc nhìn.’
Uy tín Biến mất
Phân tích pháp y đầu tiên của DALL-E 2 liên quan đến việc chiếu góc nhìn – cách mà vị trí của các cạnh thẳng trong các vật thể gần và kết cấu nên giải quyết đồng nhất đến một ‘điểm biến mất’.

Trái, các đường thẳng song song trên cùng một mặt phẳng giải quyết đến một điểm biến mất chung; phải, nhiều điểm biến mất trên cùng một mặt phẳng và các mặt phẳng song song định nghĩa một đường biến mất (được mô tả bằng màu đỏ).
Để kiểm tra sự nhất quán của DALL-E 2 trong khía cạnh này, các tác giả đã sử dụng DALL-E 2 để tạo ra 25 hình ảnh tổng hợp của các căn bếp – một không gian quen thuộc thường bị giới hạn trong các ngôi nhà được trang bị tốt, cung cấp nhiều điểm biến mất có thể cho một loạt các vật thể và kết cấu.
Khi kiểm tra đầu ra từ lời nhắc ‘một bức ảnh của một căn bếp với sàn lát gạch’, các nhà nghiên cứu đã tìm thấy rằng mặc dù có một đại diện chung khá thuyết phục trong mỗi trường hợp (ngoài một số hiện象 nhỏ không liên quan đến góc nhìn), các vật thể được mô tả không bao giờ dường như hội tụ đúng cách.

Các tác giả lưu ý rằng trong khi mỗi tập hợp các đường thẳng song song từ mẫu gạch là nhất quán và giao nhau tại một điểm biến mất duy nhất (màu xanh lam), điểm biến mất của mặt bàn (màu xanh da trời) không đồng ý với cả đường biến mất (màu đỏ) và điểm biến mất được suy ra từ gạch.

Các tác giả quan sát rằng ngay cả khi mặt bàn không song song với gạch, điểm biến mất màu xanh da trời nên giải quyết đến đường biến mất (màu đỏ) được định nghĩa bởi các điểm biến mất của gạch sàn.
Bài báo tuyên bố:
‘Trong khi góc nhìn trong những hình ảnh này là – ấn tượng – nhất quán cục bộ, nó không nhất quán toàn cầu. Mẫu này được tìm thấy trong mỗi một trong 25 hình ảnh tổng hợp của căn bếp.’
Pháp y Bóng
Giống như bất kỳ ai đã từng xử lý việc ray-tracing biết, bóng cũng có thể có điểm biến mất, chỉ ra nguồn sáng đơn hoặc đa nguồn. Đối với bóng ngoài trời trong ánh nắng mặt trời gay gắt, người ta sẽ mong đợi bóng trên tất cả các mặt của một hình ảnh sẽ giải quyết đồng nhất đến nguồn sáng đơn (mặt trời).
Giống như thí nghiệm trước, các nhà nghiên cứu đã tạo ra 25 hình ảnh DALL-E 2 với lời nhắc ‘ba khối lập phương trên vỉa hè được chụp vào một ngày nắng’ cũng như 25 hình ảnh khác với lời nhắc ‘ba khối lập phương trên vỉa hè được chụp vào một ngày nhiều mây’.

Hàng trên cùng, hình ảnh được tạo từ lời nhắc của các nhà nghiên cứu ‘ba khối lập phương trên vỉa hè được chụp vào một ngày nhiều mây’; hàng dưới cùng, hình ảnh được tạo từ lời nhắc ‘ba khối lập phương trên vỉa hè được chụp vào một ngày nắng’.
Các nhà nghiên cứu lưu ý rằng khi mô tả điều kiện nhiều mây, DALL-E 2 có thể kết xuất bóng mờ liên quan một cách thuyết phục và hợp lý, có lẽ không chỉ vì loại bóng này có thể phổ biến hơn trong tập dữ liệu hình ảnh mà khung hình được đào tạo.
Tuy nhiên, một số ‘hình ảnh nắng’, các tác giả đã tìm thấy, không nhất quán với một cảnh được chiếu sáng từ một nguồn sáng đơn.

Đối với hình ảnh trên, các hình ảnh đã được chuyển đổi sang thang độ xám để rõ ràng, và hiển thị mỗi vật thể với ‘mặt trời’ riêng của nó.
Mặc dù người xem trung bình có thể không phát hiện ra những bất thường như vậy, một số hình ảnh được tạo ra có những ví dụ rõ ràng hơn về ‘sự thất bại của bóng’:

Trong khi một số bóng chỉ đơn giản ở sai vị trí, nhiều bóng trong số đó, thú vị, tương ứng với loại sự không nhất quán về mặt thị giác được tạo ra trong mô hình CGI khi tỷ lệ mẫu cho một nguồn sáng ảo quá thấp.
Phản xạ trong DALL-E 2
Kết quả đáng chú ý nhất về phân tích pháp y đến khi các tác giả kiểm tra khả năng của DALL-E 2 trong việc tạo ra các bề mặt phản xạ cao, một tính toán khó khăn cũng trong các thuật toán kết xuất truyền thống và CGI.
Để thực hiện thí nghiệm này, các tác giả đã tạo ra 25 hình ảnh DALL-E 2 với lời nhắc ‘một bức ảnh của một con khủng long đồ chơi và phản xạ của nó trong gương trang điểm’.
Trong tất cả các trường hợp, các tác giả báo cáo, hình ảnh gương của con khủng long đồ chơi được kết xuất không liên kết với khía cạnh và vị trí của con khủng long ‘thực’. Các tác giả tuyên bố rằng vấn đề này không dễ bị ảnh hưởng bởi các biến thể trong lời nhắc văn bản, và dường như là một điểm yếu cơ bản trong hệ thống.
Dường như có một logic trong một số lỗi – hai ví dụ đầu tiên trong hàng trên dường như hiển thị một con khủng long được sao chép rất tốt, nhưng không phản xạ.
Các tác giả bình luận:
‘Không giống như bóng và cấu trúc hình học trong các phần trước, DALL·E-2 gặp khó khăn trong việc tổng hợp các phản xạ hợp lý, có lẽ vì những phản xạ như vậy ít phổ biến hơn trong tập dữ liệu hình ảnh đào tạo của nó.’
Những lỗi như vậy có thể được khắc phục trong các mô hình hình ảnh đến văn bản trong tương lai, những mô hình có thể xem xét lại logic ngữ nghĩa tổng thể của đầu ra của chúng và áp đặt các quy tắc vật lý trừu tượng lên các cảnh đã được lắp ráp từ các tính năng liên quan đến từ trong không gian ẩn của hệ thống.
Trước xu hướng ngày càng tăng đối với các kiến trúc tổng hợp lớn hơn, các tác giả kết luận:
‘[Điều đó] có thể chỉ là vấn đề thời gian trước khi các động cơ tổng hợp hình ảnh bằng văn bản học cách kết xuất hình ảnh với sự nhất quán góc nhìn đầy đủ. Cho đến lúc đó, tuy nhiên, phân tích pháp y hình học có thể chứng minh hữu ích trong việc phân tích những hình ảnh này.’
* Tôi đã chuyển đổi các trích dẫn nội tuyến của tác giả thành liên kết.
Được xuất bản lần đầu vào ngày 30 tháng 6 năm 2022.













