Góc của Anderson
Sử dụng ảo giác AI để đánh giá tính chân thực của hình ảnh

Nghiên cứu mới từ Nga đề xuất một phương pháp phi truyền thống để phát hiện hình ảnh không thực tế do AI tạo ra – không phải bằng cách cải thiện độ chính xác của các mô hình ngôn ngữ thị giác lớn (LVLM), mà bằng cách cố ý tận dụng chúng xu hướng ảo giác.
Phương pháp tiếp cận mới trích xuất nhiều 'sự kiện nguyên tử' về một hình ảnh bằng cách sử dụng LVLM, sau đó áp dụng suy luận ngôn ngữ tự nhiên (NLI) để đo lường một cách có hệ thống những mâu thuẫn giữa các tuyên bố này – thực sự biến những sai sót của mô hình thành một công cụ chẩn đoán để phát hiện những hình ảnh thách thức lẽ thường.

Hai hình ảnh từ tập dữ liệu WHOOPS! cùng với các tuyên bố được tạo tự động bởi mô hình LVLM. Hình ảnh bên trái là thực tế, dẫn đến các mô tả nhất quán, trong khi hình ảnh bên phải bất thường khiến mô hình ảo giác, tạo ra các tuyên bố mâu thuẫn hoặc sai. Nguồn: https://arxiv.org/pdf/2503.15948
Khi được yêu cầu đánh giá tính hiện thực của hình ảnh thứ hai, LVLM có thể thấy rằng một cái gì đó là không đúng, vì con lạc đà được mô tả có ba bướu, đó là chưa biết trong tự nhiên.
Tuy nhiên, LVLM ban đầu gộp lại >2 bướu với >2 con vật, vì đây là cách duy nhất bạn có thể thấy ba bướu trong một 'bức tranh lạc đà'. Sau đó, nó tiếp tục ảo giác một điều thậm chí còn khó tin hơn cả ba bướu (tức là 'hai đầu') và không bao giờ kể chi tiết về chính điều dường như đã khơi gợi sự nghi ngờ của nó - cái bướu phụ khó tin kia.
Các nhà nghiên cứu của công trình mới phát hiện ra rằng các mô hình LVLM có thể thực hiện loại đánh giá này một cách tự nhiên và ngang bằng (hoặc tốt hơn) các mô hình đã được tinh chỉnh cho một nhiệm vụ như thế này. Vì việc tinh chỉnh phức tạp, tốn kém và khá mong manh về mặt khả năng áp dụng hạ nguồn, nên việc khám phá ra cách sử dụng bản địa cho một trong những những rào cản lớn nhất trong cuộc cách mạng AI hiện nay là một bước ngoặt mới mẻ trong xu hướng chung của văn học.
Đánh giá mở
Tầm quan trọng của cách tiếp cận này, các tác giả khẳng định, là nó có thể được triển khai với mã nguồn mở khuôn khổ. Mặc dù một mô hình tiên tiến và đầu tư cao như ChatGPT (bài báo thừa nhận) có khả năng mang lại kết quả tốt hơn trong nhiệm vụ này, nhưng giá trị thực sự đáng tranh cãi của tài liệu này đối với phần lớn chúng ta (và đặc biệt là đối với cộng đồng người yêu thích và VFX) là khả năng kết hợp và phát triển những đột phá mới trong việc triển khai cục bộ; ngược lại, mọi thứ dành cho một hệ thống API thương mại độc quyền đều có thể bị thu hồi, tăng giá tùy ý và các chính sách kiểm duyệt có nhiều khả năng phản ánh mối quan tâm của công ty hơn là nhu cầu và trách nhiệm của người dùng.
giấy mới có tiêu đề Đừng chống lại ảo giác, hãy sử dụng chúng: Ước tính tính chân thực của hình ảnh bằng NLI thay vì sự thật nguyên tửvà đến từ năm nhà nghiên cứu tại Viện Khoa học và Công nghệ Skolkovo (Skoltech), Viện Vật lý và Công nghệ Moscow và các công ty Nga MTS AI và AIRI. Công trình này có trang GitHub đi kèm.
Phương pháp
Các tác giả sử dụng Israel/Hoa Kỳ Ồ! Bộ dữ liệu cho dự án:

Ví dụ về các hình ảnh không thể có từ Bộ dữ liệu WHOOPS!. Điều đáng chú ý là những hình ảnh này tập hợp các yếu tố hợp lý, và tính không thể xảy ra của chúng phải được tính toán dựa trên sự kết hợp của các khía cạnh không tương thích này. Nguồn: https://whoops-benchmark.github.io/
Bộ dữ liệu bao gồm 500 hình ảnh tổng hợp và hơn 10,874 chú thích, được thiết kế đặc biệt để kiểm tra khả năng lập luận thông thường và hiểu biết về bố cục của các mô hình AI. Bộ dữ liệu được tạo ra với sự hợp tác của các nhà thiết kế được giao nhiệm vụ tạo ra những hình ảnh đầy thử thách thông qua các hệ thống chuyển văn bản thành hình ảnh như midjourney và dòng DALL-E – tạo ra những tình huống khó hoặc không thể chụp được một cách tự nhiên:

Các ví dụ khác từ bộ dữ liệu WHOOPS! Nguồn: https://huggingface.co/datasets/nlphuji/whoops
Phương pháp tiếp cận mới hoạt động theo ba giai đoạn: đầu tiên, LVLM (cụ thể là LLaVA-v1.6-mistral-7b) được nhắc tạo ra nhiều câu lệnh đơn giản – được gọi là 'sự kiện nguyên tử' – mô tả một hình ảnh. Các câu lệnh này được tạo ra bằng cách sử dụng Tìm kiếm chùm tia đa dạng, đảm bảo tính thay đổi trong kết quả đầu ra.

Diverse Beam Search tạo ra nhiều tùy chọn chú thích hơn bằng cách tối ưu hóa cho mục tiêu tăng cường tính đa dạng. Nguồn: https://arxiv.org/pdf/1610.02424
Tiếp theo, mỗi câu lệnh được tạo ra sẽ được so sánh một cách có hệ thống với mọi câu lệnh khác bằng mô hình suy luận ngôn ngữ tự nhiên, mô hình này sẽ chỉ định điểm số phản ánh liệu các cặp câu lệnh có liên quan, mâu thuẫn hay trung lập với nhau hay không.
Mâu thuẫn chỉ ra ảo giác hoặc các yếu tố không thực tế trong hình ảnh:

Sơ đồ cho đường ống phát hiện.
Cuối cùng, phương pháp này tổng hợp các điểm NLI theo từng cặp này thành một 'điểm thực tế' duy nhất để định lượng tính mạch lạc tổng thể của các câu lệnh được tạo ra.
Các nhà nghiên cứu đã khám phá các phương pháp tổng hợp khác nhau, với phương pháp dựa trên cụm hoạt động tốt nhất. Các tác giả đã áp dụng k-có nghĩa là phân cụm thuật toán để phân tách điểm NLI cá nhân thành hai nhóm và Tâm của cụm có giá trị thấp hơn sau đó được chọn làm số liệu cuối cùng.
Sử dụng hai cụm phù hợp trực tiếp với bản chất nhị phân của nhiệm vụ phân loại, tức là phân biệt hình ảnh thực tế với hình ảnh không thực tế. Logic tương tự như việc chỉ chọn điểm thấp nhất nói chung; tuy nhiên, việc phân cụm cho phép số liệu biểu diễn mâu thuẫn trung bình trên nhiều sự kiện, thay vì dựa vào một ngoại lệ.
Dữ liệu và Kiểm tra
Các nhà nghiên cứu đã thử nghiệm hệ thống của họ trên chuẩn mực cơ sở WHOOPS!, sử dụng luân phiên kiểm tra phân chia (I E, xác nhận chéo). Các mô hình được thử nghiệm là BLIP2 FlanT5-XL và BLIP2 FlanT5-XXL trong các lần chia tách và BLIP2 FlanT5-XXL ở định dạng không có cú đánh nào (tức là không cần đào tạo bổ sung).
Đối với một đường cơ sở theo hướng dẫn, các tác giả đã nhắc nhở các LVLM bằng cụm từ 'Điều này có bất thường không? Vui lòng giải thích ngắn gọn bằng một câu ngắn gọn', Mà nghiên cứu trước được phát hiện có hiệu quả trong việc phát hiện những hình ảnh không thực tế.
Các mô hình được đánh giá là LLaVA 1.6 Mistral 7B, LLaVA 1.6 Vicuna 13Bvà hai kích thước (7/13 tỷ tham số) của Hướng dẫnBLIP.
Quy trình thử nghiệm tập trung vào 102 cặp hình ảnh thực tế và phi thực tế ('kỳ lạ'). Mỗi cặp bao gồm một hình ảnh bình thường và một hình ảnh trái ngược với lẽ thường.
Ba người chú thích đã dán nhãn cho các hình ảnh, đạt được sự đồng thuận 92%, cho thấy sự đồng thuận mạnh mẽ của con người về những gì cấu thành nên "sự kỳ lạ". Độ chính xác của các phương pháp đánh giá được đo lường bằng khả năng phân biệt chính xác giữa hình ảnh thực tế và không thực tế.
Hệ thống được đánh giá bằng phương pháp kiểm chứng chéo ba lần, xáo trộn dữ liệu ngẫu nhiên với một hạt giống cố định. Các tác giả đã điều chỉnh trọng số cho điểm suy diễn (các phát biểu đồng ý về mặt logic) và điểm mâu thuẫn (các phát biểu mâu thuẫn về mặt logic) trong quá trình huấn luyện, trong khi điểm "trung lập" được cố định ở mức 0. Độ chính xác cuối cùng được tính là giá trị trung bình của tất cả các lần phân tách thử nghiệm.

So sánh các mô hình NLI và phương pháp tổng hợp khác nhau trên một tập hợp con gồm năm sự kiện được tạo ra, đo lường theo độ chính xác.
Liên quan đến những kết quả ban đầu nêu trên, bài báo nêu rõ:
'Phương pháp ['clust'] nổi bật là một trong những phương pháp có hiệu suất tốt nhất. Điều này ngụ ý rằng việc tổng hợp tất cả các điểm mâu thuẫn là rất quan trọng, thay vì chỉ tập trung vào các giá trị cực trị. Ngoài ra, mô hình NLI lớn nhất (nli-deberta-v3-large) vượt trội hơn tất cả các mô hình khác trong tất cả các phương pháp tổng hợp, cho thấy nó nắm bắt được bản chất của vấn đề hiệu quả hơn.'
Các tác giả nhận thấy rằng trọng số tối ưu luôn ưu tiên mâu thuẫn hơn là sự suy diễn, cho thấy mâu thuẫn mang tính thông tin hơn để phân biệt các hình ảnh không thực tế. Phương pháp của họ vượt trội hơn tất cả các phương pháp zero-shot khác đã được thử nghiệm, gần với hiệu suất của mô hình BLIP2 được tinh chỉnh:

Hiệu suất của nhiều phương pháp tiếp cận khác nhau trên chuẩn WHOOPS!. Các phương pháp tinh chỉnh (ft) xuất hiện ở trên cùng, trong khi các phương pháp zero-shot (zs) được liệt kê bên dưới. Kích thước mô hình cho biết số lượng tham số và độ chính xác được sử dụng làm số liệu đánh giá.
Họ cũng lưu ý, có phần bất ngờ, rằng InstructBLIP hoạt động tốt hơn các mô hình LLaVA tương đương khi được yêu cầu cùng một thông báo. Mặc dù thừa nhận độ chính xác vượt trội của GPT-4o, bài báo nhấn mạnh sở thích của các tác giả trong việc chứng minh các giải pháp mã nguồn mở thực tế, và dường như có thể khẳng định tính mới lạ trong việc khai thác rõ ràng ảo giác như một công cụ chẩn đoán.
Kết luận
Tuy nhiên, các tác giả thừa nhận khoản nợ của dự án của họ đối với năm 2024 Điểm số đức tin chuyến đi chơi, sự hợp tác giữa Đại học Texas tại Dallas và Đại học Johns Hopkins.

Minh họa về cách đánh giá FaithScore hoạt động. Đầu tiên, các câu lệnh mô tả trong câu trả lời do LVLM tạo ra được xác định. Tiếp theo, các câu lệnh này được chia nhỏ thành các sự kiện nguyên tử riêng lẻ. Cuối cùng, các sự kiện nguyên tử được so sánh với hình ảnh đầu vào để xác minh độ chính xác của chúng. Văn bản được gạch chân làm nổi bật nội dung mô tả khách quan, trong khi văn bản màu xanh lam biểu thị các câu lệnh ảo giác, cho phép FaithScore đưa ra thước đo có thể diễn giải được về tính chính xác của sự kiện. Nguồn: https://arxiv.org/pdf/2311.01477
FaithScore đo lường độ trung thực của các mô tả do LVLM tạo ra bằng cách xác minh tính nhất quán với nội dung hình ảnh, trong khi các phương pháp của bài báo mới khai thác rõ ràng ảo giác LVLM để phát hiện hình ảnh không thực tế thông qua các mâu thuẫn trong các sự kiện được tạo ra bằng cách sử dụng Suy luận ngôn ngữ tự nhiên.
Tất nhiên, tác phẩm mới phụ thuộc vào tính lập dị của các mô hình ngôn ngữ hiện tại và khuynh hướng gây ảo giác của chúng. Nếu quá trình phát triển mô hình đưa ra một mô hình hoàn toàn không gây ảo giác, ngay cả các nguyên tắc chung của tác phẩm mới cũng không còn áp dụng được nữa. Tuy nhiên, đây vẫn là một triển vọng đầy thách thức.
Lần đầu tiên xuất bản Thứ Ba, ngày 25 tháng 2025 năm XNUMX