Góc nhìn Anderson
Sử dụng ảo giác AI để đánh giá tính thực tế của hình ảnh

Nghiên cứu mới từ Nga đề xuất một phương pháp không chính thống để phát hiện hình ảnh được tạo bởi AI không thực tế – không phải bằng cách cải thiện độ chính xác của các mô hình ngôn ngữ tầm nhìn lớn (LVLMs), mà bằng cách tận dụng có chủ đích tendency to hallucinate của chúng.
Phương pháp mới này trích xuất nhiều ‘atomic facts’ về một hình ảnh sử dụng LVLMs, sau đó áp dụng natural language inference (NLI) để đo lường hệ thống các mâu thuẫn giữa các câu lệnh này – hiệu quả chuyển đổi các khiếm khuyết của mô hình thành một công cụ chẩn đoán để phát hiện hình ảnh đi ngược lại với lẽ thường.

Hai hình ảnh từ bộ dữ liệu WHOOPS! cùng với các câu lệnh được tạo tự động bởi mô hình LVLM. Hình ảnh bên trái là thực tế, dẫn đến các mô tả nhất quán, trong khi hình ảnh bất thường bên phải khiến mô hình ảo giác, tạo ra các câu lệnh mâu thuẫn hoặc sai. Nguồn: https://arxiv.org/pdf/2503.15948
Khi được yêu cầu đánh giá tính thực tế của hình ảnh thứ hai, mô hình LVLM có thể thấy rằng điều gì đó không ổn, vì con lạc đà trong hình ảnh có ba bướu, điều này không có trong tự nhiên.
Tuy nhiên, mô hình LVLM ban đầu混 hợp > 2 bướu với > 2 động vật, vì đây là cách duy nhất bạn có thể nhìn thấy ba bướu trong một ‘hình ảnh lạc đà’. Sau đó, nó tiếp tục ảo giác điều gì đó thậm chí còn không thể hơn ba bướu (tức là ‘hai đầu’) và không bao giờ mô tả điều gì đó dường như đã kích hoạt sự nghi ngờ của nó – bướu không thể xảy ra.
Các nhà nghiên cứu của công trình mới này phát hiện ra rằng mô hình LVLM có thể thực hiện loại đánh giá này một cách tự nhiên, và trên cơ sở ngang bằng với (hoặc tốt hơn) các mô hình đã được fine-tuned cho loại nhiệm vụ này. Vì việc tinh chỉnh là phức tạp, tốn kém và khá giòn về khả năng áp dụng hạ nguồn, việc phát hiện ra một công dụng bản địa cho một trong những đường阻 lớn nhất trong cuộc cách mạng AI hiện tại là một sự đảo ngược thú vị về xu hướng chung trong văn học.
Đánh giá Mở
Tầm quan trọng của phương pháp, các tác giả khẳng định, là nó có thể được triển khai với mở nguồn các framework. Trong khi một mô hình tiên tiến và đầu tư cao như ChatGPT có thể (bài báo thừa nhận) cung cấp kết quả tốt hơn trong nhiệm vụ này, giá trị thực sự của văn học đối với đa số chúng ta (và đặc biệt là cho cộng đồng giải trí và VFX) là khả năng kết hợp và phát triển các đột phá mới trong các triển khai địa phương; ngược lại, mọi thứ dành cho hệ thống API thương mại độc quyền đều phải tuân theo việc rút lại, tăng giá tùy ý và các chính sách kiểm duyệt phản ánh nhiều hơn mối quan tâm của công ty hơn là nhu cầu và trách nhiệm của người dùng.
Bài báo mới có tiêu đề Đừng chống lại ảo giác, hãy sử dụng chúng: Ước tính tính thực tế của hình ảnh sử dụng NLI trên các sự kiện nguyên tử, và đến từ năm nhà nghiên cứu trên Skolkovo Institute of Science and Technology (Skoltech), Moscow Institute of Physics and Technology, và các công ty Nga MTS AI và AIRI. Công trình có một trang GitHub kèm theo.
Phương pháp
Các tác giả sử dụng bộ dữ liệu WHOOPS! của Israel / Mỹ cho dự án:

Ví dụ về hình ảnh không thể từ bộ dữ liệu WHOOPS! Điều đáng chú ý là những hình ảnh này lắp ráp các yếu tố hợp lý, và rằng sự không thể của chúng phải được tính toán dựa trên việc kết hợp các khía cạnh không tương thích này. Nguồn: https://whoops-benchmark.github.io/
Bộ dữ liệu bao gồm 500 hình ảnh tổng hợp và hơn 10.874 chú thích, được thiết kế đặc biệt để kiểm tra khả năng suy luận chung và hiểu biết thành phần của các mô hình AI.
Nó được tạo ra trong sự hợp tác với các nhà thiết kế được giao nhiệm vụ tạo ra hình ảnh thách thức thông qua các hệ thống văn bản-sang-hình ảnh như Midjourney và loạt DALL-E – tạo ra các kịch bản khó hoặc không thể chụp tự nhiên:

Ví dụ thêm từ bộ dữ liệu WHOOPS! Nguồn: https://huggingface.co/datasets/nlphuji/whoops
Phương pháp mới này hoạt động trong ba giai đoạn: đầu tiên, mô hình LVLM (cụ thể LLaVA-v1.6-mistral-7b) được yêu cầu tạo ra nhiều câu lệnh đơn giản – được gọi là ‘atomic facts’ – mô tả một hình ảnh. Những câu lệnh này được tạo ra bằng cách sử dụng Diverse Beam Search, đảm bảo sự đa dạng trong các đầu ra.

Diverse Beam Search tạo ra nhiều tùy chọn chú thích đa dạng hơn bằng cách tối ưu hóa cho một mục tiêu tăng cường đa dạng. Nguồn: https://arxiv.org/pdf/1610.02424
Tiếp theo, mỗi câu lệnh được tạo ra sẽ được so sánh hệ thống với mọi câu lệnh khác bằng cách sử dụng mô hình suy luận ngôn ngữ tự nhiên, mô hình này gán các điểm phản ánh liệu các cặp câu lệnh có ngụ ý, mâu thuẫn hoặc trung lập với nhau hay không.
Mâu thuẫn chỉ ra ảo giác hoặc các yếu tố không thực tế trong hình ảnh:

Sơ đồ cho đường ống phát hiện.
Cuối cùng, phương pháp này tổng hợp các điểm NLI thành một ‘điểm thực tế’ duy nhất, lượng hóa sự nhất quán tổng thể của các câu lệnh được tạo ra.
Các nhà nghiên cứu đã khám phá các phương pháp tổng hợp khác nhau, với một phương pháp dựa trên phân cụm thực hiện tốt nhất. Các tác giả đã áp dụng thuật toán k-means clustering để tách các điểm NLI riêng lẻ thành hai cụm, và centroid của cụm có giá trị thấp hơn được chọn làm điểm cuối cùng.
Sử dụng hai cụm phù hợp với bản chất nhị phân của nhiệm vụ phân loại, tức là phân biệt hình ảnh thực tế và không thực tế. Logic tương tự như việc chọn điểm thấp nhất tổng thể; tuy nhiên, phân cụm cho phép điểm đại diện cho sự mâu thuẫn trung bình trên nhiều sự kiện, thay vì dựa vào một điểm ngoại lệ đơn lẻ.
Dữ liệu và Kiểm tra
Các nhà nghiên cứu đã kiểm tra hệ thống của họ trên điểm chuẩn WHOOPS!, sử dụng các phân chia kiểm tra quay (tức là test splits, cross-validation). Các mô hình được kiểm tra là BLIP2 FlanT5-XL và BLIP2 FlanT5-XXL trong các phân chia, và BLIP2 FlanT5-XXL trong định dạng zero-shot (tức là không có đào tạo thêm).
Đối với một đường cơ sở theo dõi hướng dẫn, các tác giả đã yêu cầu mô hình LVLM với cụm từ ‘Liệu điều này không bình thường? Hãy giải thích ngắn gọn với một câu lệnh ngắn’, điều mà nghiên cứu trước cho thấy hiệu quả trong việc phát hiện hình ảnh không thực tế.
Các mô hình được đánh giá là LLaVA 1.6 Mistral 7B, LLaVA 1.6 Vicuna 13B, và hai kích thước (7/13 tỷ tham số) của InstructBLIP.
Quy trình kiểm tra tập trung vào 102 cặp hình ảnh thực tế và không thực tế (‘lạ’). Mỗi cặp bao gồm một hình ảnh bình thường và một hình ảnh đi ngược lại với lẽ thường.
Ba người chú thích con người đã dán nhãn cho hình ảnh, đạt được sự đồng thuận 92%, cho thấy sự đồng thuận mạnh mẽ của con người về những gì cấu thành ‘sự lạ’.
Độ chính xác của các phương pháp đánh giá được đo bằng khả năng phân biệt chính xác giữa hình ảnh thực tế và không thực tế.
Hệ thống được đánh giá bằng cách sử dụng kiểm tra ba lần, ngẫu nhiên xáo trộn dữ liệu với một hạt giống cố định. Các tác giả đã điều chỉnh trọng số cho các điểm ngụ ý (các câu lệnh logic đồng ý) và điểm mâu thuẫn (các câu lệnh logic mâu thuẫn) trong quá trình đào tạo, trong khi ‘điểm trung lập’ được cố định ở zero. Độ chính xác cuối cùng được tính toán là trung bình trên tất cả các phân chia kiểm tra.

So sánh các mô hình NLI khác nhau và các phương pháp tổng hợp trên một tập hợp con của năm sự kiện được tạo, đo bằng độ chính xác.
Về kết quả ban đầu được hiển thị ở trên, bài báo cho biết:
‘Phương pháp [‘clust’] nổi bật như một trong những phương pháp thực hiện tốt nhất. Điều này cho thấy rằng việc tổng hợp tất cả các điểm mâu thuẫn là rất quan trọng, chứ không chỉ tập trung vào các giá trị cực đoan. Ngoài ra, mô hình NLI lớn nhất (nli-deberta-v3-large) vượt trội so với tất cả các mô hình khác cho tất cả các phương pháp tổng hợp, cho thấy nó nắm bắt được bản chất của vấn đề một cách hiệu quả hơn.’
Các tác giả đã tìm thấy rằng các trọng số tối ưu nhất quán ủng hộ mâu thuẫn hơn là ngụ ý, cho thấy rằng mâu thuẫn là thông tin hơn cho việc phân biệt hình ảnh không thực tế. Phương pháp của họ đã vượt trội so với tất cả các phương pháp zero-shot khác được kiểm tra, gần đạt được hiệu suất của mô hình BLIP2 được tinh chỉnh:

Hiệu suất của các phương pháp khác nhau trên điểm chuẩn WHOOPS! Các phương pháp tinh chỉnh (ft) xuất hiện ở trên cùng, trong khi các phương pháp zero-shot (zs) được liệt kê ở dưới. Kích thước mô hình chỉ ra số lượng tham số, và độ chính xác được sử dụng làm thước đo đánh giá.
Họ cũng lưu ý, khá bất ngờ, rằng InstructBLIP thực hiện tốt hơn so với các mô hình LLaVA tương đương khi có cùng yêu cầu. Mặc dù công nhận độ chính xác vượt trội của GPT-4o, bài báo nhấn mạnh sự ưu tiên của các tác giả trong việc chứng minh các giải pháp thực tế, mở nguồn, và dường như có thể tuyên bố tính mới trong việc khai thác rõ ràng ảo giác như một công cụ chẩn đoán.
Kết luận
Tuy nhiên, các tác giả thừa nhận rằng dự án của họ nợ dự án FaithScore năm 2024, một sự hợp tác giữa Đại học Texas tại Dallas và Đại học Johns Hopkins.

Minh họa cách thức hoạt động của FaithScore. Đầu tiên, các câu lệnh mô tả trong câu trả lời được tạo bởi mô hình LVLM được xác định. Tiếp theo, các câu lệnh này được chia thành các sự kiện nguyên tử riêng lẻ. Cuối cùng, các sự kiện nguyên tử được so sánh với hình ảnh đầu vào để xác minh độ chính xác của chúng. Nguồn: https://arxiv.org/pdf/2311.01477
FaithScore đo lường sự trung thành của các mô tả được tạo bởi mô hình LVLM bằng cách xác minh sự nhất quán với nội dung hình ảnh, trong khi phương pháp của bài báo mới này khai thác rõ ràng ảo giác của mô hình LVLM để phát hiện hình ảnh không thực tế thông qua các mâu thuẫn trong các sự kiện được tạo ra bằng cách sử dụng suy luận ngôn ngữ tự nhiên.
Công trình mới này tự nhiên phụ thuộc vào những đặc điểm của các mô hình ngôn ngữ hiện tại, và trên sự sẵn sàng ảo giác của chúng. Nếu sự phát triển mô hình có thể tạo ra một mô hình không ảo giác hoàn toàn, ngay cả các nguyên tắc chung của công trình mới này cũng sẽ không còn áp dụng được. Tuy nhiên, đây vẫn là một khả năng đầy thách thức.
Được xuất bản lần đầu vào Thứ Ba, ngày 25 tháng 3 năm 2025












