Góc nhìn Anderson
Đưa Phép Loại Suy Hình Ảnh Vào AI

Các mô hình AI hiện tại không nhận ra sự tương đồng ‘quan hệ’ giữa các hình ảnh, chẳng hạn như cách các lớp của Trái Đất tương tự như một quả đào, bỏ lỡ một khía cạnh quan trọng trong cách con người nhận thức hình ảnh. Mặc dù có nhiều mô hình thị giác máy tính có khả năng so sánh hình ảnh và tìm ra điểm tương đồng giữa chúng, nhưng thế hệ hệ thống so sánh hiện tại có rất ít hoặc không có khả năng tưởng tượng. Hãy xem xét một số lời bài hát trong ca khúc kinh điển những năm 1960, Windmills of Your Mind:
Như một vòng xoay ngựa gỗ đang quay, chạy những vòng tròn quanh mặt trăng Như một chiếc đồng hồ với những kim quét qua các phút trên mặt số Và thế giới như một quả táo xoay tròn lặng lẽ trong không gian
Những sự so sánh như vậy đại diện cho một lĩnh vực ám chỉ mang tính thi ca, có ý nghĩa với con người vượt xa biểu đạt nghệ thuật; thay vào đó, nó gắn liền với cách chúng ta phát triển hệ thống tri giác của mình; khi chúng ta tạo ra ‘miền đối tượng’ của mình, chúng ta phát triển khả năng về sự tương đồng hình ảnh, sao cho – ví dụ – các mặt cắt mô tả một quả đào và hành tinh Trái Đất, hoặc các đệ quy phân dạng như các xoáy cà phê và các nhánh thiên hà, được ghi nhận là tương tự với chúng ta. Bằng cách này, chúng ta có thể suy ra các mối liên hệ giữa các đối tượng và loại đối tượng dường như không liên quan, và suy luận các hệ thống (như trọng lực, động lượng và sự kết dính bề mặt) có thể áp dụng cho nhiều lĩnh vực ở nhiều quy mô khác nhau.
Nhìn Thấy Mọi Thứ
Ngay cả thế hệ mới nhất của các hệ thống AI so sánh hình ảnh, như Learned Perceptual Image Patch Similarity (LPIPS) và DINO, vốn được thông tin bởi phản hồi của con người, cũng chỉ thực hiện các so sánh bề mặt theo nghĩa đen. Khả năng tìm thấy khuôn mặt ở nơi không tồn tại – tức là, pareidolia – của chúng không đại diện cho loại cơ chế tương đồng hình ảnh mà con người phát triển, mà thay vào đó xảy ra vì các thuật toán tìm kiếm khuôn mặt sử dụng các đặc trưng cấu trúc khuôn mặt cấp thấp đôi khi trùng khớp với các đối tượng ngẫu nhiên:

Ví dụ về dương tính giả cho nhận diện khuôn mặt trong bộ dữ liệu ‘Faces with Things’. Nguồn
Để xác định xem máy móc có thực sự phát triển được khả năng tưởng tượng của chúng ta để nhận ra sự tương đồng hình ảnh xuyên các lĩnh vực hay không, các nhà nghiên cứu ở Mỹ đã tiến hành một nghiên cứu xoay quanh Sự Tương Đồng Hình Ảnh Quan Hệ, tuyển chọn và huấn luyện một bộ dữ liệu mới được thiết kế để buộc các mối quan hệ trừu tượng hình thành giữa các đối tượng khác nhau nhưng vẫn được liên kết bởi một mối quan hệ trừu tượng:

Hầu hết các mô hình AI chỉ nhận ra sự tương đồng khi hình ảnh chia sẻ các đặc điểm bề mặt như hình dạng hoặc màu sắc, đó là lý do tại sao chúng chỉ liên kết Nhóm B (ở trên) với hình tham chiếu. Ngược lại, con người cũng thấy Nhóm A là tương tự – không phải vì các hình ảnh trông giống nhau, mà vì chúng tuân theo cùng một logic cơ bản, chẳng hạn như thể hiện một sự biến đổi theo thời gian. Nghiên cứu mới này cố gắng tái tạo loại tương đồng cấu trúc hoặc quan hệ này, nhằm đưa nhận thức máy móc đến gần hơn với lập luận của con người. Nguồn: https://arxiv.org/pdf/2512.07833
Hệ thống tạo chú thích được phát triển cho bộ dữ liệu tạo điều kiện cho các chú thích trừu tượng khác thường, được thiết kế để buộc các hệ thống AI tập trung vào các đặc điểm cơ bản thay vì các chi tiết cục bộ cụ thể:

Các chú thích ‘ẩn danh’ được dự đoán góp phần vào chỉ số ‘relsim’ của các tác giả.
Bộ sưu tập được tuyển chọn và phong cách chú thích khác thường của nó cung cấp năng lượng cho chỉ số mới được đề xuất relsim của các tác giả, mà các tác giả đã tinh chỉnh thành một mô hình ngôn ngữ-thị giác (VLM).

So sánh giữa phong cách chú thích của các bộ dữ liệu điển hình, tập trung vào sự tương đồng thuộc tính, trong khi cách tiếp cận relsim (hàng dưới) nhấn mạnh sự tương đồng quan hệ.
Cách tiếp cận mới dựa trên các phương pháp luận từ khoa học nhận thức, đặc biệt là lý thuyết Ánh Xạ Cấu Trúc của Dedre Gentner (Structure-Mapping theory) (một nghiên cứu về phép loại suy) và định nghĩa của Amos Tversky về sự tương đồng quan hệ và tương đồng thuộc tính.

Từ trang web dự án liên kết, một ví dụ về sự tương đồng quan hệ. Nguồn
Các tác giả tuyên bố:
‘[Con người] xử lý sự tương đồng thuộc tính một cách tri giác, nhưng sự tương đồng quan hệ đòi hỏi sự trừu tượng hóa khái niệm, thường được hỗ trợ bởi ngôn ngữ hoặc kiến thức trước đó. Điều này cho thấy rằng việc nhận ra sự tương đồng quan hệ trước tiên đòi hỏi phải hiểu hình ảnh, dựa vào kiến thức và trừu tượng hóa cấu trúc cơ bản của nó.’
Bài báo mới có tiêu đề Relational Visual Similarity, và đi kèm với một trang web dự án (xem video được nhúng ở cuối bài viết này).
Phương Pháp
Các nhà nghiên cứu đã sử dụng một trong những bộ dữ liệu siêu quy mô nổi tiếng nhất làm điểm khởi đầu cho bộ sưu tập của riêng họ – LAION-2B:

Siêu dữ liệu cho một mục nhập trong bộ sưu tập LAION-2B. Nguồn
114.000 hình ảnh có khả năng chứa các cấu trúc quan hệ linh hoạt đã được trích xuất từ LAION-2B, liên quan đến việc lọc nhiều hình ảnh chất lượng thấp có mặt trong bộ dữ liệu được tuyển chọn tối thiểu. Để tạo một pipeline cho quá trình lựa chọn này, các tác giả đã sử dụng Qwen2.5-VL-7B, tận dụng 1.300 ví dụ dương tính và 11.000 ví dụ âm tính được gán nhãn bởi con người:

Hệ thống relsim được huấn luyện trong ba giai đoạn: lọc hình ảnh từ LAION-2B để tìm nội dung quan hệ; gán cho mỗi nhóm một chú thích ẩn danh chung nắm bắt logic cơ bản của chúng; và học cách khớp hình ảnh với các chú thích đó bằng cách sử dụng hàm mất mát tương phản.
Bài báo viết:
‘Các người chú thích được hướng dẫn: “Bạn có thể thấy bất kỳ mẫu quan hệ, logic hoặc cấu trúc nào trong hình ảnh này có thể hữu ích để tạo hoặc liên kết đến một hình ảnh khác không?”. Mô hình được tinh chỉnh đạt được 93% sự đồng thuận với đánh giá của con người, và khi áp dụng cho LAION












