Góc nhìn Anderson
Trí tuệ nhân tạo có thể xếp hạng hình ảnh bí mật theo thương hiệu thiết bị, không phải nội dung

Nghiên cứu mới cho thấy rằng các hệ thống trí tuệ nhân tạo tập trung vào hình ảnh không chỉ xem xét nội dung của một bức ảnh, mà còn nhận biết cách bức ảnh được chụp. Các chi tiết ẩn như loại máy ảnh hoặc chất lượng hình ảnh có thể ảnh hưởng đến kết quả của trí tuệ nhân tạo – chỉ vì bức ảnh đến từ một thiết bị khác.
Vào năm 2012, nó đã được tiết lộ rằng một trang web du lịch thường xuyên hiển thị giá cao hơn cho người dùng mà họ có thể suy đoán đang sử dụng thiết bị Apple, đồng nghĩa với việc gắn thương hiệu Apple với khả năng chi tiêu cao hơn. Điều tra sau đó kết luận rằng việc “ngửi ví” tập trung vào thiết bị này đã trở thành gần như thường xuyên cho các trang web thương mại điện tử.
Tương tự, loại điện thoại thông minh hoặc thiết bị chụp nào đã chụp một bức ảnh cụ thể có thể được xác định bằng phương tiện pháp y, dựa trên các đặc điểm извест của một số lượng hạn chế các ống kính trong các mẫu. Trong những trường hợp như vậy, mô hình của thiết bị chụp thường được ước tính bởi đường dẫn hình ảnh; và, như trong vụ việc năm 2012, việc biết loại máy ảnh nào đã chụp một bức ảnh là một đặc điểm có thể bị khai thác.
Mặc dù các thiết bị chụp thường nhúng các siêu dữ liệu đáng kể vào một bức ảnh, tính năng này thường có thể được tắt bởi người dùng; thậm chí khi nó được bật, các nền tảng phân phối như mạng xã hội có thể loại bỏ một số hoặc tất cả các siêu dữ liệu, vì lý do hậu cần hoặc bảo mật, hoặc cả hai.
Tuy nhiên, siêu dữ liệu trong hình ảnh được người dùng tải lên thường được viết lại / giải thích (thay vì xóa) hoặc để nguyên, như một nguồn thông tin thứ cấp không về nội dung của bức ảnh, mà về cách bức ảnh được chụp. Như trường hợp năm 2012 đã tiết lộ, thông tin loại này có thể có giá trị – không chỉ đối với các nền tảng thương mại, mà còn có thể đối với các hacker và những kẻ xấu.
Hai quan điểm
Một sự hợp tác nghiên cứu mới giữa Nhật Bản và Cộng hòa Séc đã phát hiện ra rằng các dấu vết còn lại bởi phần cứng máy ảnh và xử lý hình ảnh (như chất lượng JPEG hoặc làm sắc nét ống kính) không chỉ có thể được phát hiện bởi các công cụ pháp y mà còn được mã hóa im lặng trong ‘sự hiểu biết toàn cầu’ của các mô hình tầm nhìn trí tuệ nhân tạo hàng đầu.
Điều này bao gồm CLIP và các mã hóa hình ảnh lớn khác, được sử dụng rộng rãi trong mọi thứ từ công cụ tìm kiếm đến kiểm duyệt nội dung. Công việc mới chứng minh rằng những mô hình này không chỉ giải thích nội dung của một bức ảnh, mà còn có thể học cách bức ảnh được tạo ra; và tín hiệu ẩn này đôi khi có thể vượt qua nội dung nhìn thấy được.

Ví dụ về các cặp hình ảnh từ tập dữ liệu PairCams của các tác giả, được tạo để kiểm tra cách loại máy ảnh ảnh hưởng đến mô hình hình ảnh trí tuệ nhân tạo. Mỗi cặp hiển thị cùng một đối tượng hoặc cảnh được chụp vào cùng một thời điểm bằng máy ảnh không phải điện thoại thông minh (bên trái) và điện thoại thông minh (bên phải). Nguồn: https://arxiv.org/pdf/2508.10637
Nghiên cứu khẳng định rằng ngay cả khi các mô hình trí tuệ nhân tạo được cung cấp các phiên bản bị che hoặc cắt của hình ảnh, chúng vẫn có thể đoán loại và mẫu máy ảnh với độ chính xác đáng ngạc nhiên. Điều này có nghĩa là không gian biểu diễn mà các hệ thống này sử dụng để đánh giá sự tương tự của hình ảnh có thể trở nên gắn liền với các yếu tố không liên quan, chẳng hạn như thiết bị của người dùng, với các hậu quả không thể đoán trước.
Ví dụ, trong các nhiệm vụ hạ lưu như phân loại hoặc tìm kiếm hình ảnh, sự “trọng số” không mong muốn này có thể khiến hệ thống ưu tiên các loại máy ảnh nhất định, bất kể hình ảnh thực sự hiển thị.
Bài báo nêu:
‘Các nhãn siêu dữ liệu để lại dấu vết trong các mã hóa hình ảnh đến mức che khuất thông tin ngữ nghĩa có thể dẫn đến kết quả không thể đoán trước, ảnh hưởng đến tính tổng quát, độ bền và có khả năng làm suy yếu tính tin cậy của các mô hình.
‘Quan trọng hơn, hiệu ứng này có thể bị khai thác một cách恶 ý; ví dụ, một cuộc tấn công đối thủ có thể thao túng siêu dữ liệu để cố ý đánh lừa hoặc lừa dối một mô hình, tạo ra rủi ro trong các lĩnh vực nhạy cảm như chăm sóc sức khỏe, giám sát hoặc hệ thống tự động.’
Bài báo tìm thấy rằng các hệ thống Trái ngược Hình ảnh-Ngôn ngữ (CVL) như CLIP, hiện là một trong những mã hóa ảnh hưởng nhất trong tầm nhìn máy tính, đặc biệt có khả năng thu được những suy luận này từ dữ liệu:

Kết quả tìm kiếm cho một hình ảnh truy vấn, hiển thị cách các mô hình nền tảng xếp hạng các hình ảnh tương tự không chỉ dựa trên nội dung hình ảnh mà còn dựa trên siêu dữ liệu ẩn như nén JPEG hoặc mẫu máy ảnh.
Bài báo mới mới có tiêu đề Xử lý và dấu vết thu thập trong các mã hóa hình ảnh: CLIP biết gì về máy ảnh của bạn?, và đến từ sáu nhà nghiên cứu trên Đại học Osaka và Đại học Kỹ thuật Séc ở Prague.
Phương pháp và Dữ liệu*
Để kiểm tra ảnh hưởng của siêu dữ liệu ẩn đối với các mã hóa hình ảnh như CLIP, các tác giả đã làm việc với hai loại siêu dữ liệu: tham số xử lý hình ảnh (như nén JPEG hoặc biến đổi màu) và tham số thu thập (như mẫu máy ảnh hoặc cài đặt phơi sáng).
Thay vì đào tạo các mô hình mới, các nhà nghiên cứu đã đánh giá 47 mã hóa hình ảnh được sử dụng rộng rãi trong trạng thái đông lạnh, trạng thái trước khi đào tạo, bao gồm các mô hình tầm nhìn ngôn ngữ trái ngược như CLIP, tự giám sát như DINO, và mạng lưới giám sát thông thường.
Đối với các tham số xử lý, các nhà nghiên cứu đã áp dụng biến đổi được kiểm soát cho các tập dữ liệu ImageNet và iNaturalist 2018, bao gồm sáu mức nén JPEG, ba cài đặt làm sắc nét, ba tỷ lệ thay đổi kích thước và bốn phương pháp nội suy.

Ví dụ về hình ảnh và chú thích liên kết từ tập dữ liệu iNaturalist. Nguồn: https://arxiv.org/pdf/1707.06642
Các mô hình đã được kiểm tra về khả năng thu hồi từng cài đặt biến đổi bằng cách sử dụng chỉ nội dung hình ảnh, với dự đoán thành công cho thấy rằng mã hóa đã giữ lại thông tin về những lựa chọn xử lý này trong biểu diễn nội bộ của nó.
Để kiểm tra các tham số thu thập, các nhà nghiên cứu đã biên dịch một tập dữ liệu 356.459 hình ảnh gọi là FlickrExif, chứa siêu dữ liệu Exif được bảo tồn, và xây dựng một tập dữ liệu thứ hai gọi là PairCams, bao gồm 730 cặp hình ảnh được chụp đồng thời bằng điện thoại thông minh và máy ảnh không phải điện thoại thông minh.
Tập dữ liệu FlickrExif được xây dựng bằng cách sử dụng API Flickr để tải xuống hình ảnh có siêu dữ liệu Exif đi kèm. Giữa 2.000 và 4.000 hình ảnh an toàn để làm việc được thu thập mỗi tháng, có ngày từ đầu năm 2000 đến giữa năm 2024, và được lọc để bao gồm chỉ những hình ảnh có giấy phép cho phép. Để ngăn chặn việc đại diện quá mức bởi người dùng tích cực, mỗi người đóng góp cá nhân được giới hạn ở mười hình ảnh mỗi tháng cho bất kỳ năm nào.
Đối với tập dữ liệu PairCams, mỗi bức ảnh được chụp bằng cách sử dụng cài đặt tự động và không có đèn flash, cho phép so sánh cách các mã hóa hình ảnh phản ứng với sự khác biệt về phần cứng máy ảnh một mình, bất kể nội dung hình ảnh:

Ví dụ thêm từ tập dữ liệu PairCams được biên soạn bởi các tác giả.
Các tác giả đã kiểm tra hai tập hợp tham số: tham số xử lý hình ảnh, như nén và biến đổi màu; và tham số thu thập, như mẫu máy ảnh hoặc cài đặt phơi sáng:

Tham số xử lý hình ảnh và thu thập được phân tích, với số lớp cho mỗi.
Kiểm tra
Để xác định xem thông tin về xử lý hình ảnh và loại máy ảnh có được bảo tồn trong các mã hóa hình ảnh hay không, các tác giả đã đào tạo một phân loại器 để dự đoán nhãn siêu dữ liệu trực tiếp từ các mã hóa.
Nếu phân loại器 hoạt động không tốt hơn ngẫu nhiên, nó sẽ cho thấy rằng chi tiết về xử lý hoặc thiết bị không được mã hóa bởi mô hình.
Tuy nhiên, bất kỳ hiệu suất nào trên cơ hội sẽ chỉ ra rằng những dấu vết kỹ thuật này thực sự đang được mã hóa, và có thể ảnh hưởng đến các nhiệm vụ hạ lưu.
Để kiểm tra dấu vết xử lý, các tác giả đã gán cho mỗi hình ảnh đào tạo một cài đặt xử lý ngẫu nhiên, như một mức nén JPEG cụ thể, trong khi tất cả hình ảnh kiểm tra trong một lô chia sẻ cùng một cài đặt.
Độ chính xác phân loại trung bình trên tất cả các cài đặt sau đó được kết hợp với các thử nghiệm lặp lại dưới các hạt giống ngẫu nhiên khác nhau, để có thể xác định xem các chi tiết kỹ thuật của xử lý hình ảnh có được mã hóa một cách nhất quán trong biểu diễn nội bộ của mô hình hay không:

Độ chính xác phân loại để dự đoán tham số xử lý hình ảnh từ mã hóa, sử dụng một phân loại器 tuyến tính áp dụng cho các mô hình đông lạnh. Kết quả được hiển thị cho nén JPEG, làm sắc nét, thay đổi kích thước và nội suy, với ba loại mô hình, tầm nhìn ngôn ngữ trái ngược (cam), giám sát (xanh lá cây) và tự giám sát (xanh da trời), được đánh giá trên ImageNet (hàng trên) và iNaturalist 2018 (hàng dưới). Các đường cơ sở ngẫu nhiên được đánh dấu bằng các đường đứt đoạn.
Trên tất cả bốn tham số xử lý, các mô hình tầm nhìn ngôn ngữ trái ngược cho thấy khả năng nhận biết cao nhất về các thay đổi hình ảnh ẩn. Một số mô hình đạt được hơn 80% độ chính xác khi dự đoán cài đặt nén JPEG, làm sắc nét và thay đổi kích thước từ mã hóa ImageNet.
Các mã hóa giám sát, đặc biệt là những mã hóa dựa trên ConvNeXt, cũng hoạt động mạnh mẽ, trong khi các mô hình tự giám sát yếu hơn.
Nội suy là tham số khó nhất để phát hiện, nhưng các mô hình CVL và giám sát hàng đầu vẫn đạt được kết quả tốt hơn cơ sở ngẫu nhiên 25% trên cả hai tập dữ liệu.
Tiếp theo, để kiểm tra xem thông tin về máy ảnh có được mã hóa trong biểu diễn mô hình hay không, các tác giả đã tạo các tập huấn luyện và kiểm tra riêng biệt cho từng tham số thu thập (như mẫu máy ảnh, cài đặt phơi sáng, khẩu độ, ISO và độ dài tiêu cự).
Đối với hầu hết các tham số, chỉ có các lớp có ít nhất 5.000 ví dụ được sử dụng; 500 hình ảnh được chọn ngẫu nhiên đặt sang một bên để kiểm tra, và các ví dụ còn lại được lấy mẫu để mỗi lớp có 200 mẫu đào tạo. Đối với các tham số ‘mô hình (tất cả)’ và ‘mô hình (thông minh)’, có ít dữ liệu hơn cho mỗi lớp, các tác giả thay vào đó sử dụng các lớp có ít nhất 500 hình ảnh, và chia mỗi lớp thành huấn luyện và kiểm tra với tỷ lệ bốn đến một.
Các nhiếp ảnh gia được giữ riêng biệt trên các tập huấn luyện, xác thực và kiểm tra, và một phân loại器 đơn giản được đào tạo để dự đoán thông tin máy ảnh dựa trên các tính năng hình ảnh.
Để đảm bảo rằng phân loại器 không bị ảnh hưởng bởi nội dung ngữ nghĩa của hình ảnh, 90% của mỗi hình ảnh được che trung tâm (xem ví dụ dưới đây). Các tác giả khẳng định rằng ở mức che này, tất cả các mã hóa hình ảnh đều hoạt động gần như ngẫu nhiên trên ImageNet, cho thấy rằng tín hiệu ngữ nghĩa đã được loại bỏ hiệu quả:

Độ chính xác xác thực ImageNet theo tỷ lệ che. Ở 90% che, tất cả các mô hình giảm xuống gần ngẫu nhiên trên dự đoán nhãn ngữ nghĩa, cho thấy rằng tín hiệu ngữ nghĩa đã được loại bỏ hiệu quả. Các hình ảnh ví dụ ở dưới cùng minh họa các mức che.
Thậm chí với 90% của mỗi hình ảnh được che, hầu hết các mô hình tầm nhìn ngôn ngữ trái ngược và các mã hóa giám sát ConvNeXt vẫn dự đoán các nhãn liên quan đến máy ảnh với độ chính xác cao hơn cơ hội. Nhiều mô hình CVL vượt quá 70% độ chính xác trong việc phân biệt hình ảnh điện thoại thông minh và không phải điện thoại thông minh.
Các mã hóa giám sát khác, SigLIP, và tất cả các mô hình tự giám sát hoạt động kém hơn. Khi không có che, các mô hình CVL lại cho thấy sự phân nhóm mạnh nhất theo loại máy ảnh, xác nhận rằng các mô hình này mã hóa thông tin thu thập sâu sắc hơn các mô hình khác:

Tính trực quan hóa t-SNE cho hai mã hóa hình ảnh, với màu chỉ ra liệu mỗi hình ảnh được chụp bằng máy ảnh điện thoại thông minh hay không.
Ý nghĩa hạ lưu
Sau khi thiết lập rằng siêu dữ liệu ảnh hưởng đến các mô hình theo cách này, xu hướng của các dấu vết xử lý ẩn để can thiệp vào việc giải thích hình ảnh đã được đánh giá.
Khi hai phiên bản của cùng một hình ảnh được xử lý khác nhau, các mã hóa thường được tổ chức theo phong cách xử lý hơn là nội dung. Trong một số trường hợp, một bức ảnh bị nén mạnh của một con chó được xử lý như tương tự hơn với một hình ảnh không liên quan có cùng cài đặt nén hơn là với phiên bản không nén của chính nó:

Tác động của tham số xử lý lên dự đoán ngữ nghĩa, với độ chính xác phân loại ngữ nghĩa cho ImageNet (trên) và iNaturalist (dưới) dưới năm cài đặt xử lý. Trong cơ sở, tất cả hình ảnh đào tạo và kiểm tra chia sẻ cùng một nhãn xử lý; trong cài đặt tất cả khác, hình ảnh kiểm tra sử dụng một giá trị xử lý không có trong tập đào tạo; trong pos-same và neg-same, nhãn xử lý được căn chỉnh với hình ảnh tương tự hoặc không tương tự về mặt ngữ nghĩa; trong cài đặt đồng nhất, nhãn xử lý được gán ngẫu nhiên trên toàn tập đào tạo. Kết quả được báo cáo bằng cách sử dụng k = 10 cho ImageNet và k = 1 cho iNaturalist.
Các biến dạng mạnh nhất được gây ra bởi nén JPEG, tiếp theo là làm sắc nét và thay đổi kích thước, trong khi nội suy tạo ra một hiệu ứng nhỏ. Các tác giả khẳng định rằng những kết quả này chứng minh rằng dấu vết xử lý có thể vượt qua thông tin ngữ nghĩa và quyết định cách một hình ảnh được hiểu.
Kết luận, họ cảnh báo:
‘Mặc dù chúng tôi đã xác định rằng các nhãn siêu dữ liệu được mã hóa trong các mã hóa hình ảnh cơ bản và cung cấp gợi ý về các nguyên nhân tiềm năng, chúng tôi không thể xác định chắc chắn nguồn gốc của vấn đề. Việc điều tra thêm về vấn đề này là thách thức do chi phí đào tạo lại các mô hình như vậy và việc sử dụng thường xuyên các tập dữ liệu riêng tư và các chi tiết triển khai không được tiết lộ.
‘Mặc dù chúng tôi không đề xuất các kỹ thuật giảm nhẹ cụ thể, chúng tôi nhấn mạnh vấn đề này là một lĩnh vực nghiên cứu quan trọng trong tương lai.’
Kết luận
Trong văn học có một sự quan tâm pháp y ngày càng tăng liên quan đến các dấu vết và dấu hiệu của ‘phương pháp hơn nội dung’; việc dễ dàng xác định một lĩnh vực khung hoặc một tập dữ liệu cụ thể, việc dễ dàng hơn để khai thác thông tin này dưới dạng – ví dụ – các bộ phát hiện giả mạo sâu, hoặc các hệ thống được thiết kế để phân loại nguồn gốc hoặc tuổi của dữ liệu và mô hình.
Tất cả điều này đi ngược lại với ý định cốt lõi của việc đào tạo các mô hình trí tuệ nhân tạo, đó là các khái niệm trung tâm nên được thu thập độc lập với phương tiện sản xuất và không nên có dấu vết của chúng. Trên thực tế, các tập dữ liệu và thiết bị chụp có các đặc điểm và đặc trưng của lĩnh vực mà chúng đại diện, và điều này gần như không thể tách rời khỏi nội dung, vì chúng cũng đại diện cho một ‘quan điểm lịch sử’.
* Bài báo được bố cục không thông thường, và chúng tôi sẽ thích nghi với định dạng và trình bày không bình thường này theo cách tốt nhất có thể. Một lượng lớn tài liệu mà lẽ ra nên có trong một phần ‘Phương pháp’ (không tồn tại) đã được chuyển sang các phần khác nhau của phụ lục, có lẽ để hạn chế bài báo chính trong tám trang – mặc dù với chi phí lớn về sự rõ ràng. Nếu chúng tôi đã bỏ lỡ bất kỳ cơ hội nào để cải thiện điều này, do thiếu thời gian, chúng tôi xin lỗi.
Được xuất bản lần đầu vào thứ Tư, ngày 20 tháng 8 năm 2025












