Trí tuệ nhân tạo

Thử thách ‘Phân loại Chủng tộc’ cho Hệ thống Tổng hợp Hình ảnh Dựa trên CLIP

Published May 24, 2022

Updated April 5, 2026

Martin Anderson

Nghiên cứu mới từ Mỹ cho thấy một trong những mô hình tầm nhìn máy tính phổ biến đằng sau loạt DALL-E, cũng như nhiều mô hình tạo và phân loại hình ảnh khác, thể hiện xu hướng rõ ràng towards hypodescent – quy tắc phân loại chủng tộc (còn được gọi là ‘one drop’ rule) phân loại một người có cả ‘hỗn hợp’ (tức là không phải là người da trắng) di truyền vào hoàn toàn vào phân loại chủng tộc ‘thiểu số’.

Vì hypodescent đã đặc trưng một số chương xấu xí nhất trong lịch sử loài người, các tác giả của bài báo mới đề xuất rằng những xu hướng như vậy trong nghiên cứu và triển khai tầm nhìn máy tính nên nhận được sự chú ý nhiều hơn, không chỉ vì khuôn khổ được đề cập, được tải xuống gần một triệu lần một tháng, có thể进一步 lan truyền và phổ biến thiên vị chủng tộc trong các khuôn khổ hạ nguồn.

Kiến trúc được nghiên cứu trong công việc mới là Contrastive Language Image Pretraining (CLIP), một mô hình học đa mô hình học các mối liên hệ ngữ nghĩa bằng cách đào tạo trên cặp hình ảnh / chú thích được rút ra từ internet – một cách tiếp cận bán giám sát giảm thiểu chi phí gắn nhãn đáng kể, nhưng có khả năng phản ánh thiên vị của những người tạo ra chú thích.

Từ bài báo:

‘Kết quả của chúng tôi cung cấp bằng chứng cho hypodescent trong không gian nhúng CLIP, một thiên vị được áp dụng mạnh hơn cho hình ảnh của phụ nữ. Kết quả进一步 chỉ ra rằng CLIP liên kết hình ảnh với nhãn chủng tộc hoặc dân tộc dựa trên sự偏差 từ Trắng, với Trắng là mặc định.

Bài báo cũng tìm thấy rằng sự liên kết valence (tendency được liên kết với ‘tốt’ hoặc ‘xấu’) của một hình ảnh đáng kể cao hơn cho các nhãn chủng tộc ‘thiểu số’ hơn là cho các nhãn da trắng, và đề xuất rằng thiên vị của CLIP phản ánh cơ sở văn học tập trung vào Mỹ (Wikipedia tiếng Anh) mà khuôn khổ được đào tạo.

Khi bình luận về ý nghĩa của việc CLIP dường như hỗ trợ hypodescent, các tác giả tuyên bố*:

‘[Trong] số các ứng dụng đầu tiên của CLIP là đào tạo mô hình tạo hình ảnh zero-shot DALL-E. Một phiên bản lớn hơn, không công khai của kiến trúc CLIP được sử dụng trong đào tạo DALL-E 2. Phù hợp với phát hiện của nghiên cứu hiện tại, phần Risks and Limitations được mô tả trong thẻ mô hình DALL-E 2 note rằng nó “tạo ra hình ảnh có xu hướng đại diện quá mức cho những người da trắng”.

‘Sự sử dụng như vậy chứng tỏ khả năng thiên vị được học bởi CLIP có thể lan truyền vượt ra ngoài không gian nhúng của mô hình, vì các tính năng của nó được sử dụng để hướng dẫn sự hình thành ngữ nghĩa trong các mô hình AI khác hàng đầu.

‘Hơn nữa, phần lớn nhờ vào những tiến bộ được thực hiện bởi CLIP và các mô hình tương tự để liên kết hình ảnh và văn bản trong cài đặt zero-shot, các kiến trúc đa mô hình đã được mô tả là nền tảng cho tương lai của các ứng dụng internet được sử dụng rộng rãi, bao gồm cả công cụ tìm kiếm.

‘Kết quả của chúng tôi chỉ ra rằng sự chú ý thêm vào những gì các mô hình như vậy học từ giám sát ngôn ngữ tự nhiên là đáng kể.’

Bài báo bài báo có tiêu đề Bằng chứng cho Hypodescent trong Trí tuệ Hình ảnh Ngữ nghĩa, và đến từ ba nhà nghiên cứu tại Đại học Washington và Đại học Harvard.

CLIP và Ảnh hưởng Xấu

Mặc dù các nhà nghiên cứu khẳng định rằng công việc của họ là phân tích đầu tiên về hypodescent trong CLIP, các công việc trước đây đã chứng minh rằng quy trình làm việc CLIP, phụ thuộc vào đào tạo không giám sát lớn từ dữ liệu web không được kiểm duyệt, thiếu đại diện cho phụ nữ, có thể tạo ra nội dung phản cảm, và có thể thể hiện thiên vị ngữ nghĩa (như tình cảm chống Hồi giáo) trong bộ mã hóa hình ảnh của nó.

Bài báo gốc trình bày CLIP thừa nhận rằng trong một cài đặt zero-shot, CLIP liên kết chỉ 58,3% người với nhãn chủng tộc Trắng trong FairFace dataset. Nhận thấy rằng FairFace được gắn nhãn có thể bị thiên vị bởi công nhân Amazon Mechanical Turk, các tác giả của bài báo mới tuyên bố rằng ‘một thiểu số đáng kể những người được coi là Trắng bởi con người khác được liên kết với một chủng tộc khác với Trắng bởi CLIP.’

Họ tiếp tục:

‘Ngược lại không có vẻ đúng, vì các cá nhân được coi là thuộc về các nhãn chủng tộc hoặc dân tộc khác trong tập dữ liệu FairFace được liên kết với những nhãn đó bởi CLIP. Kết quả này gợi ý khả năng CLIP đã học quy tắc “hypodescent”, như được mô tả bởi các nhà khoa học xã hội: những người có tổ tiên đa chủng tộc có nhiều khả năng được coi là và phân loại thuộc về nhóm phụ huynh thiểu số hoặc không được ưu đãi hơn là nhóm phụ huynh đa số hoặc được ưu đãi.

‘Nói cách khác, con của một người da đen và một người da trắng được coi là nhiều hơn da đen hơn là da trắng; và con của một người châu Á và một người da trắng được coi là nhiều hơn châu Á hơn là da trắng.’

Bài báo có ba phát hiện trung tâm: rằng CLIP thể hiện hypodescent, bằng cách ‘đàn’ những người có bản sắc đa chủng tộc vào thể loại chủng tộc thiểu số đóng góp cho họ; rằng ‘Trắng là mặc định chủng tộc trong CLIP’, và rằng các chủng tộc cạnh tranh được định nghĩa bởi sự ‘phân kỳ’ từ một thể loại Trắng; và rằng thiên vị valence (một sự liên kết với ‘xấu’ khái niệm) tương quan với mức độ mà cá nhân được phân loại vào một chủng tộc thiểu số.

Phương pháp và Dữ liệu

Để xác định cách CLIP xử lý các đối tượng đa chủng tộc, các nhà nghiên cứu sử dụng một kỹ thuật biến dạng trước đó để thay đổi chủng tộc của hình ảnh của các cá nhân. Các ảnh được lấy từ Chicago Face Database, một tập được phát triển cho các nghiên cứu tâm lý liên quan đến chủng tộc.

Ví dụ từ các hình ảnh CFD được biến dạng chủng tộc được trình bày trong phần phụ lục của bài báo mới.

Các nhà nghiên cứu chỉ chọn ‘biểu cảm trung tính’ hình ảnh từ tập dữ liệu, để duy trì tính nhất quán với công việc trước đây. Họ sử dụng Mạng Đối nghịch Sinh StyleGAN2-ADA (được đào tạo trên FFHQ) để thực hiện việc thay đổi chủng tộc của hình ảnh khuôn mặt, và tạo ra các hình ảnh trung gian thể hiện sự tiến triển từ một chủng tộc này sang chủng tộc khác (xem hình ảnh ví dụ trên).

Consistent với công việc trước đây, các nhà nghiên cứu biến dạng khuôn mặt của những người tự xác định là da đen, châu Á và Latino trong tập dữ liệu thành khuôn mặt của những người tự xác định là da trắng. Mười chín giai đoạn trung gian được tạo ra trong quá trình này. Tổng cộng 21.000 hình ảnh 1024x1024px được tạo ra cho dự án bằng phương pháp này.

Các nhà nghiên cứu sau đó nhận được một nhúng hình ảnh dự án cho CLIP cho mỗi trong số 21 hình ảnh trong mỗi tập biến dạng chủng tộc. Sau đó, họ yêu cầu một nhãn cho mỗi hình ảnh từ CLIP: ‘đa chủng tộc’, ‘lai’, ‘hỗn hợp chủng tộc’, và ‘người’ (nhãn cuối cùng bỏ qua chủng tộc).

Phiên bản CLIP được sử dụng là CLIP-ViT-Base-Patch32 thực hiện. Các tác giả lưu ý rằng mô hình này được tải xuống hơn một triệu lần trong tháng trước khi viết lên nghiên cứu của họ, và chiếm 98% tải xuống của bất kỳ mô hình CLIP nào từ Thư viện Transformers.

Thử nghiệm

Để kiểm tra xu hướng tiềm năng của CLIP đối với hypodescent, các nhà nghiên cứu lưu ý nhãn chủng tộc được CLIP chỉ định cho mỗi hình ảnh trong gradient của hình ảnh biến dạng cho mỗi cá nhân.

Theo phát hiện, CLIP có xu hướng nhóm người trong các thể loại ‘thiểu số’ ở khoảng điểm chuyển tiếp 50%.

Ở tỷ lệ trộn 50%, nơi chủ thể là đồng đều chủng tộc gốc / đích, CLIP liên kết một số lượng lớn hơn 1000 hình ảnh biến dạng nữ với nhãn châu Á (89,1%), Latina (75,8%) và da đen (69,7%) hơn là với nhãn Trắng tương đương.

Kết quả cho thấy rằng các đối tượng nữ có nhiều khả năng bị hypodescent dưới CLIP hơn nam giới, mặc dù các tác giả suy đoán rằng điều này có thể là do các nhãn web-derived và không được kiểm duyệt mà đặc trưng cho hình ảnh nữ có xu hướng nhấn mạnh ngoại hình của đối tượng hơn so với trường hợp của nam giới, và điều này có thể có một hiệu ứng lệch.

Hypodescent ở điểm chuyển tiếp chủng tộc 50% không được quan sát thấy đối với loạt biến dạng nam giới châu Á – Trắng hoặc Latino – Trắng, trong khi CLIP gán một sự tương đồng cosine cao hơn cho nhãn da đen trong 67,5% số trường hợp ở tỷ lệ trộn 55%.

Tương đồng cosine trung bình của các nhãn Đa chủng tộc, Lai và Hỗn hợp chủng tộc. Kết quả cho thấy CLIP hoạt động một loại ‘ngưỡng’ phân loại ở các tỷ lệ trộn khác nhau, ít khi gán một sự pha trộn chủng tộc như vậy cho Trắng (‘người’, trong lý do của các thí nghiệm) hơn là cho dân tộc được nhận thức trong hình ảnh.

Mục tiêu lý tưởng, theo bài báo, là CLIP sẽ phân loại các hỗn hợp chủng tộc trung gian một cách chính xác thành ‘hỗn hợp chủng tộc’, thay vì xác định một ‘điểm chuyển tiếp’ tại đó chủ thể được giao toàn bộ cho nhãn không phải Trắng.

Đến một mức độ nhất định, CLIP thực sự gán các bước biến dạng trung gian với Hỗn hợp chủng tộc (xem đồ thị trên), nhưng cuối cùng thể hiện một sự ưu tiên trung gian để phân loại chủ thể theo chủng tộc thiểu số đóng góp của họ.

Về valence, các tác giả lưu ý sự phán xét lệch của CLIP:

‘[Trung bình] sự liên kết valence (liên kết với ‘xấu’ hoặc ‘không dễ chịu’ so với ‘tốt’ hoặc ‘dễ chịu’) thay đổi với tỷ lệ trộn trên loạt biến dạng nam giới da đen – Trắng, sao cho CLIP mã hóa các liên kết với sự không dễ chịu cho những khuôn mặt giống nhất với các tình nguyện viên CFD tự xác định là da đen.’

Kết quả valence – các thử nghiệm cho thấy rằng các nhóm thiểu số được liên kết nhiều hơn với các khái niệm tiêu cực trong kiến trúc hình ảnh / cặp hơn là đối với các đối tượng được gắn nhãn Trắng. Các tác giả khẳng định rằng sự liên kết không dễ chịu của một hình ảnh tăng lên với khả năng mô hình liên kết hình ảnh với nhãn da đen.

Bài báo tuyên bố:

‘Bằng chứng cho thấy rằng valence của một hình ảnh tương quan với liên kết chủng tộc. Cụ thể hơn, kết quả của chúng tôi cho thấy rằng sự chắc chắn của mô hình rằng một hình ảnh phản ánh một cá nhân da đen, sự liên kết không dễ chịu của hình ảnh đó tăng lên.’

Tuy nhiên, kết quả cũng cho thấy một sự tương quan tiêu cực trong trường hợp của khuôn mặt châu Á. Các tác giả đề xuất rằng điều này có thể là do sự truyền qua (qua dữ liệu web-derived) của nhận thức văn hóa tích cực của người Mỹ về người châu Á và cộng đồng, và các tác giả tuyên bố*:

‘Quan sát một sự tương quan giữa sự dễ chịu và xác suất của nhãn văn bản châu Á có thể tương ứng với khuôn mẫu ‘thiểu số mẫu mực’, trong đó người châu Á được khen ngợi vì sự di chuyển lên và hòa nhập vào văn hóa Mỹ, và thậm chí liên kết với “hành vi tốt”.’

Về mục tiêu cuối cùng, để kiểm tra xem Trắng có phải là ‘đặc điểm mặc định’ từ quan điểm của CLIP hay không, kết quả cho thấy một cực tính nhúng, gợi ý rằng dưới kiến trúc này, nó khá khó để ‘một chút trắng’.

Tương đồng cosine trên 21.000 hình ảnh được tạo ra cho các thử nghiệm.

Các tác giả bình luận:

‘Bằng chứng cho thấy rằng CLIP mã hóa Trắng là một chủng tộc mặc định. Điều này được hỗ trợ bởi sự tương quan mạnh hơn giữa các tương đồng cosine Trắng và người so với bất kỳ nhóm chủng tộc hoặc dân tộc nào khác.’

*Chuyển đổi của tôi của các trích dẫn nội tuyến của tác giả thành siêu liên kết.

Được xuất bản lần đầu tiên vào ngày 24 tháng 5 năm 2022.

Related Topics:AI bias Bias image synthesis research

Martin Anderson

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]

Unite.AI

Thử thách ‘Phân loại Chủng tộc’ cho Hệ thống Tổng hợp Hình ảnh Dựa trên CLIP

CLIP và Ảnh hưởng Xấu

Phương pháp và Dữ liệu

Thử nghiệm

You may like