부본 CLIP 기반 이미지 합성 시스템을 위한 '인종 분류' 챌린지 - Unite.AI
Rescale 미팅 예약

인공 지능

CLIP 기반 이미지 합성 시스템을 위한 '인종 분류' 챌린지

mm
업데이트 on

미국의 새로운 연구에 따르면 많은 호평을 받은 DALL-E 시리즈와 다른 많은 이미지 생성 및 분류 모델 뒤에 있는 인기 있는 컴퓨터 비전 모델 중 하나가 다음과 같은 경향이 있음이 입증되었습니다. 하강 – 인종 분류 규칙(또는 '한 방울' 규칙) 약간의 '혼합'(즉, 백인이 아닌) 유전적 혈통을 가진 사람을 완전히 '소수' 인종 분류로 분류합니다.

하강이 있기 때문에 특징 인류 역사에서 가장 추악한 챕터 중 일부인 새 논문의 저자는 컴퓨터 비전 연구 및 구현의 이러한 경향이 더 큰 관심을 받아야 한다고 제안합니다. 다운스트림 프레임워크에서 인종적 편견을 공표합니다.

새로운 작업에서 연구되는 아키텍처는 대조 언어 이미지 사전 훈련 (CLIP), 인터넷에서 가져온 이미지/캡션 쌍에 대한 훈련을 통해 의미론적 연관성을 학습하는 다중 모드 기계 학습 모델 – 라벨링 비용을 상당히 줄여주는 준지도 방식이지만, 이는 사람들의 편견을 반영할 가능성이 높습니다. 캡션을 만들었습니다.

논문에서 :

'우리의 결과는 여성의 이미지에 더 강하게 적용되는 편향인 CLIP 임베딩 공간에서 저혈압에 대한 증거를 제공합니다. 결과는 CLIP이 흰색과의 편차를 기반으로 이미지를 인종 또는 민족 레이블과 연결하고 흰색을 기본값으로 지정함을 추가로 나타냅니다.

이 논문은 또한 이미지의 원자가 연관성('좋은' 또는 '나쁜' 것과 연관되는 경향이 있으며 백인 라벨보다 '소수자' 인종 라벨에서 특히 더 높으며 CLIP의 편향이 미국 중심 코퍼스를 반영함을 시사합니다. 프레임워크가 훈련된 문헌(영어 위키백과).

저자는 CLIP의 명백한 저산소 지원의 의미에 대해 언급하면서* 다음과 같이 말합니다.

'[중] CLIP의 첫 번째 용도는 제로샷 이미지 생성 모델을 훈련하는 것이었습니다. DALL-E. CLIP 아키텍처의 더 큰 비공개 버전이 교육에 사용되었습니다. 달-이 2. 현재 연구 결과에 따라 DALL-E 2 모델 카드에 설명된 위험 및 제한 사항 주의 "화이트 패스하는 사람들을 과장하는 경향이 있는 이미지를 생성합니다."

'이러한 사용은 CLIP의 기능이 다른 최첨단 AI 모델에서 의미론의 형성을 안내하는 데 사용되기 때문에 CLIP이 학습한 편향이 모델의 임베딩 공간을 넘어 확산될 가능성을 보여줍니다.

'게다가 제로 샷 설정에서 이미지와 텍스트를 연결하기 위한 CLIP 및 유사한 모델에 의해 실현된 진보로 인해 다중 모드 아키텍처는 기술 된 검색 엔진을 포함하여 널리 사용되는 인터넷 응용 프로그램의 미래를 위한 기반으로

'우리의 결과는 이러한 모델이 자연어 감독에서 배우는 것에 대한 추가적인 관심이 필요하다는 것을 나타냅니다.'

XNUMXD덴탈의 종이 제목이 Visual Semantic AI의 Hypodescent에 대한 증거, 그리고 워싱턴 대학과 하버드 대학의 세 명의 연구원이 제공합니다.

CLIP과 나쁜 영향

연구원들은 그들의 작업이 CLIP에서 저하강에 대한 첫 번째 분석임을 증명하지만, 이전 작업에서는 CLIP 워크플로가 과소 선별 웹 파생 데이터, 여성을 과소 대표, 생산할 수 있습니다 불쾌감을주는 콘텐츠, 그리고 증명할 수 있습니다 의미 편향 (예: 반무슬림 정서) 이미지 인코더에서.

CLIP을 제시한 원본 논문은 제로샷 설정에서 CLIP이 58.3%의 사람들만 백인 인종 레이블과 연관시킨다고 인정했습니다. 페어페이스 데이터 세트. FairFace가 Amazon Mechanical Turk 노동자에 의해 가능한 편견으로 분류된 것을 관찰하면서 새 논문의 저자는 '다른 인간이 백인으로 인식하는 상당한 소수의 사람들이 CLIP에 의해 백인 이외의 인종과 관련이 있습니다.'라고 말합니다.

계속:

'FairFace 데이터 세트에서 다른 인종 또는 민족 레이블에 속하는 것으로 인식되는 개인이 CLIP에 의해 해당 레이블과 연결되므로 그 반대는 사실이 아닌 것으로 보입니다. 이 결과는 CLIP이 사회 과학자들이 설명하는 "저소생"의 규칙을 학습했을 가능성을 시사합니다. 또는 유리한 부모 그룹.

'즉, 흑인과 백인 부모의 자녀는 백인보다 흑인으로 더 많이 인식됩니다. 그리고 아시아인과 백인 부모 사이에서 태어난 아이는 백인보다 더 아시아인으로 인식됩니다.'

이 논문은 세 가지 핵심 발견 사항을 가지고 있습니다. CLIP은 다인종 정체성을 가진 사람들을 그들에게 적용되는 소수 기여 인종 범주로 '모으는' 방식으로 저혈통을 증명합니다. '백인은 CLIP의 기본 인종'이며, 경쟁하는 인종은 백인 범주에서 '편차'로 정의됩니다. 그리고 그 원자가 편향 ('나쁜' 개념과의 연관성)은 개인이 소수 인종으로 분류되는 정도와 관련이 있습니다.

방법 및 데이터

CLIP이 다인종 피험자를 다루는 방식을 확인하기 위해 연구원들은 이전에 채택된 개인의 이미지 인종을 변경하는 모핑 기술. 사진은 네이버에서 가져왔습니다 시카고 얼굴 데이터베이스, 인종과 관련된 심리학 연구를 위해 개발된 세트.

새 논문의 보충 자료에 등장하는 인종적으로 변형된 CFD 이미지의 예. 출처: https://arxiv.org/pdf/2205.10764.pdf

새 논문의 보충 자료에 등장하는 인종적으로 변형된 CFD 이미지의 예. 에스출처: https://arxiv.org/pdf/2205.10764.pdf

연구자들은 이전 작업과 일관성을 유지하기 위해 데이터 세트에서 '중립적인 표현' 이미지만 선택했습니다. 그들은 Generative Adversarial Network를 사용했습니다. 스타일GAN2-ADA (훈련 FFHQ) 얼굴 이미지의 인종 변경을 수행하고 한 인종에서 다른 인종으로의 진행을 보여주는 전면 광고 이미지를 만들었습니다(위의 예시 이미지 참조).

이전 작업과 일관되게 연구자들은 데이터 세트에서 흑인, 아시아인 및 라틴계로 스스로 식별한 사람들의 얼굴을 자신을 백인으로 분류한 사람들의 얼굴로 변형했습니다. 이 과정에서 21,000개의 중간 단계가 생성됩니다. 총 1024개의 1024xXNUMXpx 이미지가 이 방법으로 프로젝트에 생성되었습니다.

그런 다음 연구원들은 각 인종 모프 세트의 총 21개 이미지 각각에 대해 CLIP에 대한 투사된 이미지 임베딩을 얻었습니다. 그 후 그들은 CLIP에서 각 이미지에 대한 레이블을 요청했습니다.

사용된 CLIP 버전은 CLIP-ViT-Base-Patch32 구현. 저자는 이 모델이 연구를 작성하기 전 한 달 동안 백만 번 이상 다운로드되었으며, 전체 CLIP 모델 다운로드의 98%를 차지한다고 언급했습니다. 변압기 라이브러리.

테스트

CLIP의 잠재적인 저산소 성향을 테스트하기 위해 연구자들은 CLIP이 각 개인에 대한 모핑된 이미지의 기울기에서 각 이미지에 할당한 인종 레이블에 주목했습니다.

조사 결과에 따르면 CLIP은 약 50% 전환 표시에서 '소수자' 범주의 사람들을 그룹화하는 경향이 있습니다.

50% 혼합 비율에서 대상이 동일한 출신/대상 인종인 경우 CLIP은 더 많은 1000개의 변형된 여성 이미지를 아시아인(89.1%), 라틴계(75.8%) 및 흑인(69.7%) 레이블과 연관시킵니다. 화이트 라벨.

50% 혼합 비율에서 대상이 동일한 출신/대상 인종인 경우 CLIP은 더 많은 1000개의 변형된 여성 이미지를 아시아인(89.1%), 라틴계(75.8%) 및 흑인(69.7%) 레이블과 연관시킵니다. 화이트 라벨.

결과는 여성 피사체가 남성보다 CLIP에서 저체온에 빠지기 쉽다는 것을 보여줍니다. 저자는 이것이 여성 이미지를 특징 짓는 웹 파생 및 큐레이팅되지 않은 레이블이 남성의 경우보다 피사체의 외모를 더 강조하는 경향이 있기 때문일 수 있다고 가정합니다. 왜곡 효과가 있을 수 있습니다.

50% 인종 전환에서 저혈압은 아시아계 백인 남성 또는 라틴계 백인 남성 모프 시리즈에서 관찰되지 않았지만 CLIP은 67.5% 혼합 비율에서 55%의 사례에서 Black 레이블에 더 높은 코사인 유사성을 할당했습니다.

다인종, 혼혈 및 혼혈 레이블의 평균 코사인 유사성입니다. 결과는 CLIP이 다양한 비율의 인종 혼합에서 일종의 '유역' 분류를 운영하며, 그러한 인종 혼합을 백인(실험의 이론적 근거에서 '사람')에 할당하는 경우가 더 적다는 것을 나타냅니다. 이미지.

다인종, 혼혈 및 혼혈 레이블의 평균 코사인 유사성입니다. 결과는 CLIP이 다양한 비율의 인종 혼합에서 일종의 '유역' 분류를 운영하며, 그러한 인종 혼합을 백인(실험의 이론적 근거에서 '사람')에 할당하는 경우가 더 적다는 것을 나타냅니다. 이미지.

논문에 따르면 이상적인 목표는 CLIP이 주제가 완전히 비백인 라벨에 자주 위탁되는 '티핑 포인트'를 정의하는 대신 중간 인종 혼합을 '혼혈'로 정확하게 분류하는 것입니다.

CLIP은 어느 정도 혼혈인으로 중간 모프 단계를 할당하지만(위의 그래프 참조) 결국 주제를 소수 민족 기여 인종으로 분류하는 중간 범위 선호도를 보여줍니다.

원자가 측면에서 저자는 CLIP의 왜곡된 판단에 주목합니다.

'[평균] 원자가 연관성(나쁨 또는 불쾌함과의 연관성 대 좋음 또는 유쾌함과의 연관성)은 흑백 남성 모프 시리즈에 대한 혼합 비율에 따라 달라집니다. -흑인으로 식별합니다.'

원자가 결과 – 테스트는 소수 그룹이 화이트 라벨이 붙은 주제보다 이미지/쌍 아키텍처에서 부정적인 개념과 더 관련이 있음을 보여줍니다. 저자는 모델이 이미지를 블랙 라벨과 연관시킬 가능성이 높을수록 이미지의 불쾌함 연관이 증가한다고 주장합니다.

원자가 결과 – 테스트는 소수 그룹이 화이트 라벨이 붙은 주제보다 이미지/쌍 아키텍처에서 부정적인 개념과 더 관련이 있음을 보여줍니다. 저자는 모델이 이미지를 블랙 라벨과 연관시킬 가능성이 높을수록 이미지의 불쾌함 연관이 증가한다고 주장합니다.

논문은 다음과 같이 말합니다.

'증거는 이미지의 원자가가 인종적 [연관]과 상관관계가 있음을 나타냅니다. 보다 구체적으로, 우리의 결과는 모델이 이미지가 흑인 개인을 반영한다는 것이 더 확실할수록 이미지가 있는 불쾌한 임베딩 공간과 더 관련이 있음을 나타냅니다.'

그러나 결과는 동양인 얼굴의 경우에도 음의 상관관계를 나타냅니다. 저자는 이것이 아시아인과 커뮤니티에 대한 미국의 긍정적인 문화적 인식이 (웹 소스 데이터를 통해) 통과되었기 때문일 수 있다고 제안합니다. 저자 상태*:

'아시아 텍스트 라벨의 유쾌함과 개연성 사이의 상관관계를 관찰하는 것은 '모범 소수자' 고정관념에 해당할 수 있습니다. "좋은 행동"과 관련된.'

최종 목표와 관련하여 CLIP의 관점에서 흰색이 '기본 아이덴티티'인지 조사하기 위해 결과는 내재된 극성을 나타내며 이 아키텍처에서는 '조금 흰색'이 되기가 다소 어렵다는 것을 암시합니다.

테스트를 위해 생성된 21,000개 이미지의 코사인 유사성.

테스트를 위해 생성된 21,000개 이미지의 코사인 유사성.

저자는 다음과 같이 논평합니다.

'증거는 CLIP이 기본 인종으로 백인을 인코딩한다는 것을 나타냅니다. 이는 다른 어떤 인종 또는 민족 그룹보다 화이트 코사인 유사성과 개인 코사인 유사성 사이의 더 강한 상관관계에 의해 뒷받침됩니다.'

 

*저자의 인라인 인용을 하이퍼링크로 변환했습니다.

24년 2022월 XNUMX일에 처음 게시되었습니다.