부본 컴퓨터 과학자, AI의 편향 문제 해결 - Unite.AI
Rescale 미팅 예약

인공 지능

컴퓨터 과학자들이 AI의 편향 문제를 해결하다

업데이트 on

Princeton과 Stanford University의 컴퓨터 과학자들은 현재 인공 지능(AI)의 편견 문제 해결. 그들은 사람의 이미지가 포함된 보다 공정한 데이터 세트를 만드는 방법을 연구하고 있습니다. 연구원들은 13만 개 이상의 이미지로 구성된 데이터베이스인 ImageNet과 긴밀히 협력하고 있습니다. 지난 XNUMX년 동안 ImageNet은 컴퓨터 비전의 발전을 도왔습니다. 연구진은 그들의 방법을 사용하여 데이터베이스 개선을 권장했습니다. 

IMAGEnet 사물, 풍경, 사람의 이미지가 포함됩니다. 이미지를 분류하는 기계 학습 알고리즘을 만드는 연구자들은 ImageNet을 데이터 소스로 사용합니다. 데이터베이스의 규모가 크기 때문에 자동화된 이미지 수집과 크라우드소싱 이미지 주석이 필요했습니다. 이제 ImageNet 팀은 편견과 기타 문제를 수정하기 위해 노력하고 있습니다. 이미지에는 ImageNet 구성의 의도하지 않은 결과인 사람들이 포함되는 경우가 많습니다.

Olga Russakovsky는 공동 저자이자 Princeton의 컴퓨터 과학 조교수입니다. 

"컴퓨터 비전은 이제 정말 잘 작동합니다. 즉, 모든 종류의 상황에서 모든 곳에 배포되고 있다는 의미입니다."라고 그는 말했습니다. "이것은 지금이 세상에 어떤 영향을 미치고 있는지에 대해 이야기하고 이러한 종류의 공정성 문제에 대해 생각할 때라는 것을 의미합니다."

새 문서에서 ImageNet 팀은 비시각적 개념과 공격적인 범주를 체계적으로 식별했습니다. 이러한 범주에는 인종 및 성적 특성이 포함되었으며 팀은 데이터베이스에서 해당 특성을 제거할 것을 제안했습니다. 팀은 또한 사용자가 사람의 이미지 세트를 지정하고 검색할 수 있는 도구를 개발했으며, 이 도구는 연령, 성별 표현 및 피부색별로 그렇게 할 수 있습니다. 목표는 이미지에서 사람의 얼굴과 활동을 보다 공정하게 분류하는 알고리즘을 만드는 것입니다. 

연구원들이 수행한 작업은 30월 XNUMX일 스페인 바르셀로나에서 공정성, 책임성 및 투명성에 관한 컴퓨팅 기계 협회 회의에서 발표되었습니다. 

Russakovsky는 "이러한 종류의 대화에 참여하기 위해 핵심 기술 전문 지식을 갖춘 연구원과 실험실이 매우 필요합니다."라고 말했습니다. "우리가 데이터를 대규모로 수집해야 한다는 현실을 고려할 때, 크라우드소싱이 가장 효율적이고 잘 확립된 파이프라인이기 때문에 크라우드소싱으로 수행될 것이라는 현실을 고려할 때 어떻게 하면 더 공정한 방식으로 이를 수행할 수 있을까요? 이러한 종류의 사전 함정에 빠지지 않습니까? 이 백서의 핵심 메시지는 건설적인 솔루션에 관한 것입니다.”

ImageNet은 Princeton과 Stanford의 컴퓨터 과학자 그룹에 의해 2009년에 시작되었습니다. 이는 학술 연구자 및 교육자를 위한 리소스 역할을 하기 위한 것이었습니다. 이 시스템의 생성은 Princeton 동문과 Fei-Fei Li 교수진이 주도했습니다. 

ImageNet은 크라우드소싱을 사용하여 레이블이 지정된 이미지의 대규모 데이터베이스가 될 수 있었습니다. 사용된 주요 플랫폼 중 하나는 MTurk(Amazon Mechanical Turk)였으며 직원은 후보 이미지를 확인하기 위해 급여를 받았습니다. 이로 인해 몇 가지 문제가 발생했으며 많은 편견과 부적절한 분류가 있었습니다. 

수석 저자 Kaiyu Yang은 컴퓨터 과학 대학원생입니다. 

그는 “대다수의 후보자 중에서 올바른 이미지를 선택해 이미지 검증을 요청하면 사람들은 일부 이미지를 선택해야 한다는 압박감을 느끼며 그 이미지는 독특하거나 정형화된 이미지가 되는 경향이 있다”고 말했다. 

연구의 첫 번째 부분은 ImageNet에서 잠재적으로 공격적이거나 민감한 사람 범주를 필터링하는 것과 관련이 있습니다. 공격적인 카테고리는 욕설이나 인종적 또는 성별 비방이 포함된 카테고리로 정의되었습니다. 그러한 민감한 범주 중 하나는 성적 취향이나 종교에 기반한 사람들의 분류였습니다. 다양한 배경을 가진 54명의 대학원생을 데려와 범주에 주석을 달고 확실하지 않은 범주에 민감한 레이블을 지정하도록 지시했습니다. 카테고리의 약 1,593% 또는 ImageNet의 2,932개 사람 카테고리 중 XNUMX개가 제거되었습니다. 

그런 다음 MTurk 작업자는 나머지 범주의 "이미지 적합성"을 1에서 5까지의 등급으로 평가했습니다. 158개의 범주가 안전하고 이미지 가능한 것으로 분류되어 등급 4 이상입니다. 이렇게 필터링된 범주 집합에는 133,000개 이상의 이미지가 포함되어 있어 컴퓨터 비전 알고리즘을 교육하는 데 매우 유용할 수 있습니다. 

연구자들은 이미지에 있는 사람들의 인구통계학적 표현을 연구하고 ImageNet의 편향 수준을 평가했습니다. 검색 엔진에서 가져온 콘텐츠는 종종 남성, 피부색이 밝은 사람, 18~40세 사이의 성인을 과장되게 나타내는 결과를 제공합니다.

Yang은“사람들은 이미지 검색 결과에서 인구 통계의 분포가 매우 편향되어 있다는 것을 알게되었으며 이것이 ImageNet의 분포도 편향된 것입니다. "이 논문에서 우리는 그것이 얼마나 편향되어 있는지 이해하고 분포의 균형을 잡는 방법을 제안하려고 노력했습니다."

연구원들은 피부색, 성별 표현 및 연령과 같은 미국 차별 금지법에 따라 보호되는 세 가지 속성을 고려했습니다. 그런 다음 MTurk 작업자는 이미지에 있는 각 사람의 각 속성에 주석을 달았습니다. 

결과는 ImageNet의 콘텐츠에 상당한 편향이 있음을 보여주었습니다. 가장 과소대표된 사람들은 피부색이 짙은 여성, 40세 이상의 성인이었습니다.

사용자가 선택한 방식으로 인구학적으로 균형 잡힌 일련의 이미지를 얻을 수 있도록 웹 인터페이스 도구가 설계되었습니다. 

Yang은 "우리는 인구 통계학적 균형을 맞추는 올바른 방법이 무엇인지 말하고 싶지 않습니다. 매우 간단한 문제가 아니기 때문입니다."라고 말했습니다. “분포는 세계의 다른 지역에서 다를 수 있습니다. 예를 들어 미국의 피부색 분포는 아시아 국가와 다릅니다. 그래서 우리는 그 질문을 사용자에게 맡기고 이미지의 균형 잡힌 하위 집합을 검색할 수 있는 도구를 제공할 뿐입니다.”

ImageNet 팀은 현재 하드웨어 및 데이터베이스에 대한 기술 업데이트 작업을 진행하고 있습니다. 그들은 또한 이 연구에서 개발된 사람 범주의 필터링과 재조정 도구를 구현하려고 노력하고 있습니다. ImageNet은 컴퓨터 비전 연구 커뮤니티의 피드백 요청과 함께 업데이트와 함께 다시 릴리스될 예정입니다. 

이 논문은 Princeton Ph.D.가 공동 저술했습니다. 학생 Klint Qinami 및 컴퓨터 과학 Jia Deng 조교수. 이 연구는 국립 과학 재단의 지원을 받았습니다.  

 

Alex McFarland는 인공 지능의 최신 개발을 탐구하는 AI 저널리스트이자 작가입니다. 그는 전 세계 수많은 AI 스타트업 및 출판물과 협력해 왔습니다.