인공지능

영향력 있는 데이터셋의 카르텔이 기계 학습 연구를 지배하고 있다, 새로운 연구가 제안한다

Published December 6, 2021

Updated April 28, 2026

Martin Anderson

캘리포니아 대학교와 Google Research의 새로운 논문은 기계 학습 데이터셋 중에서 서양 기관에서 나온 영향력 있는 벤치마크 데이터셋이 기계 학습 연구 분야를 점점 지배하고 있다고 발견했다. 연구자들은 ImageNet과 같은 인기 있는 오픈 소스 데이터셋을 사용하는 경향이 실제적인, 윤리적인, 그리고 정치적인 문제를引き起こ을 수 있다고 결론지었다. 연구자들은 Facebook이 주도하는 커뮤니티 프로젝트인 Papers With Code(PWC)의 핵심 데이터를 기반으로 Widely-used 데이터셋은 소수의 엘리트 기관에서 소개된다고 주장하며, 이러한 집중화는 최근 몇 년 동안 80%로 증가했다고 밝혔다.

‘전세계적으로 데이터셋 사용에 대한 불평등이 증가하고 있으며, 우리의 43,140 샘플 중 50% 이상의 데이터셋 사용은 12개의 엘리트 기관, 주로 서양 기관에서 소개된 데이터셋에 해당한다는 것을 발견했다.’

이미지 생성과 얼굴 인식 연구 커뮤니티에서 사용되는 상위 데이터셋.

위 그래프에서, 연구자들은 상대적으로 최근의 이미지 생성(또는 이미지 합성) 분야가 기존의 더 오래된 데이터셋에 크게 의존하고 있음을 알 수 있다.
이 논문은 데이터셋이 점점 더 자주 의도된 목적에서 벗어나 사용되는 경향이 증가하고 있으며, 이는 새로운 또는 외곽 연구 분야의 요구에 대한 적합성을 의문시하게 만든다. 또한 예산 제약이 연구자의雄心을 더 좁은 범위로 제한할 수 있다.

‘우리의 발견은 또한 데이터셋이 일반적으로 다른 작업 커뮤니티로 이전됨을 나타낸다. 가장 극단적인 경우, 일부 작업 커뮤니티에서 순환하는 벤치마크 데이터셋의 대부분은 다른 작업을 위해 생성되었다.’

最近 몇 년 동안 기계 학습의 주요 인물들(Andrew Ng를 포함하여)이 데이터셋의 다양성과 큐레이션을 더 강조해 왔다는 점에 대해, 연구자들은 이러한 의견에 동의하지만, 이러한 노력은 현재의 문화에 대한 의존도와 기존 데이터셋에 대한 의존도가 너무 강하기 때문에 성공할 수 없을 것이라고 믿는다:

‘우리의 연구는 단순히 기계 학습 연구자들이 더 많은 데이터셋을 개발하도록 촉구하고, 인센티브 구조를 변경하여 데이터셋 개발이 가치 있게 되도록 하는 것이 데이터셋 사용과 연구 의제를 형성하는 관점의 다양화를 달성하기에 충분하지 않을 수 있다고 제안한다. ‘

‘데이터셋 개발을 촉구하는 것 외에도, 우리는 자원에 부족한 기관의 사람들이 높은 품질의 데이터셋을 생성할 수 있도록 상당한 자금을 지원하는 평등 지향적 정책 개입을 주장한다. 이것은 사회적 및 문화적 관점에서 사용되는 벤치마크 데이터셋을 다양화하고, 궁극적으로 기계 학습 연구 의제를 형성하는 관점을 다양화할 것이다.’