인공지능

‘보이지 않는’, 종종 불행한 노동력은 AI의 미래를 결정하고 있다

Published December 13, 2021

Updated April 28, 2026

Martin Anderson

두 개의 새로운 보고서, 구글 리서치가 주도하는 보고서 포함, 기계 학습 시스템의 기초 사실을 만들기 위해 저렴하고 종종 권한이 없는 글로벌 기그 노동자 풀에 의존하는 현재의 추세는 AI에 주요한 하류 영향이 있을 수 있다는 우려를 표현한다.

다양한 결론 중에서, 구글 연구는 크라우드 워커들의 편향이 AI 시스템에 내재될 가능성이 높으며, 이러한 시스템의 기초 사실은 그들의 응답에 기반할 것이라고 발견한다. 또한 미국을 포함한 크라우드 워킹 플랫폼에서広く 퍼진 불공정한 노동 관행은 응답의 품질을 저하할 수 있으며, 현재의 ‘합의’ 시스템은 실제로 최고의 응답이나 가장 정보가 많은 응답을 버릴 수 있다.

그것이 나쁜 소식이다. 더 나쁜 소식은几乎 모든 해결책이 비용이 많이 들거나 시간이 많이 걸리거나 둘 다라는 것이다.

불안정성, 임의적인 거부, 그리고 불만

첫 번째 보고서, 5명의 구글 연구자에 의해 작성된 보고서는 누구의 기초 사실인가? 데이터셋 주석에 대한 개인 및 집단 정체성에 대한 설명이라고 불린다. 두 번째 보고서, 뉴욕의 시러큐스 대학교의 2명의 연구자에 의해 작성된 보고서는 데이터 라벨러 간의 불일치의 기원 및 가치: 증오 언어 주석의 개인 차이에 대한 사례 연구라고 불린다.

구글 보고서는 크라우드 워커들이 종종 다양한 제약 조건하에서 작동한다는 것을 지적한다. 예를 들어, 아마존 메카니컬 터크의 현재 정책은 요청자(과제를 주는 사람)가 설명이나 책임 없이 크라우드 워커의 작업을 거부할 수 있도록 허용한다:

‘크라우드 워커の大多数 (94%)는 거부되거나 비용이 지불되지 않은 작업을 경험했습니다. 그러나 요청자는 작업을 수락하거나 거부하는 경우에도 받은 데이터에 대한 모든 권리를 유지합니다. 로버츠(2016)는 이 시스템을 “임금 도둑”이라고 설명합니다.

‘또한, 작업을 거부하고 급여를 지불하지 않는 것은 고통스럽습니다. 왜냐하면 거부는 종종 불분명한 지침과 유의미한 피드백 채널의 부족으로 인해 발생하기 때문입니다. 많은 크라우드 워커들은 부적절한 의사 소통이 작업에 부정적인 영향을 미친다고 보고합니다.’

연구자들은 데이터셋을 개발하기 위해 아웃소싱 서비스를 사용하는 연구자들이 크라우드 워킹 플랫폼이 노동자를 어떻게 대우하는지 고려해야 한다고 추천한다. 또한 미국에서 크라우드 워커들은 ‘독립 계약자’로 분류되며, 따라서 최소 임금법에 의해 규제되지 않는다고 지적한다.

맥락이 중요하다

보고서는 또한 주석 작업을 위한 임시 글로벌 노동의 사용을 비판한다. 주석자의 배경을 고려하지 않고 작업을 수행한다는 것이다.

예산이 허용하는 경우, 연구자들은 아마존 메카니컬 터크와 같은 크라우드 워크 플랫폼을 사용하여 작업을 4명의 주석자에게 주고, 결과에 대한 ‘다수결’을 따른다.

맥락적 경험은 보고서에서 특히 간과된다고 주장한다. 예를 들어, 성별歧視과 관련된 작업 질문이 18-57세의 3명의 남성과 29세의 1명의 여성에게 임의로 분배되는 경우, 남성의 의견이 승리한다. 그러나 연구자들이 주석자의 자격을 고려하는 경우는 드물다.

마찬가지로, 시카고의 갱 행위와 관련된 질문이 미국 시골의 36세 여성, 시카고의 42세 남성, 그리고 방갈로르와 덴마크의 2명의 주석자에게 분배되는 경우, 문제에 가장 영향을 받을 가능성이 높은 사람(시카고의 남성)은 표준 아웃소싱 구성에서 결과에 대한 1/4의 지분만을 보유한다.

연구자들은 다음과 같이 말한다:

‘크라우드소싱 응답에서 ‘하나의 진리’라는 개념은 신화이다. 주석자 간의 불일치는 종종 부정적인 것으로 간주되지만, 실제로 유용한 신호를 제공할 수 있다. 또한, 많은 크라우드소싱 주석자 풀은 사회 인구 통계적으로 왜곡되어 있으므로, 데이터셋에 대표되는 인구와 크라우드 워크의 도전에 직면하는 인구에 대한 의미가 있다.’

‘주석자 демограф적 특성의 왜곡을 고려하는 것은 데이터셋을 맥락화하고 책임 있는 하류 사용을 보장하기 위해 중요하다. 간단히 말해서, 작업자의 사회 문화적 배경을 인정하고 고려하는 데 가치가 있다. 데이터 품질과 사회적 영향의 관점에서 모두 그렇다.’

뜨거운 주제에 대한 ‘중립적’ 의견은 없다

4명의 주석자의 의견이 демограф적으로나 다른 척도에 따라 편향되지 않은 경우에도, 구글 보고서는 연구자들이 주석자의 생활 경험이나 철학적 성향을 고려하지 않고 있다는 우려를 표한다:

‘일부 작업은 객관적인 질문을 제기하며 정답이存在한다(이미지에 사람의 얼굴이 있는가?). 그러나 종종 데이터셋은 상대적으로 주관적인 작업에 대한 판단을 캡처하려고 한다(이 텍스트는 공격적이다?). 주석자의 주관적인 판단을 의존하는지에 대한 의도적인 결정이 중요하다.’

시러큐스 보고서는 증오 언어 주석의 문제를 해결하기 위한 자신의 범위에 대해, 더 카테고리적인 질문들, 예를 들어 “이 사진에 고양이가 있는가?”는 “이 구절은 유독한가?”라는 질문과 다르다고 주장한다:

‘사회적 현실의 복잡성을 고려하여, 사람들의 유독성에 대한 인식은 크게 다르다. 그들의 유독성 레이블은 자신의 인식에 기반한다.’

성격과 나이가 증오 언어의 차원 레이블링에重大한 영향을 미친다는 것을 발견한 시러큐스 연구자들은 다음과 같이 결론을 내린다:

‘이 발견은 증오 언어에 대한 레이블러 간의 일치성을 달성하기 위한 노력은 결코 완전히 성공하지 못할 수 있다.’

판정관도 편향될 수 있다

이 객관성의 부족은 시러큐스 보고서에 따르면 위로 반복될 가능성이 있으며, 합의 투표의 ‘승자’를 결정하는 수동적인 개입(또는 자동화된 정책, 또한 인간에 의해 결정됨)이 검토를 받아야 한다고 주장한다.

포럼 모더레이션과 유사한 이 과정에 대해 저자들은 다음과 같이 말한다:

‘커뮤니티의 모더레이터는 게시물을 승인하거나 숨기거나 사용자를 명예롭게 하거나 수치스럽게 하거나 금지함으로써 게시물을 승인하거나 숨기거나 사용자의 운명을 결정할 수 있다. 모더레이터의 결정은 커뮤니티 구성원과 청중에게 전달되는 콘텐츠와 커뮤니티의 토론 경험에 영향을 미친다.’

‘모더레이터가 커뮤니티 구성원과 인구 통계적으로 동질적인 경우, 그들이 콘텐츠를 평가하기 위해 사용하는 정신적 스키마는 다른 커뮤니티 구성원의 그것과 일치할 가능성이 있다.’

이것은 시러큐스 연구자들이 증오 언어 주석의 미래에 대해如此 비관적인 결론에 도달한 이유를 일부 설명한다. 즉, 랜덤하게 적용되는 ‘합의’ 원칙에 따라 크라우드 워크 의견에 대한 분쟁을 해결하는 정책과 판단은 단순히 ‘적용 가능한’ 원칙에 따라 적용될 수 없다.

의사 결정자를 구성하는 사람들(크라우드 워커)은 편향되어 있으며, 이러한 작업에 유용하기 위해서는 편향되어야 한다. 크라우드 워크 결과에 대한 분쟁을 심판하는 사람들은 또한 분쟁에 대한 정책을 설정함으로써 가치 판단을 하고 있다.

증오 언어 감지 프레임워크에는 수백 개의 정책이 있을 수 있으며, 각 정책을 최고재판소까지 가져가지 않는 한, ‘권위적인’ 합의는 어디에서 비롯될 수 있을까?

구글 연구자들은 다음과 같이 제안한다: ‘주석자 간의 불일치는 작업에 대한 유용한 세부 사항을 내포할 수 있다.’ 보고서는 데이터셋에 대한 메타데이터를 사용하여 분쟁을 반영하고 맥락화하는 것을 제안한다.

그러나 이러한 맥락 특정 데이터 레이어가 어떻게 동일한 메트릭스, 확립된 표준 테스트의 요구 사항, 또는 어떤 결정적인 결과를 지원할 수 있는지 이해하기는 어렵다. 동일한 연구 그룹을 이후의 작업에 걸쳐 사용하는 비현실적인 시나리오를 제외하고는 말이다.

주석자 풀의 큐레이션

모두 이것은 연구 프로젝트에 다중 주석이 있는 합의 투표를 위한 예산이 있다는 가정하에 이루어진다. 많은 경우에, 연구자들은 더 저렴하게 주석자 풀을 ‘큐레이션’하려고 한다. 즉, 작업자들이 갖추어야 할 특성, 즉 지리적 위치, 성별 또는 기타 문화적 요인을 지정한다. 다양성을 특이성으로 교환한다.

구글 보고서는 이러한 도전을 극복하는 방법은 주석자와의 확장된 커뮤니케이션 프레임워크를 설정하는 것일 수 있다고 주장한다. 이는 우버 앱이 운전자와 승객 사이에서 제공하는 최소한의 커뮤니케이션과 유사하다.

주석자에 대한 이러한 주의 깊은 고려는 자연스럽게 대규모 아웃소싱에 장애물이 될 것이며, 결과적으로 더 제한적이고 저용량의 데이터셋이 생성될 가능성이 높으며, 이러한 데이터셋은 결과에 대한 더 나은 이유를 갖게 될 것이다. 또는 주석자에 대한 정보를 얻는 데 시간과 비용이 많이 들 수 있다.

그것은 주석자가 정직하다는 가정하에 그렇다.

아웃소싱 데이터셋 레이블링의 ‘사람들을 기쁘게 하는’ 사람들

최저 임금의 40% 미만을 받는 것으로 나타난 아마존 메카니컬 터크와 같은 작업력, 작업할 수 있는 과제에 대한 심한 경쟁, 그리고 희박한 경력 전망으로 인해 주석자는 빠르게 ‘올바른’ 답을 제공하고 다음 미니 과제로 이동하도록 동기부여된다.

‘올바른 답’이 ‘고양이/고양이 없음’보다 더 복잡한 경우, 시러큐스 보고서는 작업자가 질문의 내용과 맥락에 따라 ‘받아들일 수 있는’ 답을 추론하려고 시도할 것이라고 주장한다:

‘대안적 개념화의 普及과 단순한 주석 방법의 광범위한 사용은 온라인 증오 언어 연구의 진행을 방해하는 것으로 논의될 수 있다. 예를 들어, 로스 등은 트위터의 증오 언어 정의를 주석자에게 보여주면 그들이 자신의 의견을 정의와 부분적으로 일치시키도록 유도한다는 것을 발견했다. 이 재정렬은 주석의 매우 낮은 상관 계수를 초래했다.’

* 보고서의 인라인 인용을 하이퍼링크로 변환한 것.

2021년 12월 13일 게시 – 2021년 12월 18일 업데이트: 태그 추가