인공지능

아마존 메카니컬 터크의 약점은 자연어 생성 시스템을 위협할 수 있다

Published September 16, 2021

Updated April 28, 2026

Martin Anderson

매사추세츠 대학교 암허스트의 새로운 연구에서 영어 교사와 아마존 메카니컬 터크의 크라우드소싱 작업자들을 자연어 생성(NLG) 시스템의 출력을 평가하는 데 대결시켰으며, 아마존 메카니컬 터크 작업자들 사이에서 느슨한 표준과 보상되는 작업의 ‘게임’이 이 분야의 개발을 방해할 수 있다는 결론을 내렸다.

이 보고서는 아마존 메카니컬 터크의 크라우드소싱 서비스를 사용하여 개방형 NLG 평가 작업을 대규모로 아웃소싱하는 것이 어떻게 열등한 결과와 알고리즘으로 이어질 수 있는지에 대한 여러 가지 비난할 수 있는 결론에 도달한다.

연구자들은 또한 아마존 메카니컬 터크를 사용하여 개방형 텍스트 생성에 대한 45개의 논문을 컴파일했으며, 그 대부분이 아마존의 크라우드 서비스 사용에 대한 중요한 세부사항을 보고하지 않아 그 논문의 결과를 재현하기 어렵다는 것을 발견했다.

스웨트샵 노동

이 보고서는 아마존 메카니컬 터크의 스웨트샵적인 성질과 이 서비스를 유효하고 일관된 연구 자원으로 사용하여 추가로 신뢰성을 부여하는(아마도 예산 제한이 있는) 학술 프로젝트를 비판한다. 저자들은 다음과 같이 주장한다:

‘아마존 메카니컬 터크는 편리하고 저렴한 해결책이지만, 우리는 높은 작업자 간 분산, 나쁨한 캘리브레이션, 그리고 인지적으로 요구되는 작업이 연구자들이 오도된 과학적 결론을 내릴 수 있음을 관찰한다(예: 인간이 작성한 텍스트가 GPT-2의 텍스트보다 “더 나쁨”이다).’

이 보고서는 게임을 비난하는 것이 아니라 플레이어를 비난하며, 연구자들은 다음과 같이 관찰한다:

‘크라우드 작업자들은 자주 노동에 대한 대가를 받지 못하며, 이는 연구의 질과 더 중요한 것은 이러한 크라우드 작업자들이 적절한 생활을 할 수 있는 능력에 모두 해를 끼친다.’

논문은 아마존 메카니컬 터크를 사용하여 개방형 텍스트 생성을 평가하는 위험이라는 제목으로, 전문가 평가자(예: 언어 교사와 언어학자)가 개방형 인공 NLG 콘텐츠를 평가하는 데 사용되어야 한다고 결론지으며, 아마존 메카니컬 터크가 더 저렴하더라도如此하다.

테스트 작업

아마존 메카니컬 터크의 성능을 전문가 판독자와 비교하면서, 연구자들은 비교 테스트에 사용된 아마존 메카니컬 터크 서비스에 144달러를 지출했으며(비록 더 많은 돈이 ‘사용할 수 없는’ 결과에 쓰였지만 – 아래 참조), 무작위로 ‘터크’들에게 200개의 텍스트 중 하나를 평가하도록 요청했으며, 이는 인간이 생성한 텍스트 콘텐츠와 인공적으로 생성된 텍스트로 나뉘었다.

전문 교사들에게 동일한 작업을 맡기는데 187.50달러가 소요되었으며, 업워크 프리랜서를 고용하여 작업을 복제하는 데 추가로 262.50달러가 소요되었다.

각 작업은 네 가지 평가 기준으로 구성되었다: 문법(‘이야기의 문법적 오류는?); 일관성(‘이야기의 문장이 잘 어울리는가?); 호감도(‘이야기가 얼마나 즐거운가?); 관련성(‘이야기가 프롬프트와 관련이 있는가?).

텍스트 생성

NLG 자료를 테스트하기 위해, 연구자들은 페이스북 AI 연구소의 2018년 계층적 신경 스토리 생성 데이터셋을 사용했으며, 이는 303,358개의 영어 스토리로 구성되어 있으며, 이는 매우 인기 있는(1500만 명 이상의 사용자) r/writingprompts 서브레딧에서 사용자들이 생성한 것으로, 서브스크라이버들의 이야기는 현재 텍스트-이미지 생성에서와 마찬가지로 단일 문장 ‘프롬프트’로 시드된다 – 그리고 물론 개방형 자연어 생성 시스템에서도如此하다.

데이터셋에서 200개의 프롬프트가 무작위로 선택되어 허깅페이스 트랜스포머 라이브러리를 사용하여 중간 크기의 GPT-2 모델로 전송되었다. 따라서 동일한 프롬프트에서 두 개의 결과 집합이 얻어졌다: 레딧 사용자들이 작성한 인간이 작성한 논문과 GPT-2 생성 텍스트.

同じ 아마존 메카니컬 터크 작업자가 동일한 이야기를 여러 번 평가하지 않도록 하기 위해, 각 예제당 세 개의 아마존 메카니컬 터크 작업자 판단이 요청되었다. 작업자들의 영어 언어 능력에 대한 실험(본문의 끝에 참조)과 저노력 작업자의 결과를 제외하면서(아래 ‘짧은 시간’ 참조), 이는 아마존 메카니컬 터크 서비스에 대한 총 지출을 약 1,500달러로 증가시켰다.

공평한 평가를 위해 모든 테스트는 평일 11:00-11:30 PST에 수행되었다.

결과와 결론

이 연구는 많은 영역을 다루고 있지만, 주요 사항은 다음과 같다:

짧은 시간

이 논문은 아마존이 보고한 평균 작업 시간 360초가 실제 작업 시간으로 22초로 줄어들며, 중간 작업 시간은 13초로, 가장 빠른 영어 교사가 작업을 복제하는 데 걸린 시간의 4분의 1에 불과하다는 것을 발견했다 – 가장 빠른 영어 교사가 작업을 복제하는 데 걸린 시간의 4분의 1에 불과했다.

연구의 2일차: 개별 작업자(오렌지색)는 작업자 평가 시간에 더 적은 시간을 보냈으며, 이후 더 잘 지불되는 업워크 계약자들보다 더 적은 시간을 보냈다. 출처: https://arxiv.org/pdf/2109.06835.pdf

아마존 메카니컬 터크는 개인 작업자가 수행할 수 있는 인간 지능 작업(HIT)의 수에 대한 제한을 두지 않기 때문에, 아마존 메카니컬 터크의 ‘빅 히터’가出现했으며, 높은 수의 작업을 수행하는 실험에서 수익성 있는評價를 받았다. 연구자들은 작업자들이 작업을 수행하는 시간을 측정하기 위해, 연속적으로 제출된 HIT의 시작과 끝 시간을 비교했다. 이 방법으로 아마존 메카니컬 터크의 보고된 WorkTimeInSeconds과 실제 작업 시간 사이의 차이가 명확해졌다.

이러한 작업을 이러한 단축된 시간에 수행할 수 없기 때문에, 연구자들은 다음과 같이 보완했다:

’13초라는 시간에 조심스럽게 문장을 읽고 네 가지 속성을 평가하는 것은 불가능하므로, 우리는 작업자들이 너무 적은 시간을 보낸 경우 평균 평가에 미치는 영향을 측정한다… 구체적으로, 우리는 작업자들의 중간 시간이 40초( 낮은 기준임) 아래인 평가를 제거하며, 평균적으로 약 42%의 평가가 필터링되어 제거된다(모든 실험에서 20%-72% 범위).

이 논문은 아마존 메카니컬 터크에서 실제 작업 시간을 잘못 보고하는 것이 일반적으로 연구자들이 사용하는 서비스에서 간과되는 주요 문제라고 주장한다.

핸드 홀딩 필요

연구 결과는 아마존 메카니컬 터크 작업자들이 텍스트가 인간이 작성했는지 기계가 작성했는지 신뢰성 있게 구별할 수 없으며, 이는 일반적인 평가 시나리오(읽어야 하는 텍스트 샘플이 ‘실제’ 또는 인공적으로 생성된 텍스트임)에서 작업자들이 텍스트를 평가할 때 두 텍스트를 함께 볼 수 없다는 것을 의미한다.

저품질 인공 텍스트의隨意적인 수용

아마존 메카니컬 터크 작업자들은 일관성과 품질이 더 높은 인간이 작성한 텍스트와 비교하여 일관성과 품질이 더 낮은 GPT 기반 인공 텍스트를 일관되게 평가했으며, 이는 영어 교사들이 품질의 차이를 쉽게 구별할 수 있는 것과는 대조적이다.

준비 시간 없음, 제로 컨텍스트

진품성 평가와 같은 추상적인 작업에 대한 올바른 마음가짐을 갖추는 것은 쉽지 않으며, 영어 교사들은 평가 환경에 대한 감각을 조율하기 위해 20개의 작업이 필요했다. 반면에 아마존 메카니컬 터크 작업자들은 일반적으로 ‘오리엔테이션 시간’을 거의 받지 못했다.

시스템 게임

이 보고서는 아마존 메카니컬 터크 작업자들이 작업을 수행하는 총 시간이 작업자들이 여러 작업을同時에 수락하고 브라우저의 다른 탭에서 작업을 수행함으로써 인플레이션된다고 주장한다.

출신국이 중요함

아마존 메카니컬 터크의 기본 설정은 작업자를 출신국으로 필터링하지 않으며, 보고서는 이전 연구를引用하며, 아마존 메카니컬 터크 작업자들이 지리적 제한을 우회하기 위해 VPN을 사용하여 비영어권 국가에서 영어권 국가로 나타날 수 있다고 지적한다.

따라서 연구자들은 아마존 메카니컬 터크에서 평가 테스트를 다시 실행했으며, 잠재적인 작업자들을 영어를 모국어로 사용하지 않는 국가로 제한했으며, 다음과 같이 발견했다: ‘비영어권 국가의 작업자들은 일관성, 관련성, 문법을 영어권 국가의 작업자들보다 훨씬 낮게 평가했다.‘

이 보고서는 다음과 같이 결론을 내린다:

‘언어 교사나 언어학자와 같은 전문 평가자들은 사용할 수 있는 경우에 언제나 사용되어야 하며, 이는 비용이 많이 들지 않기 때문이다…’

2021년 9월 16일 게시됨 – 2021년 12월 18일 업데이트됨: 태그 추가