人工知能

Amazon Mechanical Turkの欠点が自然言語生成システムを脅かす

Published September 16, 2021

Updated April 28, 2026

Martin Anderson

マサチューセッツ大学アマースト校の新しい研究では、英語教師とAmazon Mechanical Turkのクラウドソーシングワーカーを、自然言語生成（NLG）システムの出力の評価に投入し、AMTワーカーの緩い基準とタスクの「ゲーム化」が、この分野の開発を妨げている可能性があると結論付けた。

この報告書は、オープンエンドのNLG評価タスクの「産業規模」の安いアウトソーシングが、劣った結果とアルゴリズムにつながる可能性があるという、数多くの批判的な結論に至った。

研究者はまた、AMTを使用してオープンエンドテキスト生成に関する45件の論文をまとめ、多くの研究がAMTの使用について重要な詳細を報告していないことがわかり、論文の結果を再現することが困難であると指摘した。

スウェットショップ労働

この報告書は、AMTのスウェットショップ的な性質と、(おそらく予算の制約がある)アカデミックプロジェクトがAMTを有効で一貫した研究リソースとして使用し、引用していることを批判している。著者は次のように述べている：

‘AMTは便利で安価な解決策ではあるが、ワーカー間の分散が大きく、キャリブレーションが不十分で、認知的に要求されるタスクにより、研究者が誤解を招く科学的結論を導き出す可能性がある（例えば、人間が書いたテキストはGPT-2のテキストよりも「悪い」という結論）。’

報告書は、プレイヤーではなくゲームを非難しており、研究者は次のように述べている：

‘クラウドワーカーは頻繁に労働に対して低賃金で雇用されており、これは研究の質と、これらのクラウドワーカーが十分な生活を送る能力を害している。’

論文では、メカニカルタークを使用してオープンエンドテキスト生成を評価する危険というタイトルで、専門家の評価者（言語教師や言語学者）を使用してオープンエンドの人工NLGコンテンツを評価する必要があると結論付けている。

テストタスク

AMTのパフォーマンスを、時間の制約がない専門家の読者と比較するために、研究者は比較テストで使用されるAMTサービスに144ドルを費やした（ただし、多くの「使用できない」結果に費やされた金額はもっと多かった）。ランダムに選ばれた「ターキー」に、200個のテキスト（人間が作成したテキストコンテンツと人工的に生成されたテキストの両方）を評価するように依頼した。

同じ作業をプロの教師に依頼することは187.50ドルかかり、Upworkのフリーランスを雇用してタスクを複製することは262.50ドルかかった。

各タスクは、4つの評価基準で構成されていた：文法（‘物語の断片のテキストはどの程度文法的に正しいか？’）；連携性（‘物語の断片の文はどの程度よくまとまっているか？’）；好み（‘あなたは物語の断片をどの程度楽しんでいるか？’）；関連性（‘物語の断片はどの程度プロンプトに関連しているか？’）。

テキストの生成

テスト用のNLG資料を取得するために、研究者はFacebook AI Researchの2018年の階層的なニューラルストーリー生成 データセットを使用した。このデータセットは、303,358個の英語の物語で構成されており、15万以上のユーザーが利用するr/writingpromptsサブレディットのユーザーによって作成されたものである。サブレディットの物語は、シングルセンテンスの「プロンプト」によって「シード」され、現在のテキストからイメージ生成の慣行やオープンエンドの自然言語生成システムと同様である。

データセットから200個のプロンプトをランダムに選択し、Hugging-Face Transformers ライブラリを使用して、中規模のGPT-2モデルに通した。同一のプロンプトから2つの結果セットが得られた：Redditユーザーによる人間が書いた議論的なエッセイと、GPT-2によって生成されたテキスト。

同じ物語を複数回評価する同じAMTワーカーを防ぐために、各例について3つのAMTワーカーの判断を求めた。実験についての英語の能力（記事の最後を参照）と、低労働力のワーカーからの結果を除外すること（「ショートタイム」参照）により、AMTへの総費用は約1,500ドルに増加した。

公平な競争環境を創出するために、すべてのテストは平日11:00〜11:30（PST）に行われた。

結果と結論

この研究は広範囲にわたるものであるが、重要な点は以下の通りである：

ショートタイム

この論文では、Amazonが報告した平均タスク時間360秒は、実際の作業時間22秒、中央値作業時間13秒に相当することがわかった。最も速い英語教師がタスクを繰り返すのにかかった時間の4分の1である。

研究の2日目：個々のワーカー（オレンジ）が、より高く報酬の支払われる教師やUpworkの契約者よりも、各タスクを評価するのにかなり短い時間を費やしている。ソース：https://arxiv.org/pdf/2109.06835.pdf

AMTには、個々のワーカーが受け取ることができるヒューマンインテリジェンスタスク（HIT）の制限がないため、多数のタスクを完了した「ターキーのビッグヒッター」が登場した。研究者は、各HITの開始と終了時間を比較することで、同じワーカーによる連続して提出されたHITの間の時間を測定し、AMTの報告されたWorkTimeInSecondsと実際の作業時間の差を明らかにした。

このような作業はこれらの短縮された時間枠内で完了することはできないため、研究者は次のように補償した：

‘段落長の物語を慎重に読み、4つの特性をすべて評価することは、13秒という短い時間では不可能であるため、ワーカーがHITごとに費やす時間の中央値が40秒以下（低い基準）である場合、評価を除外する。具体的には、約42％の評価（全実験で20〜72％）が除外されることがわかった。’

この論文では、AMTの実際の作業時間の誤報は、研究者がAMTを使用する際に通常見過ごされる重大な問題であると主張している。

ハンドホールディングが必要

さらに、AMTワーカーは、人間が書いたテキストと機械が書いたテキストを区別できないことがわかった。ただし、両方のテキストを同時に提示された場合には、通常の評価シナリオ（読者が単一のテキストサンプルに基づいて判断を下す必要がある）を損なうことになる。

低品質人工テキストのカジュアルな受け入れ

AMTワーカーは、一貫性のある人間が書いた高品質のテキストと比較して、低品質のGPTベースの人工テキストを一貫して評価していた。一方、英語教師は、品質の違いを容易に区別することができた。

準備時間なし、ゼロコンテキスト

真実性の評価のような抽象的なタスクのための適切な心構えは自然に来ない。英語教師は、評価環境に慣れるために20のタスクが必要だった。一方、AMTワーカーには、通常、まったく「オリエンテーション時間」がない。

システムのゲーム化

この報告書は、AMTワーカーが個々のタスクに費やす時間は、複数のタスクを同時に受け付けるワーカーによってインフレーションされていると主張している。ワーカーは、ブラウザのタブを使用してタスクを完了し、記録されたタスク期間に集中していない。

出身国は重要

AMTのデフォルト設定では、ワーカーを出身国でフィルタリングしないため、この報告書は、以前の研究を引用し、AMTワーカーが地理的制限を回避するためにVPNを使用し、非ネイティブ英語話者がネイティブ英語話者として振る舞うことができることを指摘している。

したがって、研究者は、AMTの評価テストを、非英語圏の国からのワーカーに限定するフィルタを使用して再実行し、次のことがわかった。
‘非英語圏の国からのワーカーは、英語圏の国からの同等の資格を持つワーカーよりも、連携性、関連性、文法を低く評価した。’

この報告書は次のように結論付けている：

‘可能な限り、言語教師や言語学者などの専門家の評価者を使用する必要がある。彼らはすでに書き言葉を評価するために訓練されており、多くの場合、コストもそれほど高くない。’

2021年9月16日発行 – 2021年12月18日更新：タグを追加