인공지능

인공 기계 터크를 생성하는 전처리 언어 모델

Published December 30, 2021

Updated April 5, 2026

Martin Anderson

기계 학습 시스템의 개발은 데이터 레이블링에 크게 의존하며, 수백, 심지어 수천 개의 질문(예: 이 사진은 고양이인가? 및 이 텍스트는 공격적인가?)을 해결하여 AI 시스템이 훈련될 수 있는 권위 있는 데이터 세트를 개발해야 합니다.

우리가 모두 이 과정에 어느 정도 기여하지만, 이러한 레이블링 작업의 대부분은 우리가 모두 기여하는 일부를 제외하고, Amazon Mechanical Turk와 같은 프레임워크에서 돈을 받고 수행하는 인간 작업자에 의해 수행됩니다. 여기서 주석자는 작업을 수행합니다. 작업을 수행합니다.

전처리 언어 모델(PLM)이 현재 AMT 및 유사한 플랫폼에서 크라우드소싱되는 더 기본적인 인간 지능 작업(HIT)의 일부를 수행할 수 있다면 모델 개발은 더 저렴할 것입니다.

독일과 화웨이의 최근 연구에서는 논문 LMTurk: Few-Shot Learners as Crowdsourcing Workers에서 이를 제안합니다.

언어 모델의 Few-Shot 학습

저자는 인간 터크 작업자에게 일반적으로 대상으로 하는 작업의 더 단순한 계층이 few-shot 학습과 유사하다고 제안합니다. 여기서 자동화된 프레임워크는 자동화된 프레임워크가 자동화된 프레임워크에 주어진 몇 가지 예제를 기반으로 미니 작업을 결정해야 합니다.

따라서 기존의 PLM에서 효과적으로 학습할 수 있으며, 이러한 모델은 원래 크라우드 워커에 의해 훈련되었으며, 사람들로부터 기계로 전달된 핵심 지식은 본질적으로 이미 수행되었으며, 이러한 지식이 상대적으로 불변하거나 어떤 방식으로 경험적일 때 자동화된 언어 모델 프레임워크가 이러한 작업을 스스로 수행할 수 있다고 제안합니다.

‘우리의 기본 아이디어는 NLP 작업 T에 대해 few-shot 학습자를 비전문가 작업자로 간주하여 인간 언어 기술을 위한 리소스를 주석으로 처리하는 크라우드소싱 작업자와 유사하다는 것입니다. 크라우드소싱 작업자를 few-shot 학습자의 한 유형으로 볼 수 있는 사실에서 영감을 받았습니다.’

그것의 의미는 미래의 AI 시스템이 의존하는 많은 근본 진실이 인간에 의해 이미 수년 전에 파생되었으며, 이후로 사전 검증된 정보로 간주되어 더 이상 인간 개입이 필요하지 않습니다.

중간 수준, 준수 언어 모델의 작업

인간이 루프에 있는 비용을 절감하려는 동기에 더하여, 연구자들은 ‘중간 수준’의 PLM을真正한 기계 터크로 사용하는 것이 이러한 ‘also-ran’ 시스템에 유용한 작업을 제공한다고 제안합니다. 이러한 시스템은 점점 더 GPT-3와 같은 헤드라인을 장식하는, 대규모이고 비싼 언어 모델에 의해 가려지며, 이러한 작업에는 너무 비싸고 과도한 사양입니다.

‘이 논문에서 우리의 목표는 현재 few-shot 학습자를보다 효과적으로 사용하는 방법을 개발하는 것입니다. 이것은 중요한 질문입니다. 왜냐하면 점점 더 많은 거대한 few-shot 학습자가 훈련되고 있기 때문입니다. 어떻게 효과적으로 사용할 수 있는지에 대한 질문입니다. 특히, 우리는 어려운 배포를 가진 거대한 모델의 대안을 원합니다. ‘

‘동시에, 우리는 PLM의 강점을 최대한 활용하고자 합니다. 그들의 다용도성은 작업에 걸쳐 광범위한 적용 가능성을 보장합니다. 언어와 세계에 대한 지식의 방대한 저장소(전처리에서 학습됨)는 few-shot 학습자의 데이터 효율성에 나타나며, 데이터 주석의 노동 및 시간 소비를 줄입니다.’

지금까지, 저자는 NLP의 few-shot 학습자가 더 많은 자원 집중적인 고급 자연 언어 시스템으로 가는 길에 임시 단계로 취급되어 왔으며, 이러한 작업이 추상적으로 수행되었으며 이러한 시스템의 가능한 유용성을 고려하지 않았다고 주장합니다.

방법

저자는 LMTurk(Language Model as mechanical Turk)를 제공하며, 이 자동화된 HIT의 입력은 중간 수준의 NLP 모델에 대한 레이블을 제공하는 워크플로우입니다.

LMTurk의 기본 개념 모델 출처: https://arxiv.org/pdf/2112.07522.pdf

이 첫 번째 반복은 few-shot human-labeled ‘gold’ 데이터에 의존하며, 여기서 meatware Turks가 제한된 수의 작업에 대한 레이블을 주석으로 처리했으며, 레이블이 잘 평가되었습니다. 직접적인 인간 감시 또는 합의 투표를 통해. 이러한 스키마의 의미는 이 인간 기반 시작점에서 파생되거나 개발된 포크가 향후 추가적인 인간 입력이 필요하지 않을 수 있다는 것입니다.

저자는 나중에 하이브리드 모델(인간 입력이 존재하지만 크게 감소함)과 함께 추가 실험을 수행했지만, 연구 목적으로 LMTurk 모델을 인간 생성 HIT 작업자와의 결과와 비교하지 않았습니다. ‘gold’ 레이블된 데이터 자체가 ‘인간 입력’이기 때문입니다.

터크 작업을 수행하도록 설계된 PLM은 2021年に 중국 연구자들이 발표한 P-Tuning 방법에 의해 작업에 적응되었습니다. 이는 GPT-3 스타일 모델의 자연어 이해(NLU) 작업에서 성능을 향상시키기 위해 훈련 가능한 연속적인 프롬프트 임베딩을 제안했습니다.

P-Tuning은 GPT 스타일 모델의 예측力を 깊게 하고 언어에 대한 개념적 이해의 외관을 개선하기 위해 임베디드 유사 프롬프트를 통합합니다. 이 경우 시작 쿼리는 ‘영국의 수도는 [x]입니다’. 출처: https://arxiv.org/pdf/2103.10385.pdf

데이터 및 아키텍처

LMTurk는 다섯 개의 데이터 세트에서 평가되었습니다. 두 개는 Stanford Sentiment Treebank에서; AG의 News Corpus; 텍스트 포함 인식(RTE); 언어적 수용성 корпус(CoLA).

LMTurk의 더 큰 모델은 공개적으로 사용 가능한 PLM ALBERT-XXLarge-v2(AXLV2)를 자동화된 터크로 전환하기 위한 소스 모델로 사용합니다. 이 모델은 223 백만 개의 매개변수를 특징으로 하며(GPT-3의 175 억 개 매개변수와 비교함), AXLV2는 더 높은 규모의 모델인 334M BERT-Large를 능가하는 것을 입증했습니다.

더 가벼운 모델 및 에지 배포 가능한 모델을 위해, 프로젝트는 TinyBERT-General-4L-312D(TBG)를 사용합니다. 이는 14.5 백만 개의 매개변수를 특징으로 하며, BERT-base(1.1억 개 매개변수)와 비교하여 성능이 비슷합니다.

프롬프트가 가능한 훈련은 AXLV2에서 PyTorch 및 HuggingFace를 사용하여 100 배치 단계에서 배치 크기 13, 학습률 5e-4, 선형 감소로 수행되었습니다. 각 실험은 세 가지 다른 임의의 시드에서 시작되었습니다.

결과

LMTurk 프로젝트는 NLP의 다양한 하위 섹터에서 다양한 모델을 실행하므로, 연구자의 실험 결과를 경험적 증거로 축소하여 LMTurk가 역사적인, 인간 起源의 HIT 스타일 few shot 학습 시나리오의 재사용에 대한 жиз력 있는 접근 방식을 제공하는 것은 쉽지 않습니다.

그러나 평가를 위해, 저자는 두 가지 이전 연구와 자신의 방법을 비교합니다: 텍스트 분류 및 자연어 추론을 위한 Cloze 질문의 활용 by 독일 연구자 Timo Schick와 Hinrich Schutze; 그리고 Prompt-Based Auto의 결과가 포함된 사전 훈련된 언어 모델을 더好的 few-shot 학습자로 만드는 것 by Gao, Chen 및 Fisch(각각 프린스턴 및 MIT에서).

LMTurk 실험의 결과, 연구자들은 ‘비교 가능한’ 성능을 보고합니다.

간단히 말해, LMTurk는 gold-labeled 인간 起源 데이터를 발전하는 중간 수준 언어 모델에 통합하여 자동 시스템이 인간 입력을 대신할 수 있는 연구자들에게 상대적으로 유망한 조사 라인을 제공합니다.

이 분야의 이전 연구와 마찬가지로, 중심 개념은 원래 인간 데이터의 불변성에 의존하며, 시간적 요인들이 중요한 장애물이 되지 않을 것이라는 가정에 의존합니다. NLP 개발에서 이러한 요인들은 기계 전용 계보가 발전함에 따라 추가적인 인간 개입이 필요하지 않을 수 있습니다.

원래 2022년 12월 30일에 게시됨