인공지능
NLP 모델은 재귀 명사구를 이해하는 데 어려움을 겪는다
미국과 중국의 연구자들은 주요 자연어 처리(NLP) 모델들이 기본적으로 재귀 명사구(NPs)를 포함하는 영어 문장을 풀어내는 데 능력이 없으며, 내가 가장 좋아하는 새로운 영화와 내가 가장 좋아하는 영화와 같은密接한 예시에서 중심 의미를 식별하는 데 ‘어려움’을 겪는다는 것을 발견했다(각각 다른 의미를 가진다).

연구 논문에서 가져온 예시에서, 여기에는 자주 아이들이 풀지 못하는 작은 퍼즐이 있다: 두 번째 공은 녹색이지만, 다섯 번째 공은 ‘두 번째 녹색 공’이다. 출처: https://arxiv.org/pdf/2112.08326.pdf
연구자들은 재귀 명사구 챌린지(RNPC)를 여러 개의 로컬에 설치된 오픈 소스 언어 생성 모델에 설정했다: OpenAI의 GPT-3*, Google의 BERT, Facebook의 RoBERTa와 BART를 포함하여, 이러한 최첨단 모델들이 오직 ‘기회’ 성능만을 달성했다는 것을 발견했다. 그들은 다음과 같이 결론지었다:
‘결과는 표준 벤치마크에 미세 조정된 최첨단 언어 모델(LMs)이 모두 우리의 데이터셋에서 어려움을 겪고 있음을 보여주며, 이는 대상 지식이 쉽게 이용할 수 없음을 시사한다.’

RNPC 챌린지에서 최첨단 모델들이 오류를犯한 최소한의 예시들.
위의 예시에서, 모델들은 예를 들어, 죽은 위험한 동물(즉, 위협을 가하지 않는 죽은 포식자)와 위험한 죽은 동물(예를 들어, 유해한 바이러스가 포함된 죽은 다람쥐, 현재 활발한 위협) 사이의 의미적 불일치를 구별하는 데 실패했다.
(추가로, 본 논문에서 다루지 않았지만, ‘죽은’은 또한 종종 부사로서 사용되며, 이는 어느 경우에도 해당하지 않는다)
그러나 연구자들은 또한 RNPC 자료를 포함하는 추가 또는 보충 교육이 이 문제를 해결할 수 있다는 것을 발견했다:
‘미리 학습된 언어 모델은 NLU 벤치마크에서 최첨단 성능을 보이지만, 이 지식에 대한 Poor한 지식을 가지고 있지만, RNPC의 소량의 데이터에 노출되면 이를 학습할 수 있다.’
연구자들은 언어 모델이 이러한 유형의 재귀 구조를 탐색하는 능력이 언어 분석, 번역 및 해로운 탐지 루틴과 같은 다운스트림 작업에 필수적이라고 주장하며, 특히 다음과 같은 경우에 중요함을 강조했다:
‘[우리는] 사용자가 Siri 또는 Alexa와 같은 태스크 지향 에이전트와 상호 작용하고, 에이전트가 사용자 쿼리에서 포함된 활동이 잠재적으로 해로운지 여부를 결정해야 하는 시나리오를 고려한다. [즉, 소아에게]. 우리는 이 작업을 선택한다. 왜냐하면 많은 거짓 양성은 재귀 명사구에서 비롯되 때문이다.
‘예를 들어, 자제 폭탄을 만드는 방법은 분명히 해롭지만, 자제 목욕 폭탄을 만드는 방법은 무해하다.’
논문은 ‘내가 가장 좋아하는 새로운 영화’는 내가 가장 좋아하는 영화인가? 재귀 명사구의 이해를 조사하다라는 제목으로, 펜실베니아 대학교의 5명의 연구자와 베이징 대학교의 1명의 연구자에 의해 수행되었다.
데이터 및 방법
이전 연구는 재귀 명사구의 구문 구조와 수식어의 의미적 분류를 연구했다. 그러나 연구자들은 이러한 접근 방식이 RNPC 챌린지를 해결하는 데 충분하지 않다고 주장한다.
따라서, 2개의 수정자를 가진 재귀 명사구를 사용하여, 연구자들은 SOTA NLP 시스템에 필수적인 지식이 존재하는지(존재하지 않는다), 이를 가르칠 수 있는지(가능하다), 재귀 명사구에서 NLP 시스템이 무엇을 배울 수 있는지, 그리고 이러한 지식이 다운스트림 애플리케이션에 어떻게 도움이 될 수 있는지 조사했다.
연구자들이 사용한 데이터셋은 4단계로 생성되었다. 첫 번째 단계는 이전 문헌과 새로운 연구에서 689개의 예시를 수집하여 수정자 사전을 구축하는 것이었다.
다음으로 연구자들은 문헌, 기존 코퍼스, 그리고 자신의 발명에서 재귀 명사구를 수집했다. 텍스트 자원에는 Penn Treebank과 Annotated Gigaword 코퍼스가 포함되었다.
그런 다음 연구 팀은 사전 검토된 대학생들을 고용하여 언어 모델이 직면할 3가지 작업을 위한 예시를 생성하고, 이후 8,260개의 유효한 인스턴스로 검증했다.
마지막으로, Amazon Mechanical Turk를 통해 사전 검토된 대학생들을 다시 고용하여, 각 인스턴스를 Human Intelligence Task(HIT)로 주석을 달고, 다수결을 통해 분쟁을 해결했다. 이는 인스턴스를 4,567개의 예시로 좁혀came下来, 그리고 3,790개의 더 균형 잡힌 인스턴스로 필터링되었다.
연구자들은 MNLI, SNLI, MPE 및 ADEPT를 포함하여 기존 데이터셋을 다양한_existing 데이터셋을 수정하여 자신의 테스트 가설의 3개 섹션을 공식화했으며, HuggingFace 모델을 제외한 모든 최첨단 모델을 직접 훈련했다. 여기에는 체크포인트가 사용되었다.
결과
연구자들은 모든 모델이 RNPC 작업에서 ‘어려움’을 겪으며, 인간의 경우 90% 이상의 정확도와 비교하여 최첨단 모델이 ‘기회’ 수준(즉, 무작위적인 응답에서 내재된 능력의 증거가 없음)에서 수행한다는 것을 발견했다.
2차적인 조사 결과는 이러한 결함이 NLP 모델의 파이프라인에서 훈련 또는 미세 조정 단계에서 재귀 명사구에 대한 지식을 포함함으로써 보상될 수 있다는 것을 시사한다. 이러한 보충 교육을 수행한 후, 모델은 ‘강력한 제로샷 성능을 Harm Detection [작업]에 대한 외부 작업에서 달성했다.’.
연구자들은 이 연구의 코드를 https://github.com/veronica320/Recursive-NPs에서 공개할 것이라고 약속했다.
원래 2021년 12월 16일 – 2021년 12월 17일 06:55 GMT+2에 게시됨: 고장난 하이퍼링크 수정.
* GPT-3 Ada, 이는 시리즈 중 가장 빠르지만 최고는 아니다. 그러나 더 큰 ‘쇼케이스’ Davinci 모델은 연구자들의 실험의 후반부에 포함된 미세 조정에는 사용할 수 없다.
† 인라인 인용을 하이퍼링크로 변환한 내 결과.











