인공지능

AI가 시험에서 부정행위를 하는 것을 막는斗争

Published June 3, 2021

Updated April 5, 2026

Martin Anderson

중국 대학의 새로운 연구 결과는 GPT-3와 같은 생성 자연어 처리 모델이 어려운 질문에 대해 ‘부정행위’를 하는 이유를 제공하며, 기술적으로는 올바른 답변을 생산하지만, 그 이유를 이해하지 못하는 답변을 생산하는 이유와, 또한 쉽게 얻은 답변의 논리를 설명할 수 있는 능력이 거의 없거나 전혀 없는 이유를 설명한다. 연구자들은 또한 시스템을 훈련 단계에서 더 열심히 공부하도록 만드는 새로운 방법을 제안한다.

문제는 두 가지로 나뉜다: 첫째, 우리는 결과를 빠르게 얻고 자원을 최적으로 사용하도록 시스템을 설계한다. GPT-3와 같은 경우, 평균 NLP 연구 프로젝트에서 사용할 수 있는 자원이 훨씬 더 많지만, 결과 중심의 최적화 문화는 여전히 방법론을 지배한다.

따라서, 우리의 훈련 아키텍처는 모델이 빠르게 수렴하고 질문에 대한 명백한 답변을 생산하도록 보상하지만, NLP 모델이 이후에 그 답변을 정당화하거나 어떻게 그 결론에 도달했는지 보여줄 수 없는 경우에도如此한다.

부정행위에 대한 초기 성향

이것은 모델이 더 복잡한 유형의 지식 습득을 배우기 전에 ‘단축 응답’을 배우기 때문이다. 정확도가 훈련 과정에서 거의 차별 없이 보상되기 때문에, 모델은 질문에 대한 ‘쉽게’ 답변을 할 수 있는 접근 방식을 우선시한다.

단축 학습이 훈련 중에 첫 번째 성공을 나타낼 것이므로, 세션이 더 어려운 작업인 유용하고 더 완전한 인식론적 관점을 얻는 것을 자연스럽게 피하게 된다.

AI에 ‘쉬운’ 답변 제공

두 번째 문제는 최근 연구가 AI의 이러한 방식의 ‘부정행위’를 연구하고 ‘단축’ 현상을 식별했지만, MRC 시스템의 기본적인 구조적 결함을 해결하는 논리적인 첫 번째 단계인 기여 데이터 세트에서 ‘단축’을 가능하게 하는 자료를 분류하기 위해 노력하지 않았다는 것이다.

新的 논문은 Wangxuan Institute of Computer Technology와 Peking University의 MOE Key Laboratory of Computational Linguistics의 협력으로, ‘쉽게’와 ‘어려운’ 해결책을 분류한 새로운 주석이 있는 데이터 세트에 대한 다양한 언어 모델을 테스트한다.

Source: https://arxiv.org/pdf/2106.01024.pdf

데이터 세트는 더 복잡하고 깊은 답변을 위한 기준으로 재구성을 사용한다. 이는 의미적 이해가 필요한 반면, ‘단축’ 답변은 날짜, 키워드와 같은 토큰을 사용하여 사실적으로 정확한 답변을 생산할 수 있지만, 맥락이나推론이 없다.

주석의 단축 구성 요소에는 질문 단어 일치(QWM)와 단순 일치(SpM)가 있다. QWM의 경우, 모델은 제공된 텍스트 데이터에서 추출된 엔티티를 사용하고 맥락을 무시한다. SpM의 경우, 모델은 질문과 답변 문장 간의 중복을 식별한다.

단축 데이터의 거의 ‘바이러스적’ 영향

연구자들은 데이터 세트가 단축 질문의 높은 비율을 포함하며, 이는 훈련된 모델이 단축 트릭에 의존하도록 만든다고 주장한다.

실험에 사용된 두 모델은 BiDAF와 Google의 BERT-base였다. 연구자들은 두 모델이 모두 데이터 세트의 변형에 훈련되어도 단축 질문에서보다 어려운 재구성 질문에서 더 나은 성능을 보인다고 관찰한다.

이것은 ‘단축 데이터’를 거의 바이러스와 같은 맥락에서 제시한다. 즉, 모델이 훈련 중에 단축 트릭을 채택하고 우선시하려면 데이터 세트에 거의 존재할 필요가 없다.

부정행위 증명

연구에서 사용하는 방법 중 하나는 ‘쉽게’ 단어를 이상한 단어로 대체하여 단축 답변의 취약성을 증명하는 것이다. 단축 방법이 사용된 경우, 논리는 제공되지 않지만, 더 깊은 맥락과 의미적 평가에서 답변을 제공한 경우, 시스템은 오류를 해체하고 올바른 답변을 재구성할 수 있다.

Substituting ‘Beyoncé’ (a person) for ‘America’ (a location), reveals whether the model has any background logic for its answer.

단축의 경제적 필연

NLP 훈련 워크플로에서 단축이 우선시되는 일부 구조적 이유에 대해, 저자들은 다음과 같이 말한다: ‘MRC 모델은 QWM과 같은 단축 트릭을 더 적은 컴퓨팅 자원으로 학습할 수 있다.’.

이것은 표준 최적화와 자원 보존 철학의 부작용일 수 있다.

연구자들은 또한 다음과 같이 말한다:

‘단축 트릭을 사용하여 대부분의 훈련 질문에 올바르게 답변할 수 있으므로, 남은 미해결 질문은 모델이 어려운 기술을 요구하는 복잡한 해결책을 탐색하도록 동기를 부여하지 않을 수 있다.’

이 논문의 결과가 이후 증명된다면, 데이터 전처리 분야는 ‘숨은 암기’를 해결해야 하거나 NLP 아키텍처를 더 어려운 데이터 처리 루틴을 우선시하도록 수정해야 할 수 있다.