인공지능

NLP를 사용하여 잘못된 질문에 도전하기

Published September 10, 2021

Updated April 5, 2026

Martin Anderson

일부 질문은 잘못된 정보를 포함하고 있기 때문에 답변할 수 없습니다. 이러한 질문에는 청자가 필터링하고 거부해야 하는 가정이 포함되어 있습니다. 이것은 청자가 질문 자체를 잘못된 정보의 출처로 사용하는 대신 질문에 도전하기 위해 충분한 올바른 정보를 가지고 있다고 가정합니다.

Natural Language Processing(NLP) 시스템인 GPT-3와 같은 시스템에서는 이 문제가 더 복잡해집니다. 이러한 시스템은 대화 흐름을 유지하기 위해 정보를 ‘환상’으로 만들어내는 경향이 있습니다.

현재 GPT-3에게 “마리 퀴리가 우라늄을 언제 발명했는가?”라고 묻는다면 “마리 퀴리는 1898년에 우라늄을 발명했다”라는 답변을 받을 수 있습니다.

출처: https://beta.openai.com/playground (Da Vinci instruct beta).

실제로 우라늄은 1789年に 독일의 화학자 마틴 하인리히 클라프로트에 의해 발견되었으며, 퀴리 부부의 1898년 발견은 라듐의 분리였습니다.

NLP 시스템이 잘못된 가정을 무시하는 문제는 올해 여러 언론 보도에서 주목을 받았습니다. 예를 들어, Google의 AI 지원 검색 결과는 “닐 암스트롱이 화성에 발을 들여놓았을 때”와 같은 잘못된 정보를 포함하는 질문을 무시합니다. 이는 아직도 이 글을 쓸 때에도 확인할 수 있으며, 또한 토이 스토리의 버즈 라이트イヤ도 1969년 7월 21일에 달에 착륙했다고 합니다.

또 다른 토이 스토리의 배우인 톰 행크스도 1970년에 달에 착륙했다고 구글에 의해 인정받고 있습니다. 이는 그의 아폴로 13의角色인 우주비행사 짐 러벨이 달에 착륙하지 못한 것으로 가장 유명한데 반하는 것입니다.

NLP 교신에서 가정을 해결하는 문제

이제 Google Research와 존스 홉킨스 대학, 브라운 대학의 연구자들은 NLP 시스템이 사실적으로 잘못된 질문에 도전할 수 있도록 새로운 기계 학습 방법을 조사하고 있습니다. 이는 인간 교사들이 대화 중에 학생들에게 반드시 수행해야 하는 것과 같습니다.

최근의 논문 어느 언어학자가 전구를 발명했는가? 질문-답변을 위한 가정을 검증은 가정을 식별하고 검증하기 위한 새로운 시스템을 개발하기 위한 집중적인 노력을 설명합니다.

새로운 알고리즘은 효과적으로 질문을 전처리하여 대화에 다시 참여하기 전에 ‘인증’을 수행합니다. 이는 세 단계의 과정으로 나뉩니다.

계산할 수 없습니다! 왼쪽에는 질문이 의미가 없다고 식별했음에도 불구하고 고급 NLP 시스템에서 발생하는 ‘로드블록’이 표시됩니다. 오른쪽에는 제안된 알고리즘이 소스 오류를 수정하려고 하는 것을 분해합니다. 출처: https://arxiv.org/pdf/2101.00391.pdf

이것은 단순한 검증 루틴으로 보일 수 있지만, 대부분의 NLP 기반 훈련 루틴은 잘못된 정보를 포함할 수 있는 소스 데이터를 과도한 신뢰로 학습합니다. 이것은 이전에 신뢰할 수 있는 채널에서 발행된 논문이나 소셜 미디어를 통해 퍼지는 잘못된 정보를 포함합니다.

따라서 신뢰할 수 있는 사실의 출처를 식별하는 것이 주요 문제입니다. 특히 기계 학습의 일반화 논리에서 데이터의 양이나 반복이 정확성의 대리자로 사용되는 경우에 더욱 중요합니다.

잘못된 질문에 대한 подход 결정

잘못된 정보를 포함하는 질문에 대한 적절한 접근 방식을 결정하기 위해, 연구자들은 100개의 그러한 질문을 네 가지 다른 Q&A 모델을 통해 실행하고, 인간 평가자에게 가장 적절한 해결책을 선택하도록 요청했습니다.

네 가지 가능한 아키텍처 결과는 ‘무응답’ – 폐쇄적인 Q&A 시스템이 추가 설명 없이 질문에 대한 답변을 중단합니다. ‘가정 실패 기반 설명’ – 시스템이 잘못된 가정의 검증에 실패하여 효과적으로 ‘무응답’을 반환하며 추가 설명이 있습니다. ‘추출 설명’ – 시스템이 관련된 위키백과 문장을 검색하여 ‘이 질문은 무응답입니다. 이유는…’라는 문장에 추가합니다. ‘개방형 도메인 다시 작성’ – 경쟁 시스템이 위키백과에서 추가 출처를 찾습니다.

잘못된 질문에 대한 네 가지 가능한 답변의 예는 경쟁 도메인 기반 해결책의 복잡성을 보여줍니다.

테스트 과정에서, 다섯 명의 참가자(구글 내부 크라우드소싱 플랫폼에서 모집됨)는 가정 기반 답변을 선호했으며, 연구자들은 질문을 분해하고 검증하기 위한 새로운 프레임워크를 개발하도록 이끌었습니다.

새로운 시스템에서 언어적 트리거는 규칙 기반 생성기에 의해 질문에서 얻어집니다. 이는 문장을 사실의 가정으로 분해합니다. 여러 가지 가정들이 질문에서 파생된다면, 각 하나는 최종 답변에 기여하며, 원래 질문의 잘못된 가정에 대해 조사됩니다.

데이터셋

초기 단계에서 생성된 가정이 수동으로 수정되어 ‘골드’ 가정을 포함하는 검증 데이터셋을 생성했습니다. 질문에서 파생된 가정이 원래 질문에 존재하지 않는 경우, 이러한 가정을 제거했습니다.

논문의 두 저자는 각 질문과 관련된 위키백과 페이지를 기반으로 462개의 가정을 ‘예/아니요’ 형식의 검증 가능성에 따라 수동으로 주석을 달았습니다. 일치하지 않는 경우는 후속 토의를 통해 해결되어 데이터셋에 커밋되었습니다.

연구자들은 위키백과와 관련된 질문에 대한 위키백과 기사를 분해하여 필요한 전제 조건을 생성하기 위해 제로샷 NLI를 사용했습니다. 이 과정은 모델이 지원하거나 질문이 포함하는 것보다 더 많은 쌍을 생성하므로, 필터링된 결과는 집계되고 레이블이 지정됩니다.

결과 및 답변 형성

가장 효과적인 결과는 가장 노동 집약적인 해결책으로 얻어졌습니다. 이는 위키 문장과 가정을 사용하여 미세 조정된 규칙 기반/NLI 하이브리드입니다.

검증 모델의 성능, ‘위키 문장’은 질문과 관련된 위키백과 기사에서 얻은 문장을 사용하며, ‘위키 가정’은 이러한 문장에서 생성된 가정을 사용합니다.

이 형식을 사용하여, 연구자들은 위키백과에서 사실을 부정하는 것을 ‘이 질문은 무응답입니다. 이유는…’와 같은 문장에 추가하는 템플릿 시스템을 개발했습니다. 이는 이상적인 해결책은 아니지만, 저자들은 검증할 수 없는 답변에 기반한 답변은 거짓 부정을 줄일 가능성이 있다고 제안합니다.

시스템은 궁극적으로 확장된 트랜스포머 구축 모델에 구현되었습니다.

영향

이 접근 방식의 궁극적인 성능에 따라, 이는 사실적으로 잘못된 질문에 대한 답변을 제공하는 것보다 ‘검증할 수 없음’을 대신 제공하는 것으로 이어질 수 있습니다. 이는 향후 더 나은 검증 시스템을 위한 기반을 마련하는 것으로 보입니다.

연구자들은 이미 토큰 기반 API 요청의 비용이 더 긴 답변을 생성할 때 제한 요인이라고 인정합니다. 또한 ‘실시간’ 연구는 대규모 시스템인 GPT-3에서도 응답성에 영향을 미칠 것입니다. 이러한 시스템의 응답성은 훈련 시간에 일반화된 지식을 포함하는 것에 의존했기 때문입니다.

예를 들어, 誰が에스텔라의 어머니라고 생각하는지에는 비사실적인 동사 ‘believe’ 아래에 포함된 소유격이 있습니다. 그러나 우리의 생성기는 여전히 ‘에스텔라’가 ‘어머니’를 가지고 있다고 생성합니다.

연구자들은 새로운 질문-답변 시스템을 개발할 계획입니다. 이는 더 강력하고 협력적인 시스템을 구축하는 것입니다.

미래에, 우리는 이 연구를 기반으로 더 강력하고 협력적인 QA 시스템을 제안할 계획입니다. 예를 들어, 다양한 유형의 가정 실패는 더 유연한 답변 전략으로 처리될 수 있습니다. 예를 들어, 고유성 가정의 위반은 답변을 제공하는 대신 모든 가능한 답변을 제공하는 것으로 더 잘 처리될 수 있습니다.