인공지능

AI로 생성된 언어가 과학 문헌을 오염시키기 시작했다

Published July 15, 2021

Updated April 28, 2026

Martin Anderson

프랑스와 러시아의 연구자들은 GPT-3와 같은 AI 기반 확률적 텍스트 생성기를 사용하여 ‘고문된 언어’, 존재하지 않는 문헌의 인용, 및 무단 이미지 재사용을 과학 문헌의 이전에 존경받던 채널에 도입하고 있다고 밝혔다. 가장 우려되는 것은 연구된 논문이 객관적이고 체계적인 연구의 결과로 과학적으로 부정確하거나 재현할 수 없는 내용을 포함하고 있다는 것이다. 이는 언어 생성 모델이 논문의 저자의 제한된 영어 실력을 보완하는 데만 사용되는 것이 아니라 실제로 연구의 어려운 작업을 수행하는 데 사용되고 있음을 나타낸다.

연구 보고서인 Tortured phrases: A dubious writing style emerging in science는 툴루즈 대학의 컴퓨터 과학부와 야andex 연구원 Alexander Magazinov에 의해 编纂되었다. 연구는 특히 Elsevier Journal Microprocessors and Microsystems에서 생성된 과학 논문의 증가에 초점을 맞추고 있다.

다른 이름

GPT-3와 같은 자율 회귀 언어 모델은大量의 데이터에 의해 훈련되고, 데이터를 요약, 정리, 해석하여 원래 의도를 유지하면서 자연스러운 말과 글쓰기 패턴을 재현할 수 있는 생성 언어 모델을 생성하도록 설계되었다. 이러한 프레임워크는 모델 훈련 단계에서 직접적인 ‘비흡수’ 재생을 제공하는 경우에 처벌을 받기 때문에, 필연적으로 동의어를 찾는다.

연구자들이 발견한 Apparently AI 생성된 과학 제출물에는 기계 학습 분야에서 잘 알려진 구문의 창의적인 동의어를 시도하는 것이 많다.

딥 뉴럴 네트워크: ‘깊은 뉴럴 조직’
인공 뉴럴 네트워크: ‘(가짜 | 위조) 뉴럴 조직’
모바일 네트워크: ‘다재다능한 조직’
네트워크 공격: ‘조직 (습격 | 공격)’
네트워크 연결: ‘조직 연관성’
빅 데이터: ‘(거대한 |巨大 | 엄청난 | 초대형) 정보’
데이터 웨어하우스: ‘정보 (창고 | 배급 센터)’
인공 지능 (AI): ‘(가짜 | 인간 제작) 의식’
고성능 컴퓨팅: ‘엘리트 계산’
포그/미스트/클라우드 컴퓨팅: ‘안개 계산’
그래픽 처리 장치 (GPU): ‘디자인 준비 장치’
중앙 처리 장치 (CPU): ‘중심 준비 장치’
워크플로우 엔진: ‘작업 프로세스 모터’
얼굴 인식: ‘얼굴 인식’
음성 인식: ‘말 인식’
평균 제곱 오차: ‘평균 제곱 (실수 | 실수)’
평균 절대 오차: ‘평균 (절대 | 최상위) (실수 | 실수)’
신호 대 노이즈: ‘(운동 | 깃발 | 지시자 | 신호 | 신호) 대 (소음 | 소동 | 노이즈)’
전역 매개변수: ‘전세계 매개변수’
임의 접근: ‘(임의 | 불규칙) 접근 허가’
임의 포레스트: ‘(임의 | 불규칙) (숲 | 목장 | 푸른 지역)’
임의 값: ‘(임의 | 불규칙) 가치’
개미 군체: ‘지하 곤충 (국가 | 주 | 지역 | 지역 | 정착지)’
개미 군체: ‘지하 기어다니는 곤충 (국가 | 주 | 지역 | 지역 | 정착지)’
남은 에너지: ‘남은 활기’
운동 에너지: ‘운동 활기’
순진한 베이즈: ‘(신뢰하는 | 순진한 |騙される) 베이즈’
개인용 디지털 어시스턴트 (PDA): ‘개인용 컴퓨터화된 협력자’

2021년 5월, 연구자들은 이러한 종류의 망가진 자동 언어를 찾기 위해 Dimensions 학술 검색 엔진을 쿼리했으며, ‘거대한 정보’와 같은 합법적인 구문을 제외하도록 주의했다. 이 시점에서 mereka는 Microprocessors and Microsystems가 가장 많은 잘못된 문구를 발견했다.

현재, ‘깊은 뉴럴 조직’과 같은 무의미한 구문을 검색하여 과학 논문을 검색할 수 있다.

Dimensions에서 ‘깊은 뉴럴 조직’ (‘딥 뉴럴 네트워크’)에 대한 검색 결과 Source: https://app.dimensions.ai/

Microprocessors 저널은 1976년에 설립되었으며, 2년 후 Microprocessors and Microsystems로 이름을 변경했다.

무의미한 언어의 증가

연구자들은 2018년 2월부터 2021년 6월까지의 기간을 연구했으며, 지난 2년 동안 제출량이 크게 증가했으며, 특히 지난 6~8개월 동안 크게 증가했다.

상관관계 또는 인과관계? Microprocessors and Microsystems 저널에 대한 제출량의 증가와 ‘무의미한’ 텍스트 및 동의어의 증가가 일치하는 것으로 보인다. Source: https://arxiv.org/pdf/2107.06751.pdf

최종 데이터 세트에는 University of Toulouse의 Elsevier 구독을 통해 얻은 1,078개의 전면 논문이 포함되어 있다.

중국 과학 논문에 대한 편집 감독의 감소

논문은 2021년에 제출된 논문에 대한 편집 평가 시간이 크게 줄어든 것을 관찰했으며, 40일 미만으로 줄어들었다. 이는 2021년 2월부터 표준적인 심사 시간이 6배 줄어든 것을 나타낸다.

가장 많은 논문은 중국 본토와 관련된 저자들로부터 나왔다. 30일 미만으로 승인된 404개의 논문 중 97.5%가 중국 관련 논문이었다. 반면, 편집 과정에서 40일을 초과한 경우(615개 논문), 중국 관련 제출물은 9.5%만을 차지했다. 이는 10배의 불균형을 나타낸다.

연구자들은 이러한 문제가 편집 과정의 부족과 제출량 증가에 대한 자원 부족으로 인한 것으로 보고 있다.

연구자들은 GPT 스타일의 생성 모델이 이러한 논문들의 텍스트를 생성하는 데 사용되었다고 가정했지만, 이러한 모델이 원본을 추상화하는 방식으로 인해 이를 입증하기는 어렵다. 주된 증거는 불필요한 동의어와 논리의 일관성에 대한 주의 깊은 검토에 있다.

연구자들은 이러한 생성 언어 모델이 문제를 가진 텍스트를 생성하는 데 사용될 뿐만 아니라 이러한 텍스트를 인식하고 체계적으로 플래그할 수 있다고 주장한다. 연구는 GPT-2를 사용하여 이러한 구현을 자세히 설명하며, 미래의 시스템이 문제가 있는 과학적 제출물을 식별하는 프레임워크를 제공한다.

Elsevier 저널의 ‘오염된’ 제출물의 비율은 다른 저널에 비해 훨씬 높다(72.1% 대 13.6%).

의미가 아닌 것

연구자들은 많은 저널이 단순히 언어를 잘못 사용하는 것이 아니라 과학적으로 부정확한 진술을 포함하고 있음을 강조한다. 이는 언어 생성 모델이 과학자들의 언어 제한을 보완하는 데만 사용되는 것이 아니라 실제로 논문의 핵심 정리를 형성하는 데 사용되고 있을 수 있음을 시사한다.

다른 경우에는 연구자들이 이전의 우수한 연구를 ‘재합성’ 또는 ‘스핀’하여 ‘게시 또는 죽음’의 학술 연구 문화의 압력을 충족시키고, 가능的话로 AI 연구에서 글로벌 우수성을 위한 국가 순위를 향상시키기 위해 과학적 제출물을 생성하거나 증강하는 데 사용될 수 있다고 주장한다.

제출된 논문에 대한 무의미한 내용. 이 경우, 연구자들은 텍스트가 EDN 기사에서 유래되었으며, 동반하는 일러스트레이션이도 무단으로借用되었다는 것을 발견했다. 원래 내용의 재작성은 무의미한 것으로 판명되었다.

연구자들은 제출된 Elsevier 논문 중 일부를 분석하여 의미를 추론할 수 없는 문장을 발견했으며, 존재하지 않는 문헌에 대한 인용과 변수 및 정리와 관련된 공식을 지원하는 자료에 실제로 나타나지 않는 참조를 발견했다.

인용 실패

과학 논문에서 주장을 지원하기 위한 인용은 많은 경우에 깨져 있거나 관련이 없는 출판물로 연결되는 것으로 발견되었다.

또한 ‘관련 연구’에 대한 인용은 연구자들이 GPT 스타일의 시스템에 의해 ‘환상’된 저자들을 포함하는 경우가 많다.

주의력의 산만

GPT-3와 같은 최첨단 언어 모델의 또 다른 단점은 장기간의 논의에서 주의력을 잃는 경향이 있다는 것이다. 연구자들은 문제가 있는 논문이 종종 논문 초반에 주제를 언급하지만 이후에는 다시 언급하지 않는 경우가 많다고 발견했다.

그들은 또한 이러한 경우가 일부 원본 텍스트가 일련의 번역 엔진을 통해 여러 번 이동하여 각 단계에서 의미를 더 왜곡하는 경우에 발생할 수 있다고 주장한다.

원인과 이유

이 현상의背後에 있는 원인을 찾으려는 노력에서, 논문의 저자들은 여러 가지 가능성을 제안한다. 논문 밀에서来的 내용이 사용되어 초기에 부정확성을 도입하고, 기사 회전 도구가 사용되어 표절을 숨기고, 연구자들이 정기적으로 게시해야 하는 압력이 있기 때문에 GPT-3 스타일의 시스템을 사용하여 새로운 학술 논문을 생성하거나 증강하는 경우가 있다.

연구자들은 학술 출판의 이 분야에서 더 엄격한 감시와 더 높은 표준을 요구하는 행동을 촉구하며, Elsevier와 다른 출판사에게 더 엄격한 심사와 검토 절차를 도입하도록 촉구한다. 또한 현재의 표준과 관행을广泛하게 비판하며, ‘합성 텍스트의 欺瞞이 과학 문헌의完整性을 위협한다.’고 주장한다.