부본 AI가 생성한 언어가 과학 문헌을 오염시키기 시작했습니다 - Unite.AI
Rescale 미팅 예약

인공 지능

AI로 생성된 언어가 과학 문헌을 오염시키기 시작했습니다.

mm
업데이트 on

프랑스와 러시아의 연구원들은 GPT-3와 같은 AI 기반 확률론적 텍스트 생성기를 사용하면 '고문 언어', 존재하지 않는 문헌의 인용, 임시적이고 신뢰할 수 없는 이미지 재사용을 이전에 존경할 만한 채널에 도입하고 있음을 나타내는 연구를 발표했습니다. 새로운 과학 문헌의 출판.

아마도 가장 우려되는 점은 연구된 논문에 객관적이고 체계적인 연구의 결실로 제시된 과학적으로 부정확하거나 재현할 수 없는 내용이 포함되어 있다는 점일 것입니다. 그러나 실제로 관련된 힘든 일을 하는 것(그리고 항상 나쁜 일을 하는 것).

XNUMXD덴탈의 신고제목 고문 문구: 과학에서 나타나는 의심스러운 글쓰기 스타일, 툴루즈 대학의 컴퓨터 과학과 연구원과 현재 텔아비브 대학의 Yandex 연구원 Alexander Magazinov가 편집했습니다.

이 연구는 특히 엘스비어 저널(Elsevier Journal)의 무의미한 AI 생성 과학 간행물의 성장에 초점을 맞춥니다. 마이크로프로세서 및 마이크로시스템.

다른 이름으로

GPT-3과 같은 자동 회귀 언어 모델은 대량의 데이터에 대해 교육을 받고, 원래의 말과 쓰기 패턴을 유지하면서 자연스러운 말과 쓰기 패턴을 재현할 수 있는 응집력 있는 생성 언어 모델에 기여하는 데이터를 의역, 요약, 대조 및 해석하도록 설계되었습니다. 훈련 데이터의 의도.

이러한 프레임워크는 원본 데이터의 직접적이고 '흡수되지 않은' 역류를 제공하는 모델 교육 단계에서 종종 처벌을 받기 때문에 필연적으로 동의어를 찾습니다.

연구원들이 발굴한 AI로 제작/지원된 것으로 보이는 과학적 제출물에는 기계 학습 분야에서 알려진 문구에 대한 창의적인 동의어에 대한 실패한 시도가 엄청나게 많이 포함되어 있습니다.

심층 신경망: '심오한 신경 조직'
인공신경망k: '(가짜|위조)신경조직'
모바일 네트워크: '다재다능한 조직'
네트워크 공격: '조직 (매복|공격)'
네트워크 연결: '단체 연합'
빅 데이터: '(엄청난|거대한|엄청난|엄청난) 정보'
데이터웨어 하우스: '정보(창고|물류센터)'
인공지능(AI): '(가짜 | 인간이 만든) 의식'
고성능 컴퓨팅: '엘리트 피겨링'
안개/미스트/클라우드 컴퓨팅: '헤이즈피규어링'
그래픽 처리 장치(GPU): '디자인 준비반'
중앙 처리 장치(CPU): '포컬 준비 유닛'
워크플로우 엔진: '작업 프로세스 모터'
얼굴 인식: '얼굴 인정'
음성 인식: '담론 인정'
평균 제곱 오차: '평균 제곱 (실수 | 실수)'
평균 절대 오차: 'mean (완전히 | 최고) (실수 | 실수)'
신호 대 잡음: '(움직임 | 깃발 | 표시기 | 기호 | 신호) to (소란 | 동요 | 소음)'
전역 매개변수: '전세계 매개변수'
임의 액세스: '(임의 | 비정규) 통과권을 얻다'
랜덤 포레스트: '(임의 | 불규칙) (불모지 | 삼림지 | 무성한 영토)'
무작위 값: '(임의|불규칙)존중'
개미 식민지: '지하곤충(주|도|지역|지역|정착지)'
개미 식민지: '지하 오싹 크롤리(주|도|지역|지역|정착지)'
남은 에너지: 남은 활력'
운동 에너지: '운동 활력'
나이브 베이즈: '(신실한 | 순진한 | 속기 쉬운) Bayes'
PDA(개인용 디지털 비서): '개인 전산 협력자'

2021년 XNUMX월 연구원들은 크기 '거대한 정보'(유효한 문구이며 '빅 데이터'의 실패한 동의어가 아님)와 같은 적법한 문구를 제외하도록 주의하면서 이런 종류의 맹글링되고 자동화된 언어를 찾는 학술 검색 엔진입니다. 이 시점에서 그들은 다음을 관찰했습니다. 마이크로프로세서 및 마이크로시스템 잘못된 패러프레이징이 가장 많이 발생했습니다.

현재로서는 여전히 가능합니다. 검색 (아카이브 스냅샷, 15년 07월 2021일) 넌센스 문구 '심오한 신경 조직'(예: '심층 신경망')에 대한 여러 과학 논문과 위 목록의 다른 논문이 비슷한 조회수를 생성합니다.

Dimension에서 '심층 신경망'('심층 신경망')에 대한 검색 결과입니다. 출처: https://app.dimensions.ai/

Dimension에서 '심층 신경망'('심층 신경망')에 대한 검색 결과입니다. 출처: https://app.dimensions.ai/

XNUMXD덴탈의 마이크로 프로세서 저널은 1976년에 창간되었으며, 마이크로프로세서 및 마이크로시스템 2 년 후.

넌센스 언어의 성장

연구원들은 2018년 2021월부터 6년 8월까지의 기간을 연구했으며 지난 XNUMX년 동안, 특히 지난 XNUMX-XNUMX개월 동안 제출물량이 급격히 증가한 것을 관찰했습니다.

상관관계인가 인과관계인가? Microprocessors and Microsystems 저널에 대한 투고의 증가는 '말도 안 되는' 텍스트 및 동의어의 증가와 일치하는 것으로 보입니다. 출처: https://arxiv.org/pdf/2107.06751.pdf

상관관계인가 인과관계인가? Microprocessors and Microsystems 저널에 대한 투고의 증가는 '말도 안 되는' 텍스트 및 동의어의 증가와 일치하는 것으로 보입니다. 출처 : https://arxiv.org/pdf/2107.06751.pdf

공동 작업자가 수집한 최종 데이터 세트에는 University of Toulouse의 Elsevier 구독을 통해 얻은 1,078개의 전체 길이 기사가 포함되어 있습니다.

중국 과학 논문에 대한 편집 감독 감소

이 논문은 플래그가 지정된 제출물의 편집 평가에 할당된 기간이 2021년에 급격히 단축되어 40일 미만으로 떨어지는 것을 관찰합니다. 2021년 XNUMX월부터 피어 리뷰 표준 시간이 XNUMX배 감소했습니다.

플래그가 지정된 논문 중 가장 많은 수는 중국 본토와 관련된 저자의 논문입니다. 404일 이내에 승인된 30개의 논문 중 97.5%가 중국과 관련이 있습니다. 반대로 편집 과정이 40일을 초과한 경우(615개 논문) 중국 관련 투고는 해당 범주의 9.5%에 불과하여 XNUMX배의 불균형을 나타냈습니다.

이 보고서는 플래그가 지정된 논문이 편집 과정의 결점과 점점 더 많은 제출물에 직면한 리소스 부족에 기인한다고 설명합니다.

연구자들은 GPT 스타일의 생성 모델 및 유사한 유형의 언어 생성 프레임워크가 플래그가 지정된 문서에서 많은 텍스트를 생성하는 데 사용되었다고 가정합니다. 그러나 생성 모델이 소스를 추상화하는 방식은 이를 증명하기 어렵게 만들고 주요 증거는 형편없고 불필요한 동의어에 대한 상식적인 평가와 제출물의 논리적 일관성에 대한 세심한 조사에 있습니다.

연구자들은 더 나아가 이 넌센스 범람에 기여하고 있다고 생각하는 생성 언어 모델이 문제가 있는 텍스트를 생성할 수 있을 뿐만 아니라 연구자 자신이 수행한 것과 같은 방식으로 이를 인식하고 체계적으로 표시할 수 있음을 관찰했습니다. 수동으로. 이 작업은 GPT-2를 사용하여 그러한 구현을 자세히 설명하고 문제가 있는 과학적 제출물을 식별하기 위한 미래 시스템을 위한 프레임워크를 제공합니다.

Elsevier 저널(72.1%)은 다른 연구 저널(최대 13.6%)에 비해 '오염된' 투고의 발생률이 훨씬 더 높습니다.

시맨틱 뿐만 아니라

연구원들은 문제의 많은 저널이 단순히 잘못된 언어를 사용하는 것이 아니라 과학적으로 부정확한 진술을 포함하고 있다고 강조합니다. 이는 생성 언어 모델이 기여하는 과학자의 제한된 언어 능력을 향상시키는 데만 사용되는 것이 아니라 실제로 논문의 핵심 정리 및 데이터 중 적어도 일부를 공식화하는 데 사용됩니다.

다른 경우에 연구자들은 학술 연구 문화의 '게시 또는 소멸'의 압력을 충족하고 가능한 경우 전 세계 사전에 대한 국가 순위를 향상시키기 위해 추상화된(및 우수한) 이전 작업의 효과적인 '재합성' 또는 '스피닝'을 가정합니다. 엄청난 양을 통해 AI 연구의 탁월함.

제출된 논문의 무의미한 내용. 이 경우 연구원들은 해당 텍스트가 EDN 기사에서 임시로 파생되었으며 첨부된 삽화도 귀속 없이 도용된 것을 발견했습니다. 원래 내용을 다시 쓰는 것은 의미가 없을 정도로 극단적입니다.

제출된 논문의 무의미한 내용. 이 경우 연구원들은 텍스트가 EDN 기사, 첨부된 삽화도 귀속 없이 도용된 곳입니다. 원래 내용을 다시 쓰는 것은 의미가 없을 정도로 극단적입니다.

제출된 여러 Elsevier 논문을 분석한 결과, 연구원들은 어떤 의미도 추론하지 못한 문장을 발견했습니다. 존재하지 않는 문헌에 대한 언급; 지원 자료에 실제로 나타나지 않은 수식의 변수 및 정리에 대한 참조(언어 기반 추상화 제안 또는 '환각명백한 사실 데이터의 '); 출처를 밝히지 않고 이미지를 재사용하는 행위(저작권의 관점에서 비판하는 것이 아니라 과학적 엄격함이 부적절함을 나타내는 지표로 비판함).

인용 실패

과학 논문의 주장을 뒷받침하기 위한 인용은 플래그가 지정된 많은 예에서 '잘못되었거나 관련 없는 출판물로 이어지는' 것으로 나타났습니다.

또한 '관련 작업'에 대한 참조에는 연구원이 GPT 스타일 시스템에 의해 '환각'되었다고 믿는 저자가 포함되는 경우가 많습니다.

방황주의

GPT-3와 같은 최첨단 언어 모델의 또 다른 단점은 긴 담화에 대해 초점을 잃는 경향이 있다는 것입니다. 연구원들은 플래그가 지정된 논문이 종종 논문의 초기에 주제를 제기하며, 이는 예비 노트나 다른 곳에서 처음 언급된 후 실제로는 다시는 돌아오지 않는 것을 발견했습니다.

그들은 또한 일련의 번역 엔진을 통해 소스 텍스트의 여러 여정을 통해 최악의 예 중 일부가 발생하며 각각 의미를 더 왜곡한다는 이론을 세웁니다.

출처 및 이유

이 현상 뒤에 무엇이 있는지 식별하기 위해 논문의 저자는 여러 가지 가능성을 제시합니다. 제지 공장들 필연적으로 추가 부정확성을 생성하는 프로세스 초기에 부정확성을 도입하여 소스 자료로 사용되고 있습니다. Spinbot과 같은 기사 회전 도구는 표절을 가리는 데 사용됩니다. 그리고 정기적으로 출판해야 한다는 압도적인 압력으로 인해 자원이 부족한 연구자들은 GPT-3 스타일 시스템을 사용하여 새로운 학술 논문을 보강하거나 완전히 생성합니다.

연구자들은 자체 주제인 머신 러닝 시스템을 위한 사료가 되는 것으로 명백히 입증되고 있는 학술 출판 분야에서 더 많은 감독과 개선된 표준을 위한 조치를 촉구하며 마무리합니다. 그들은 또한 Elsevier와 다른 출판사들에게 보다 엄격한 심사 및 검토 절차를 도입하도록 권고하고 이와 관련하여 현재의 표준과 관행을 광범위하게 비판하며 다음과 같이 제안합니다.합성 텍스트를 이용한 속임수는 과학 문헌의 무결성을 위협합니다.'