인공지능

AI 훈련을 위한 연구의 수익화: 위험과 최선의 관행

Published December 20, 2024

Updated April 3, 2026

Dr. Tehseen Zia

제네러티브 AI의 수요가 증가함에 따라 이러한 시스템을 훈련시키기 위한 고품질 데이터에 대한需求도 증가하고 있다. 학술 출판사들은 대규모 언어 모델(LLMs)의 훈련 데이터를 제공하기 위해 자신의 연구 내용을 수익화하기 시작했다. 이 발전은 출판사에게 새로운 수익원을 창출하고 과학적 발견을 위한 제네러티브 AI를 강화하는 동시에 연구의完整성과 신뢰성에 대한 중요한 질문을 제기한다. 이것은 중요한 질문을 제기한다: 판매되는 데이터셋이 신뢰할 수 있는지, 그리고 이러한 관행이 과학 공동체와 제네러티브 AI 모델에 어떤 영향을 미치는지에 대한 것이다.

수익화된 연구 계약의 부상

주요 학술 출판사인 Wiley, Taylor & Francis 등은 제네러티브 AI 모델을 개발하는 기술 회사에 자신의 내용을 라이선스하여 상당한 수익을 올린 것으로 보고했다. 예를 들어, Wiley는 올해만 해당 거래에서 4,000만 달러 이상의 수익을 올렸다고 밝혔다. 이러한 계약은 AI 회사들이 다양한 과학 데이터셋에 접근할 수 있도록 해주어presumably AI 도구의 품질을 향상시킨다.

출판사의 제안은 간단하다: 라이선싱은 더 나은 AI 모델을 가능하게 해주며, 사회에ประโยชน을 주고 저자에게 로열티를 제공한다. 이 비즈니스 모델은 기술 회사와 출판사 모두에게 이익이 된다. 그러나 과학적 지식을 수익화하는 경향은 위험을 수반한다. 특히 의심스러운 연구가 이러한 AI 훈련 데이터셋에 침투할 때 더욱 그렇다.

가짜 연구의 그림자

학술 공동체는 부정확한 연구에 대한 문제에 익숙하다. 연구에 따르면 많은 출판된 연구 결과가 결함이 있거나 편향되거나 단순히 신뢰할 수 없다. 2020년 조사에 따르면 거의 절반의 연구자가 데이터 보고의 선택적 문제나 설계가 잘못된 필드 연구와 같은 문제를 보고했다. 2023년에는 10,000개 이상의 논문이 조작된 또는 신뢰할 수 없는 결과로 인해 철회되었다. 이는 매년 증가하는 추세이며, 전문가들은 이 수치가 얼음山의 일각에 불과하다고 믿고 있다. 수많은 의심스러운 연구가 과학 데이터베이스에 گردش하고 있다.

이 위기는 주로 “연구 논문 밀”에 의해 주도되고 있다. 이는 종종 중국, 인도, 동유럽과 같은 지역에서 학술 압력에 대응하여 가짜 연구를 생산하는 조직이다. 연구 논문 밀에서 전 세계적으로 제출되는 논문의 약 2%가 추정된다. 이러한 가짜 논문은 합법적인 연구와 유사하지만 허위 데이터와 근거 없는 결론으로 가득 차 있다. 이러한 논문은 심사 과정에서 통과하고 존경받는 저널에 실리며 과학적 통찰력의 신뢰성을 손상시킨다. 예를 들어, COVID-19 대유행期间, 이버멕틴에 대한 결함이 있는 연구는 그 효과를 허위로 제안하며 공중 보건 대응을 지연시켰다. 이는 불신뢰한 연구를 전파할 때의 잠재적 위험을 강조한다. 여기서 결함이 있는 결과는重大한 영향을 미칠 수 있다.

AI 훈련과 신뢰에 대한 영향

데이터셋에 부정확하거나 품질이 낮은 연구가 포함된 경우 LLMs의 훈련에는 심오한影響이 있다. AI 모델은 자신의 훈련 데이터 내에서 패턴과 관계를 사용하여 출력을 생성한다. 입력 데이터가 손상되면 출력은 부정확성을 지속시키거나 심지어 증폭시킬 수 있다. 특히 의학 분야에서 이러한 위험은 특히 높다. 여기서 부정확한 AI 생성 통찰력은 생명에 위협을 가할 수 있다.

또한 이 문제는 학술계와 AI에 대한 공공의 신뢰를 위협한다. 출판사가 계속해서 협약을 체결함에 따라, 데이터의 품질에 대한 우려를 해결해야 한다. 이를 실패하면 과학 공동체의 평판을 손상시키고 AI의 잠재적 사회적ประโยชน을 약화시킬 수 있다.

신뢰할 수 있는 데이터를 위한 보장

부정확한 연구로 인해 AI 훈련을 방해하는 위험을 줄이기 위해서는 출판사, AI 회사, 개발자, 연구자 및 더 넓은 공동체의 공동 노력이 필요하다. 출판사는 자신의 심사 과정 개선을 통해 데이터셋에 포함되기 전에 신뢰할 수 없는 연구를 잡아야 한다. 심사자에게 보상을 더 잘 제공하고 기준을 높이는 것이 도움이 될 수 있다. 공개 심사 과정은 여기서 중요하다. 이는 더 많은 투명성과 책임성을 가져오며 연구에 대한 신뢰를 구축하는 데 도움이 된다.

AI 회사들은 AI 훈련을 위해 연구를 소싱할 때 더 주의해야 한다. 출판사와 저널이 높은 품질의 연구를 출판하는 것으로 알려진 곳을 선택하는 것이 중요하다. 이러한 맥락에서 출판사의 기록을 면밀히 살펴보는 것이 가치 있다. 예를 들어, 얼마나 자주 논문을 철회하는지 또는 심사 과정에 대해 얼마나 공개적인지에 대한 것이다. 선택적이면 데이터의 신뢰성을 향상시키고 AI 및 연구 공동체 간의 신뢰를 구축하는 데 도움이 된다.

AI 개발자는 사용하는 데이터에 대한 책임을 져야 한다. 이는 전문가와 함께 일하고, 연구를 주의 깊게 확인하며, 여러 연구의 결과를 비교하는 것을 의미한다. AI 도구 자체도 의심스러운 데이터를 식별하고 의심스러운 연구가 더 weit 퍼지는 위험을 줄이는 데 설계될 수 있다.

투명성도 중요한 요소이다. 출판사와 AI 회사는 연구가 어떻게 사용되고 로열티가 어디로 가는지에 대한 세부 정보를 공개적으로 공유해야 한다. 제네러티브 AI 라이선스 계약 추적기와 같은 도구는 약속을 보여주지만, 더 넓은 채택이 필요하다. 연구자들은 자신의 연구가 어떻게 사용되는지에 대해 말할 수 있어야 한다. 옵트인 정책은 Cambridge University Press와 같은 저자에게 그들의 기여에 대한 통제를 제공한다. 이는 신뢰를 구축하고, 공정성을 보장하며, 저자들이 이 과정에积極적으로 참여하도록 한다.

또한, 고품질 연구에 대한 공개 접근을 권장하여 AI 개발에서 포용성과 공정성을 보장해야 한다. 정부, 비영리 단체, 산업계는 중요한 훈련 데이터셋에 대한 상업 출판사에 대한 의존도를 줄이기 위해 공개 접근 이니셔티브를资助할 수 있다. 또한, AI 산업은 데이터를 윤리적으로 소싱하기 위한 명확한 규칙이 필요하다. 신뢰할 수 있고 잘 검토된 연구에 중점을 두면, 우리는 더 나은 AI 도구를 구축하고 과학적 완전성을 보호하며 공공의 과학 및 기술에 대한 신뢰를 유지할 수 있다.

결론

AI 훈련을 위한 연구의 수익화는 기회와 도전을 모두 제시한다. 학술 내용을 라이선스하여 더 강력한 AI 모델을 개발할 수 있지만, 사용된 데이터의 完全성과 신뢰성에 대한 우려도 제기한다. “연구 논문 밀”에서 나온 가짜 연구와 같은 결함이 있는 연구는 AI 훈련 데이터셋을 손상시킬 수 있으며, 이는 공공의 신뢰와 AI의 잠재적 사회적 이점을 약화시킬 수 있다. 신뢰할 수 있는 데이터에 기반한 AI 모델을 보장하기 위해, 출판사, AI 회사, 개발자는 함께 일하여 심사 과정 개선, 투명성 증가, 고품질 연구 우선순위를 설정해야 한다. 이를 통해 우리는 AI의 미래를 보호하고 과학 공동체의 完全성을 유지할 수 있다.

Dr. Tehseen Zia

Dr. Tehseen Zia는 COMSATS University Islamabad의 정교수이며, 오스트리아 비엔나 기술대학교에서 인공지능 박사학위를 취득했습니다. 인공지능, 기계학습, 데이터 과학, 컴퓨터 비전을 전문으로 하며, 유명한 과학 저널에 발표된 논문으로 знач적인 기여를 했습니다. Dr. Tehseen은 주요 연구자로서 다양한 산업 프로젝트를 이끌었으며, 인공지능 컨설턴트로도 활동했습니다.