인공 지능

표절 문제: 생성 AI 모델이 저작권이 있는 콘텐츠를 재생산하는 방법

게재

4 개월 전

2024 년 1 월 9 일

생성 AI의 급속한 발전은 이 기술의 창의적 잠재력에 대한 관심을 불러일으켰습니다. 그러나 이러한 강력한 모델은 적절한 저작자 표시 없이 저작권이 있거나 표절된 콘텐츠를 복제하는 데 따른 위험에 대한 우려도 제기합니다.

신경망이 훈련 데이터를 흡수하는 방법

GPT-3와 같은 최신 AI 시스템은 전이 학습이라는 프로세스를 통해 훈련됩니다. 이들은 웹사이트, 서적, 학술 논문 등과 같은 공개 소스에서 스크랩한 대규모 데이터 세트를 수집합니다. 예를 들어 GPT-3의 훈련 데이터는 570GB의 텍스트를 포함합니다. 훈련 중에 AI는 이 방대한 데이터 풀에서 패턴과 통계적 관계를 검색합니다. 단어, 문장, 단락, 언어 구조 및 기타 기능 간의 상관 관계를 학습합니다.

이를 통해 AI는 주어진 입력이나 프롬프트를 따를 가능성이 있는 시퀀스를 예측하여 일관성 있는 새로운 텍스트나 이미지를 생성할 수 있습니다. 그러나 이는 또한 이러한 모델이 저작권, 귀속 또는 표절 위험을 고려하지 않고 콘텐츠를 흡수한다는 것을 의미합니다. 결과적으로 생성 AI는 의도치 않게 훈련 말뭉치에서 저작권이 있는 텍스트를 축어적으로 재생산하거나 저작권이 있는 텍스트를 의역할 수 있습니다.

AI 표절의 주요 사례

AI 표절에 대한 우려는 GPT 출시 이후 2020년부터 두드러지게 나타났습니다.

최근 연구에 따르면 GPT-3과 같은 대규모 언어 모델(LLM)은 인용 없이 훈련 데이터에서 상당한 축어적 구절을 재현할 수 있는 것으로 나타났습니다(Nasr et al., 2023; Carlini et al., 2022). 예를 들어, The New York Times의 소송에서는 OpenAI 소프트웨어가 거의 그대로 New York Times 기사를 생성한다는 사실이 밝혀졌습니다(뉴욕타임스, 2023).

이러한 발견은 일부 생성 AI 시스템이 원치 않는 표절 출력을 생성하여 저작권 침해 위험이 있을 수 있음을 시사합니다. 그러나 LLM의 '블랙박스' 특성으로 인해 보급률은 여전히 불확실합니다. New York Times의 소송은 그러한 출력이 침해에 해당하며, 이는 생성적 AI 개발에 큰 영향을 미칠 수 있다고 주장합니다. 전반적으로 증거에 따르면 표절은 경계와 보호 장치가 필요한 대규모 신경망 모델에 내재된 문제입니다.

이러한 사례는 AI 표절 위험에 영향을 미치는 두 가지 주요 요인을 보여줍니다.

모형 크기 – GPT-3.5와 같은 대형 모델은 소형 모델에 비해 텍스트 구절을 그대로 재생성하는 경향이 더 높습니다. 더 큰 훈련 데이터 세트로 인해 저작권이 있는 소스 자료에 대한 노출이 늘어납니다.
훈련 데이터 – 스크랩한 인터넷 데이터 또는 저작물(라이센스가 부여된 경우에도)에 대해 훈련된 모델은 신중하게 선별된 데이터 세트에 대해 훈련된 모델에 비해 표절 가능성이 더 높습니다.

그러나 표절 결과물의 확산을 직접적으로 측정하는 것은 어렵습니다. 신경망의 "블랙박스" 특성으로 인해 훈련 데이터와 모델 출력 사이의 연결을 완전히 추적하기가 어렵습니다. 요금은 모델 아키텍처, 데이터 세트 품질 및 신속한 공식화에 따라 크게 달라질 수 있습니다. 그러나 이번 사례는 그러한 AI 표절이 명백히 발생하고 있음을 확인시켜 주며, 이는 중요한 법적, 윤리적 의미를 갖습니다.

새로운 표절 탐지 시스템

이에 대응하여 연구자들은 인간이 생성한 텍스트와 모델이 생성한 텍스트와 이미지를 자동으로 감지하는 AI 시스템을 탐색하기 시작했습니다. 예를 들어 Mila의 연구원은 AI로 작성된 텍스트를 나타내는 언어 패턴을 분석하는 GenFace를 제안했습니다. Startup Anthropic은 대화형 AI Claude에 대한 내부 표절 탐지 기능도 개발했습니다.

그러나 이러한 도구에는 제한이 있습니다. GPT-3과 같은 모델의 방대한 훈련 데이터로 인해 표절된 텍스트의 원본 소스를 찾아내는 것이 불가능하지는 않더라도 어렵습니다. 생성 모델이 계속 빠르게 발전함에 따라 더욱 강력한 기술이 필요할 것입니다. 그때까지는 공개적으로 사용되기 전에 잠재적으로 표절되었거나 침해된 AI 출력을 선별하기 위해 수동 검토가 필수적입니다.

생성적 AI 표절을 완화하기 위한 모범 사례

다음은 표절 위험을 최소화하기 위해 AI 개발자와 사용자 모두가 채택할 수 있는 몇 가지 모범 사례입니다.

AI 개발자의 경우:

적절한 허가 없이 저작권이 있거나 라이선스가 부여된 자료를 제외하려면 교육 데이터 소스를 주의 깊게 조사하세요.
엄격한 데이터 문서화 및 출처 추적 절차를 개발합니다. 라이선스, 태그, 작성자 등과 같은 메타데이터를 기록합니다.
공개 전에 위험도가 높은 콘텐츠에 플래그를 지정하는 표절 감지 도구를 구현합니다.
우려사항이 발생할 경우 교육 데이터 소스, 라이선스, AI 출력 출처를 자세히 설명하는 투명성 보고서를 제공하세요.
콘텐츠 제작자가 교육 데이터 세트를 쉽게 거부할 수 있도록 허용합니다. 게시 중단 또는 제외 요청을 신속하게 준수하세요.

생성 AI 사용자의 경우:

대규모로 배포하기 전에 잠재적으로 표절되었거나 출처가 밝혀지지 않은 구절에 대한 출력을 철저하게 선별합니다.
AI를 완전히 자율적인 창의적 시스템으로 취급하지 마십시오. 검토자가 최종 콘텐츠를 검토하도록 합니다.
Favor AI는 처음부터 완전히 새로운 콘텐츠를 생성하는 것보다 인간 창작을 지원했습니다. 대신에 의역이나 관념화를 위한 모델을 사용하십시오.
사용하기 전에 AI 제공업체의 서비스 약관, 콘텐츠 정책 및 표절 방지 조치를 참조하세요. 불투명한 모델을 피하세요.
최선의 노력에도 불구하고 저작권이 있는 자료가 최종 결과물에 나타나는 경우 출처를 명확하게 인용하세요. AI 작업을 완전히 독창적인 것으로 제시하지 마세요.
표절 위험이 추가로 평가되고 해결될 때까지 결과를 비공개로 또는 비밀리에 공유하는 것을 제한하십시오.

생성 모델이 계속해서 확산됨에 따라 더 엄격한 교육 데이터 규정이 보장될 수도 있습니다. 여기에는 작업이 데이터 세트에 추가되기 전에 작성자의 사전 동의가 필요할 수 있습니다. 그러나 콘텐츠 제작자의 권리를 존중하는 윤리적인 AI 관행을 채택하는 책임은 개발자와 사용자 모두에게 있습니다.

Midjourney V6 Alpha의 표절

제한된 프롬프트 후 Midjourney의 V6 모델 일부 연구자들은 훈련 데이터에 포함될 가능성이 있는 저작권 보호 영화, TV 프로그램 및 비디오 게임 스크린샷과 거의 동일한 이미지를 생성할 수 있었습니다.

유명 영화 및 비디오 게임의 장면을 닮은 Midjourney가 제작한 이미지

이러한 실험은 훈련 데이터의 출처를 확인하지 않은 상태로 유지되면 최첨단 시각적 AI 시스템이라도 보호된 콘텐츠를 무의식적으로 표절할 수 있음을 더욱 확인시켜 줍니다. 이는 침해 위험을 제한하기 위해 생성 모델을 상업적으로 배포할 때 경계, 보호 조치 및 인간 감독의 필요성을 강조합니다.

한편, 소송에서는 Getty 대 Stability AI, Artists 대 Stability AI와 같은 생성적 AI 침해를 주장합니다. 중도/안정성 AI. 그러나 AI '저작자'가 없으면 침해 주장이 적용되는지 의문이 듭니다.

구글 주장 AI 훈련은 책을 읽는 것과 같은 비침해 행위와 유사하다 (구글, 2022).

책임 있는 생성적 AI 혁신을 위한 경로

이러한 강력한 생성 모델이 계속 발전함에 따라 표절 위험을 막는 것이 주류 수용을 위해 중요합니다. 다각적인 접근 방식이 필요합니다.

교육 데이터 투명성, 라이선스, 제작자 동의에 관한 정책 개혁.
더욱 강력한 표절 탐지 기술과 개발자의 내부 거버넌스.
위험에 대한 사용자 인식이 향상되고 윤리적 AI 원칙을 준수합니다.

올바른 보호 조치를 취하면 AI 지원 창작물이 윤리적으로 번성할 수 있습니다. 그러나 확인되지 않은 표절 위험은 대중의 신뢰를 크게 훼손할 수 있습니다. 이 문제를 직접 해결하는 것은 창작자의 권리를 존중하면서 생성 AI의 엄청난 창의적 잠재력을 실현하는 데 핵심입니다. 올바른 균형을 이루려면 신경망의 본질에 내재된 표절 맹점에 적극적으로 맞서야 합니다. 그러나 그렇게 하면 이러한 강력한 모델이 강화하려는 인간의 독창성을 훼손하지 않도록 보장할 수 있습니다.

Unite.AI

표절 문제: 생성 AI 모델이 저작권이 있는 콘텐츠를 재생산하는 방법

인공 지능

표절 문제: 생성 AI 모델이 저작권이 있는 콘텐츠를 재생산하는 방법

차례

신경망이 훈련 데이터를 흡수하는 방법

AI 표절의 주요 사례

새로운 표절 탐지 시스템

생성적 AI 표절을 완화하기 위한 모범 사례

Midjourney V6 Alpha의 표절

AI 기업 저작권 콘텐츠 대응

책임 있는 생성적 AI 혁신을 위한 경로

최근 게시물

Unite.AI

표절 문제: 생성 AI 모델이 저작권이 있는 콘텐츠를 재생산하는 방법

차례

신경망이 훈련 데이터를 흡수하는 방법

AI 표절의 주요 사례

새로운 표절 탐지 시스템

생성적 AI 표절을 완화하기 위한 모범 사례

Midjourney V6 Alpha의 표절

AI 기업 저작권 콘텐츠 대응

책임 있는 생성적 AI 혁신을 위한 경로

너는 좋아할지도 모른다.

최근 게시물