부본 훈련된 LLM으로부터 저작권 데이터 학습 해제 – 가능합니까? - Unite.AI
Rescale 미팅 예약

인공 지능

훈련된 LLM으로부터 저작권이 있는 데이터를 학습하지 않는 것이 가능합니까?

mm

게재

 on

저작권 기호의 블로그 이미지

인공 지능(AI) 및 기계 학습(ML) 영역에서 대규모 언어 모델(LLM)은 성과와 과제를 모두 보여줍니다. 방대한 텍스트 데이터세트에 대한 교육을 받았으며, LLM 모델 인간의 언어와 지식을 캡슐화한다.

그러나 인간의 이해를 흡수하고 모방하는 능력은 법적, 윤리적, 기술적 과제를 제시합니다. 더욱이 LLM을 지원하는 대규모 데이터 세트에는 독성 자료, 저작권이 있는 텍스트, 부정확성 또는 개인 데이터가 포함될 수 있습니다.

LLM이 선택한 데이터를 잊어버리게 만드는 것은 법적 준수와 윤리적 책임을 보장하기 위한 시급한 문제가 되었습니다.

근본적인 질문을 해결하기 위해 LLM이 저작권이 있는 데이터를 학습하지 않게 만드는 개념을 살펴보겠습니다. 가능합니까?

LLM 언러닝이 필요한 이유는 무엇입니까?

LLM에는 저작권이 있는 데이터를 포함하여 분쟁이 있는 데이터가 포함되는 경우가 많습니다. LLM에 이러한 데이터가 있으면 개인 정보, 편향된 정보, 저작권 데이터 및 허위 또는 유해 요소와 관련된 법적 문제가 발생합니다.

따라서 LLM이 개인 정보 보호 규정을 준수하고 저작권 책임 있고 윤리적인 LLM을 장려하는 법률입니다.

저작권법 및 IP 권리 파일을 묘사한 스톡 이미지

그러나 이러한 모델이 습득한 방대한 지식에서 저작권이 있는 콘텐츠를 추출하는 것은 어렵습니다. 이 문제를 해결하는 데 도움이 될 수 있는 몇 가지 언러닝 기술은 다음과 같습니다.

  • 데이터 필터링: 여기에는 모델의 학습 데이터에서 저작권이 있는 요소, 시끄럽거나 편향된 데이터를 체계적으로 식별하고 제거하는 작업이 포함됩니다. 그러나 필터링을 수행하면 필터링 과정에서 저작권이 없는 귀중한 정보가 손실될 가능성이 있습니다.
  • 그라데이션 방법: 이 방법은 손실 함수의 기울기를 기반으로 모델의 매개변수를 조정하여 ML 모델의 저작권 데이터 문제를 해결합니다. 그러나 조정은 저작권이 없는 데이터에 대한 모델의 전반적인 성능에 부정적인 영향을 미칠 수 있습니다.
  • 상황에 따른 학습 취소: 이 기술은 관련 없는 지식에 영향을 주지 않고 매개변수를 업데이트하여 모델에 대한 특정 훈련 포인트의 영향을 효율적으로 제거합니다. 그러나 이 방법은 정확한 결과를 얻는 데 한계가 있습니다. unlearning, 특히 대형 모델의 경우 그 효과에 대한 추가 평가가 필요합니다.

이러한 기술은 리소스 집약적이고 시간 소모적이어서 구현하기 어렵습니다.

고객사례

LLM 학습의 중요성을 이해하기 위해 이러한 실제 사례는 기업이 LLM(대형 언어 모델) 및 저작권 데이터와 관련된 법적 문제로 어떻게 붐비는지를 강조합니다.

OpenAI 소송: OpenAI저명한 AI 회사인 는 수많은 공격을 받았습니다. 소송 LLM의 훈련 데이터에 대해. 이러한 법적 조치는 LLM 교육에서 저작권이 있는 자료의 활용에 대해 의문을 제기합니다. 또한 모델이 교육 과정에 통합된 각 저작물에 대한 허가를 확보하기 위해 사용하는 메커니즘에 대한 조사를 촉발했습니다.

사라 실버맨 소송: XNUMXD덴탈의 사라 실버만 사건 ChatGPT 모델이 승인 없이 그녀의 책 요약을 생성했다는 주장과 관련이 있습니다. 이번 법적 조치는 AI와 저작권 데이터의 미래에 관한 중요한 문제를 강조합니다.

기술 발전에 맞춰 법적 프레임워크를 업데이트하면 AI 모델의 책임감 있고 합법적인 활용이 보장됩니다. 또한 연구 커뮤니티는 LLM을 윤리적이고 공정하게 만들기 위해 이러한 문제를 포괄적으로 해결해야 합니다.

전통적인 LLM 언러닝 기법

LLM 학습 해제는 복잡한 조리법에서 특정 재료를 분리하여 원하는 구성 요소만 최종 요리에 기여하도록 하는 것과 같습니다. 전통적인 LLM 학습 취소 선별된 데이터를 사용한 미세 조정 및 재교육과 같은 기술에는 저작권이 있는 데이터를 제거하기 위한 간단한 메커니즘이 부족합니다.

이들의 폭넓은 접근 방식은 광범위한 재교육이 필요하기 때문에 선택적 학습 해제라는 정교한 작업에 비효율적이고 리소스 집약적인 것으로 종종 입증되었습니다.

이러한 전통적인 방법은 모델의 매개변수를 조정할 수 있지만 저작권이 있는 콘텐츠를 정확하게 타겟팅하는 데 어려움을 겪으며 의도하지 않은 데이터 손실 및 최적이 아닌 규정 준수의 위험이 있습니다.

결과적으로 기존 기술과 강력한 솔루션의 한계로 인해 대체 언러닝 기술을 사용한 실험이 필요합니다.

새로운 기법: 훈련 데이터의 하위 집합을 학습 해제

XNUMXD덴탈의 마이크로소프트 연구 논문 LLM에서 저작권이 있는 데이터를 학습하지 않는 획기적인 기술을 소개합니다. Llama2-7b 모델과 Harry Potter 책의 예에 초점을 맞춘 이 방법에는 LLM이 Harry Potter의 세계를 잊게 만드는 세 가지 핵심 구성 요소가 포함됩니다. 이러한 구성 요소에는 다음이 포함됩니다.

  • 강화된 모델 식별: 강화된 모델을 생성하려면 학습되지 않은 콘텐츠에 대한 지식을 강화하기 위해 대상 데이터(예: Harry Potter)를 미세 조정하는 작업이 포함됩니다.
  • 특이한 표현 대체: 대상 데이터의 해리포터 특유의 표현을 일반적인 표현으로 대체하여 보다 일반화된 이해를 돕습니다.
  • 대체 예측에 대한 미세 조정: 기본 모델은 이러한 대체 예측을 기반으로 미세 조정을 거칩니다. 기본적으로 관련 맥락에 직면하면 메모리에서 원본 텍스트를 효과적으로 삭제합니다.

Microsoft 기술은 초기 단계에 있고 제한이 있을 수 있지만 보다 강력하고 윤리적이며 적응력이 뛰어난 LLM을 향한 유망한 발전을 나타냅니다.

새로운 기술의 결과

LLM이 마이크로소프트 연구 논문 책임 있고 윤리적인 모델을 향한 한 단계입니다.

새로운 기술에는 저작권이 있는 작품이 포함된 "books2" 데이터세트에서 훈련된 것으로 알려진 Meta의 Llama7-3b 모델에서 해리포터 관련 콘텐츠를 삭제하는 작업이 포함됩니다. 특히, 모델의 원래 반응은 일반적인 프롬프트에서도 JK Rowling의 세계에 대한 복잡한 이해를 보여주었습니다.

그러나, 마이크로 소프트 제안된 기술은 반응을 크게 변화시켰습니다. 다음은 원래 Llama2-7b 모델과 미세 조정된 버전 간의 눈에 띄는 차이점을 보여주는 프롬프트의 예입니다.

기준선과 미세 조정된 프롬프트 비교

이미지 소스 

이 표는 미세 조정된 언러닝 모델이 다양한 벤치마크(예: Hellaswag, Winogrande, piqa, boolq 및 arc)에서 성능을 유지한다는 것을 보여줍니다.

새로운 기술 벤치마크 평가

이미지 소스

모델 프롬프트와 후속 응답 분석에 의존하는 평가 방법은 효과적인 것으로 입증되었지만 더 복잡하고 적대적인 정보 추출 방법을 간과할 수 있습니다.

이 기술은 유망하지만, 특히 LLM 내에서 더 광범위한 비학습 작업을 해결하려면 개선 및 확장을 위한 추가 연구가 필요합니다.

새로운 언러닝 기법의 과제

Microsoft의 언러닝 기술은 가능성을 보여주지만 몇 가지 AI 저작권 문제와 제약이 존재합니다.

개선이 필요한 주요 제한 사항과 영역은 다음과 같습니다.

  • 저작권 정보 유출: 이 방법은 다음과 같은 위험을 완전히 완화할 수는 없습니다. 저작권 정보 모델이 미세 조정 프로세스 중에 대상 콘텐츠에 대한 일부 지식을 보유할 수 있기 때문에 누출이 발생합니다.
  • 다양한 데이터 세트 평가: 효율성을 측정하려면 초기 실험이 해리포터 책에만 초점을 맞추었기 때문에 다양한 데이터세트에 걸쳐 이 기술을 추가로 평가해야 합니다.
  • 확장성: 실제 시나리오에서 기술의 적용 가능성과 적응성을 평가하려면 더 큰 데이터 세트와 더 복잡한 언어 모델에 대한 테스트가 필수적입니다.

AI 관련 법적 소송, 특히 LLM을 대상으로 한 저작권 소송의 증가는 명확한 지침의 필요성을 강조합니다. Microsoft가 제안한 언러닝 방법과 같은 유망한 개발은 윤리적이고 합법적이며 책임감 있는 AI를 향한 길을 열어줍니다.

AI와 ML에 관한 최신 뉴스와 분석을 놓치지 마세요 – 방문하세요 단결.ai .