Anderson의 관점

IP 세척 방법들에 대한 인공지능

Published March 16, 2026

Updated April 25, 2026

Martin Anderson

An AI-generated image of Lady Justice surrounded by 'laundered' data. GPT-1.5.

인공지능 훈련에서 지적 재산권을 사용하는 것에 대한 법적 대가가 있을 수 있지만, 이러한 사용을 모호하게 하는 여러 방법이 있습니다.

의견 현재 진행 중인 생성적 인공지능의 혁신은 19세기 이후로 가장 법적으로 위험한 환경에서 진행되고 있습니다 .

4년 전까지 기계 학습 연구 커뮤니티는 IP 보호 자료를 새로운 시스템 개발 과정에서 사용할 수 있는 묵시적(종종 명시적) 허가를 받았습니다. 이러한 시스템은まだ 성숙하지 않았거나 상업적으로 비용 효율적이지 않았기 때문에, 결과는 모든 의미에서 학술적이었습니다.

그 기간 동안, 새로운 세대의 확산 기반 대형 언어 모델(LLM과 같은 ChatGPT 및 Claude)과 비전-언어 모델(VLM과 같은 Sora)의突然한 성공은 이러한 추상적이고 이전에 ‘해armless’한 연구가 상업적으로 비용 효율적이 되고, 지적 재산권을 사용하는 것에 대한 ‘자유 패스’를 넘어섰음을 나타냅니다.

지금부터, 권리 소유자는 자사의 저작권 또는 기타 보호 데이터를 사용하여 훈련된 인공지능 시스템의 결과에 대한 지분을 요구할 것입니다. 이는 계속되는 법적 소송을 가져오며, 이를 추적하기 위해 일부 노력이 필요합니다.

<img class=" wp-image-364027" src="https://www.unite.ai/wp-content/uploads/2026/03/copyright-claims.jpg" alt="미국에서 제기된 소송만으로 제한된 경우, 미국과 그 외의 지역에서 새로운 소송이出现하고 있습니다. 출처 – 출처

‘무료 점심’을 강요하는 것

현재 인공지능 인프라에 대한 금융 투자가 현재 진행 중입니다. 일부 목소리는 이것을 ‘저작권 위험’ 인공지능을 경제 사회에 너무 깊이 심어주어, 그것을 실패로 만들거나 성공적인 소송으로 뒤엎을 수 없도록 만들려는 시도라고 주장합니다.

이러한 일반적인 감정에 대해, 미국 현 대통령은 정책으로 자신의 견해를.committing하고 있습니다. ‘당신은 성공적인 인공지능 프로그램을 가질 수 있을 것으로 기대할 수 없습니다. 모든 기사, 책, 또는 다른 것을 읽거나 공부한 경우, 그것을 위해 지불해야 한다고 생각합니다’.

정말로? 서양 산업 시대에서 이러한 것과 비슷한 또는 비교할 수 있는 것이 발생한 적이 없습니다. 이것은 전통적인 미국의 소송과 배상 문화에 대해 심하게 마찰을 일으키는 운동입니다. 아마도 가장 가까운 유사한 위치는 의약 특허가 20년 후에 만료되는 것(자체적으로 자주 공격을 받습니다)과 공공 장소에서 개인 정보에 대한 기대에 대한 제한입니다.

그러나, 시대는 변합니다. 현재 지적 재산권 보호에 대한 ‘공용화’ 추세가 실패하거나 나중에 역전되지 않을 것이라는 보장이 없는 경우, 인공지능 시스템 개발과 그에 따른 훈련 데이터 처리에서 표준적인 관행이 되는 두 번째 접근 방식이 있습니다.

대리 데이터셋

이러한 접근 방식 중 하나는 토렌트 목록 사이트가 실제로 논란의 여지가 있는 자료를 호스팅하지 않는다는 방어와 유사한 접근 방식을 취합니다.

대용량 이미지 또는 비디오 데이터를 저장하고 제공할 필요를 피함으로써, 이러한 컬렉션은 빠른 업데이트를 허용합니다. 예를 들어, 저작권 소유자의 요청에 따라 자료를 제거하는 경우, 버전 관리를 허용합니다.

토렌트는 실제로 IP 보호 자료가 있는 위치를 가리키는 표식일 뿐입니다. 여러 영향력 있는 데이터셋은 자체적으로 ‘포인터’ 스타일의 목록으로, 사용자가 이러한 목록을 자신의 데이터셋으로 다운로드하려는 경우, 그것은 사용자의 책임입니다.

이러한 데이터셋 중 하나는 Google Research의 Conceptual 12M 데이터셋으로, 이미지에 대한 캡션을 제공하지만, 이미지 자체를 제공하지 않고, 이미지의 위치를 가리킵니다.

Google Research의 Conceptual 12M 컬렉션의 두 가지 예시. 출처

또 다른 유명한 예는 LAION 데이터셋으로, 2022년에 최초의 오픈 소스 생성적 이미지 프레임워크인 Stable Diffusion의 등장에 기여했습니다.

비디오 프리미엄

비디오 데이터셋은 ‘대리’ 또는 포인터 접근 방식에 대한 더욱 강력한 사례를 제공합니다. 왜냐하면 의미 있는 수의 비디오를 단일 다운로드 가능한 컬렉션으로 집계하기 위해 필요한 저장소 데이터의 양이 막대하기 때문입니다.

그러나, 이미지와 비디오 모두에서 다운로드 가능한 소스 URL은 훈련 과정에서 사용되기 전에 상당한 추가 주의가 필요할 것입니다. 이미지와 비디오 모두를 resizing하거나 cropping 결정을 내릴 필요가 있습니다.

닫힌 및 열린

마지막으로, 이 범주에서 ‘오픈’ VFX 데이터는 닫힌 플랫폼에서 생성될 수 있으며, 이후 결과 데이터셋을 발행하고 사용할 수 있습니다. 이것이 발생하는 이유를 궁금해하고, 이것이 발생하는 이유를 고려할 수 있습니다.

한 가지 경우는 Omni-VFX 데이터셋입니다. 이는 Open-VFX 데이터셋의 많은 데이터 포인트를 포함합니다.

조상 책임

IP 세척의 두 번째 주요 접근 방식은 저작권 자료를 한 단계 또는 여러 단계로 사용하는 것입니다. 이 범주에 속하는 방법 중 하나는 저작권 자료가 업스트림에서 훈련된 합성 데이터를 사용하는 것입니다.

추적하는 돈

그러나, 메타와 같은 회사들이 실제로 다양하고 풍부한 ad hoc VFX 샷에 대한 비용을 얼마나 지불할 의향이 있는지 궁금해집니다.

또한, 이러한 비용이 높은 샘플이 ‘제로’에서 훈련된 새로운 아키텍처에 사용될 것이라는 보장이 없습니다. 실제로, 이러한 재창조가 LoRAs와 같은 부가 모듈로 사용된다면, 이 과정은 기본 모델이 ‘IP-청소’인지 여부에 따라 방어할 수 있습니다.

불가능한 임무

VFX 출력의 도메인은 인공지능 데이터셋에서 잠재적인 IP 세척에 대한 관심사로 특히 흥미로운 사례 연구입니다. 왜냐하면 비주얼 이펙트 샷은 종종 ‘불가능한’ 것을 보여주기 때문입니다.

예를 들어, 건물의 파괴는 공개 도메인 또는 기타 저렴한 스톡 클립에서 생성적 모델로 훈련될 수 있습니다. 그러나, 인간의 레이저 빔을 생성하는 모델을 훈련시키려면, VFX 클립에서 훈련해야 합니다.

결론: 얽힌 웹

인공지능을 광범위하게 사용한 사람들은 이러한 시스템이 훈련 데이터에 해당하는 예가 없는 경우 여러 개념을 결합하는 데 어려움을 겪는다는 것을 직관적으로 이해할 것입니다.

이 제한은 얽힘으로 알려져 있으며, 훈련된 개념의 다양한 측면이 관련된 요소와 함께 클러스터링되는 경향이 있습니다.

얽힘은 현재의 주요 생성적 인공지능 프레임워크의 특징인 확산 기반 접근 방식에 대해 거의 탈출할 수 없는 건축적 중력 웰입니다. 그러나, 훈련된 개념을 더 유용하게 결합할 수 있도록 해주는 새로운 접근 방식이出现할 수 있습니다.