Искусственный интеллект

Проблема плагиата: как модели генеративного ИИ воспроизводят защищенный авторским правом контент

Published January 9, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Быстрый прогресс в области генеративного ИИ вызвал возбуждение вокруг творческого потенциала этой технологии. Однако эти мощные модели также представляют собой тревожные риски, связанные с воспроизведением защищенного авторским правом или плагиатного контента без надлежащего указания источников.

Как нейронные сети поглощают обучающие данные

Современные системы ИИ, такие как GPT-3, обучаются с помощью процесса, называемого трансферным обучением. Они поглощают огромные наборы данных, собранные из публичных источников, таких как веб-сайты, книги, академические статьи и многое другое. Например, обучающие данные GPT-3 включали 570 гигабайт текста. Во время обучения ИИ ищет закономерности и статистические отношения в этом огромном массиве данных. Он учится корреляциям между словами, предложениями, абзацами, языковой структурой и другими особенностями.

Это позволяет ИИ генерировать новый связный текст или изображения, предсказывая последовательности, которые, вероятно, будут следовать за заданным входным сигналом или подсказкой. Однако это также означает, что эти модели поглощают контент без учета авторских прав, атрибуции или рисков плагиата. В результате генеративные ИИ могут непреднамеренно воспроизводить дословные отрывки или парафразировать защищенный авторским правом текст из своих обучающих корпусов.

Ключевые примеры плагиата ИИ

Проблемы вокруг плагиата ИИ стали особенно актуальными с 2020 года после выпуска GPT.

Недавние исследования показали, что большие языковые модели (LLM), такие как GPT-3, могут воспроизводить значительные дословные отрывки из своих обучающих данных без цитирования (Nasr et al., 2023; Carlini et al., 2022). Например, судебный иск The New York Times показал, что программное обеспечение OpenAI генерирует статьи The New York Times почти дословно (The New York Times, 2023).

Эти результаты свидетельствуют о том, что некоторые системы генеративного ИИ могут производить непрошенные плагиатные выходные данные, рискуя нарушить авторские права. Однако распространенность остается неопределенной из-за “черного ящика” природы LLM. Судебный иск The New York Times утверждает, что такие выходные данные составляют нарушение, которое может иметь серьезные последствия для разработки генеративного ИИ. В целом, доказательства указывают на то, что плагиат является неотъемлемой проблемой в больших моделях нейронных сетей, которая требует бдительности и мер безопасности.

Эти случаи раскрывают два ключевых фактора, влияющих на риски плагиата ИИ:

Размер модели – Более крупные модели, такие как GPT-3.5, более склонны к регенерации дословных текстовых отрывков по сравнению с более мелкими моделями. Их более крупные обучающие наборы данных увеличивают воздействие на защищенный авторским правом исходный материал.
Обучающие данные – Модели, обученные на данных, собранных из интернета, или защищенных авторским правом произведений (даже если они лицензированы), более склонны к плагиату, чем модели, обученные на тщательно отобранных наборах данных.

Однако прямая измерение распространенности плагиатных выходных данных является сложной задачей. “Черный ящик” природы нейронных сетей делает трудным полностью проследить связь между обучающими данными и выходными данными модели. Темпы, вероятно, сильно зависят от архитектуры модели, качества набора данных и формулировки подсказки. Но эти случаи подтверждают, что такой плагиат ИИ происходит безусловно, что имеет серьезные юридические и этические последствия.

Появляющиеся системы обнаружения плагиата

В ответ исследователи начали разрабатывать системы ИИ для автоматического обнаружения текста и изображений, сгенерированных моделями, а не созданных людьми. Например, исследователи в Mila предложили GenFace, который анализирует лингвистические закономерности, указывающие на текст, написанный ИИ. Стартап Anthropic также разработал внутренние возможности обнаружения плагиата для своего разговорного ИИ Claude.

Однако эти инструменты имеют ограничения. Огромные обучающие данные моделей, таких как GPT-3, делают трудным определить оригинальные источники плагиатного текста, если не невозможно. Более совершенные методы будут необходимы, поскольку генеративные модели продолжают быстро эволюционировать. До тех пор, пока ручной обзор остается необходимым для проверки потенциально плагиатных или нарушающих выходных данных ИИ перед публичным использованием.

Лучшие практики для смягчения плагиата генеративного ИИ

Вот некоторые лучшие практики, которые могут использовать как разработчики ИИ, так и пользователи, чтобы минимизировать риски плагиата:

Для разработчиков ИИ:

Тщательно проверяйте источники обучающих данных, чтобы исключить защищенный авторским правом или лицензированный материал без надлежащих разрешений.
Разрабатывайте строгие процедуры документации и отслеживания данных. Записывайте метаданные, такие как лицензии, теги, создатели и т. д.
Реализуйте инструменты обнаружения плагиата, чтобы пометить контент с высоким риском перед выпуском.
Предоставляйте отчеты о прозрачности, в которых подробно описываются источники обучающих данных, лицензирование и происхождение выходных данных ИИ, когда возникают проблемы.
Позволяйте создателям контента легко отказаться от обучающих наборов данных. Быстро выполняйте запросы на удаление или исключение.

Для пользователей генеративного ИИ:

Тщательно проверяйте выходные данные на наличие потенциально плагиатных или неатрибутированных отрывков перед развертыванием в крупном масштабе.
Избегайте рассмотрения ИИ как полностью автономных творческих систем. Имеете человеческих рецензентов, которые проверяют окончательный контент.
Отдавайте предпочтение созданию контента с помощью ИИ над генерацией полностью нового контента с нуля. Используйте модели для парафразирования или генерации идей вместо этого.
Консультируйтесь с условиями обслуживания, политикой контента и мерами по предотвращению плагиата поставщика ИИ перед использованием. Избегайте не透рачных моделей.
Четко цитируйте источники, если какой-либо защищенный авторским правом материал появляется в окончательном выходном данных, несмотря на лучшие усилия. Не представляйте работу ИИ как полностью оригинальную.
Ограничивайте обмен выходными данными приватно или конфиденциально, пока риски плагиата не могут быть дальнейшим образом оценены и устранены.

Более строгие правила обучающих данных могут быть также оправданными, поскольку генеративные модели продолжают распространяться. Это может включать требование согласия создателей перед добавлением их работы в наборы данных. Однако ответственность лежит как на разработчиках, так и на пользователях за использование этических практик ИИ, которые уважают права создателей контента.

Плагиат в Midjourney’s V6 Alpha

После ограниченного подсказывания модели Midjourney V6 некоторые исследователи смогли сгенерировать почти идентичные изображения защищенным авторским правом фильмам, телешоу и скриншотам видеоигр, вероятно, включенным в его обучающие данные.

Images Created by Midjourney Resembling Scenes from Famous Movies and Video Games

Эти эксперименты进一步 подтверждают, что даже передовые визуальные системы ИИ могут непреднамеренно плагиатить защищенный контент, если источники обучающих данных остаются не проверенными. Это подчеркивает необходимость бдительности, мер безопасности и человеческого надзора при развертывании генеративных моделей в коммерческих целях для ограничения рисков нарушения.

Ответ компании на защищенный авторским правом контент

Границы между человеческим и ИИ-творчеством стираются, создавая сложные вопросы авторского права.

Недавно Управление по авторским правам США отказало в авторских правах на большинство аспектов графического романа, созданного с помощью ИИ и человека, признав искусство ИИ нечеловеческим. Оно также выпустило руководство, исключающее системы ИИ из “авторства”. Федеральные суды подтвердили эту позицию в деле об авторских правах на искусство ИИ.

Между тем, иски утверждают, что генеративный ИИ нарушает авторские права, как Getty v. Stability AI и художники v. Midjourney/Stability AI. Но без “авторов” ИИ некоторые вопросы, применяются ли претензии о нарушении.

В ответ крупные компании ИИ, такие как Meta, Google, Microsoft и Apple, утверждают, что им не нужно получать лицензии или платить роялти для обучения моделей ИИ на защищенных авторским правом данных.

Вот краткое изложение ключевых аргументов крупных компаний ИИ в ответ на потенциальные новые правила США об авторских правах в отношении ИИ, с цитатами:

Meta утверждает что введение лицензирования сейчас приведет к хаосу и принесет мало пользы владельцам авторских прав.

Google утверждает что обучение ИИ аналогично не нарушающим действиям, таким как чтение книги (Google, 2022).

Microsoft предупреждает что изменение законов об авторских правах может поставить в невыгодное положение небольших разработчиков ИИ.

Apple хочет защищать авторским правом код, сгенерированный ИИ, контролируемый человеческими разработчиками.

В целом, большинство компаний выступают против новых требований лицензирования и преуменьшают опасения по поводу систем ИИ, воспроизводящих защищенные произведения без атрибуции. Однако эта позиция является спорной, учитывая недавние иски об авторских правах ИИ и дебаты.

Пути ответственного инновационного развития генеративного ИИ

Поскольку эти мощные генеративные модели продолжают развиваться, устранение рисков плагиата имеет решающее значение для широкого принятия. Требуется многосторонний подход:

Реформы политики в отношении прозрачности обучающих данных, лицензирования и согласия создателей.
Более сильные технологии обнаружения плагиата и внутреннего управления разработчиками.
Большее осознание пользователей рисков и соблюдение этических принципов ИИ.
Ясные юридические прецеденты и судебная практика по вопросам авторских прав ИИ.

С надлежащими мерами предосторожности создание с помощью ИИ может процветать этично. Но не проверенные риски плагиата могут существенно подорвать общественное доверие. Прямое решение этой проблемы является ключом для реализации огромного творческого потенциала генеративного ИИ, уважая при этом права создателей. Достижение правильного баланса потребует активного противостояния слепому пятну плагиата, встроенному в саму природу нейронных сетей. Но, делая это, эти мощные модели не подорвут человеческое творчество, которое они стремятся усилить.

Aayush Mittal

Я провел последние пять лет, погружаясь в увлекательный мир Machine Learning и Deep Learning. Моя страсть и экспертиза привели меня к участию в более чем 50 различных проектах по разработке программного обеспечения, с особым акцентом на AI/ML. Мое непрекращающееся любопытство также привело меня к Natural Language Processing, области, которую я с нетерпением жду возможности изучить более подробно.