Искусственный интеллект
Проблема плагиата: как генеративные модели искусственного интеллекта воспроизводят контент, защищенный авторским правом

Стремительное развитие генеративного искусственного интеллекта вызвало ажиотаж вокруг творческого потенциала этой технологии. Однако эти мощные модели также создают тревожные риски, связанные с воспроизведением контента, защищённого авторским правом или плагиатом, без надлежащего указания авторства.
Как нейронные сети поглощают обучающие данные
Современные системы искусственного интеллекта, такие как GPT-3, обучаются с помощью процесса, называемого трансферным обучением. Они используют огромные наборы данных, собранные из общедоступных источников, таких как веб-сайты, книги, научные статьи и т.д. Например, данные для обучения GPT-3 включали 570 гигабайт текста. В процессе обучения ИИ ищет закономерности и статистические взаимосвязи в этом обширном массиве данных. Он изучает корреляции между словами, предложениями, абзацами, структурой языка и другими признаками.
Это позволяет ИИ генерировать новый связный текст или изображения, предсказывая последовательности, которые могут следовать за данным вводом или подсказкой. Но это также означает, что эти модели поглощают контент без учета авторских прав, авторства или рисков плагиата. В результате генеративные ИИ могут непреднамеренно воспроизводить дословные отрывки или перефразировать текст, защищенный авторским правом, из своих учебных корпусов.
Ключевые примеры плагиата ИИ
Опасения по поводу плагиата в сфере ИИ стали особенно заметны после выпуска GPT в 2020 году.
Недавние исследования показали, что большие языковые модели (LLM), такие как GPT-3, могут дословно воспроизводить существенные отрывки из своих обучающих данных без цитирования (Nasr et al., 2023; Carlini et al., 2022). Например, иск The New York Times показал, что программное обеспечение OpenAI генерирует статьи New York Times почти дословно (Нью-Йорк Таймс, 2023 г.).
Эти результаты свидетельствуют о том, что некоторые системы генеративного ИИ могут создавать несанкционированный плагиат, что чревато нарушением авторских прав. Однако масштабы этого явления остаются неясными ввиду «чёрного ящика» в системе магистратуры права. В иске New York Times утверждается, что такие результаты представляют собой нарушение авторских прав, которое может иметь серьёзные последствия для развития генеративного ИИ. В целом, имеющиеся данные свидетельствуют о том, что плагиат является неотъемлемой проблемой больших нейронных сетей, требующей бдительности и мер предосторожности.
Эти случаи выявили два ключевых фактора, влияющих на риски плагиата в сфере ИИ:
- Размер модели – Более крупные модели, такие как GPT-3.5, более склонны к дословному воспроизведению отрывков текста по сравнению с моделями меньшего размера. Их большие наборы обучающих данных увеличивают доступ к исходным материалам, защищенным авторским правом.
- Тренировочные данные – Модели, обученные на извлеченных из Интернета данных или произведениях, защищенных авторским правом (даже если они лицензированы), с большей вероятностью будут заниматься плагиатом по сравнению с моделями, обученными на тщательно отобранных наборах данных.
Однако прямое измерение распространенности плагиата является сложной задачей. Природа нейронных сетей как «черного ящика» затрудняет полное отслеживание этой связи между обучающими данными и выходными данными модели. Вероятно, ставки во многом зависят от архитектуры модели, качества набора данных и оперативности формулирования. Но эти случаи подтверждают, что такой плагиат в области ИИ однозначно имеет место, что имеет важные юридические и этические последствия.
Новые системы обнаружения плагиата
В ответ исследователи начали изучать системы искусственного интеллекта для автоматического обнаружения текста и изображений, созданных моделями, а не людьми. Например, исследователи из Mila предложили GenFace, который анализирует лингвистические шаблоны, характерные для текста, написанного ИИ. Стартап Anthropic также разработал внутренние возможности обнаружения плагиата для своего диалогового искусственного интеллекта Claude.
Однако эти инструменты имеют ограничения. Огромные данные обучения таких моделей, как GPT-3, затрудняют, а то и делают невозможным определение оригинальных источников плагиата. Потребуются более надежные методы, поскольку генеративные модели продолжают быстро развиваться. До тех пор ручная проверка остается важной для проверки потенциально плагиатных или нарушающих авторские права результатов ИИ перед их публичным использованием.
Лучшие практики по смягчению последствий плагиата в области генеративного ИИ
Вот несколько лучших практик, которые могут использовать как разработчики ИИ, так и пользователи, чтобы минимизировать риски плагиата:
Для разработчиков ИИ:
- Тщательно проверяйте источники данных обучения, чтобы исключить материалы, защищенные авторским правом или лицензированные без надлежащего разрешения.
- Разработайте строгую документацию данных и процедуры отслеживания происхождения. Записывайте метаданные, такие как лицензии, теги, создатели и т. д.
- Внедрите инструменты обнаружения плагиата, чтобы помечать контент с высоким уровнем риска перед его выпуском.
- При возникновении проблем предоставляйте прозрачные отчеты с подробным описанием источников данных обучения, лицензирования и происхождения результатов ИИ.
- Позвольте создателям контента легко отказаться от наборов обучающих данных. Быстро выполняйте запросы на удаление или исключение.
Для пользователей генеративного ИИ:
- Тщательно проверяйте результаты на наличие потенциально плагиатных или неавторизованных фрагментов перед масштабным развертыванием.
- Не относитесь к ИИ как к полностью автономным творческим системам. Попросите рецензентов изучить окончательный контент.
- Предпочтение ИИ способствовало творчеству человека, а не созданию совершенно нового контента с нуля. Вместо этого используйте модели для перефразирования или формирования идей.
- Перед использованием ознакомьтесь с условиями обслуживания, политикой в отношении контента и мерами защиты от плагиата поставщика ИИ. Избегайте непрозрачных моделей.
- Чётко указывайте источники, если, несмотря на все усилия, в конечном продукте появляется какой-либо материал, защищённый авторским правом. Не выдавайте работу, созданную с помощью ИИ, за полностью оригинальную.
- Ограничьте обмен результатами в частном или конфиденциальном порядке до тех пор, пока риски плагиата не будут дополнительно оценены и устранены.
Также могут потребоваться более строгие правила в отношении обучающих данных, поскольку генеративные модели продолжают распространяться. Это может включать требование согласия авторов перед добавлением их работ в наборы данных. Однако ответственность за применение этических методов искусственного интеллекта, уважающих права создателей контента, лежит как на разработчиках, так и на пользователях.
Плагиат в альфа-версии V6 Midjourney
После ограниченных подсказок Модель V6 от Midjourney некоторым исследователям удалось создать изображения, почти идентичные фильмам, телешоу и скриншотам видеоигр, защищенным авторским правом, которые, вероятно, были включены в обучающие данные.
Эти эксперименты еще раз подтверждают, что даже самые современные системы визуального искусственного интеллекта могут неосознанно заниматься плагиатом защищенного контента, если источники обучающих данных остаются неконтролируемыми. Это подчеркивает необходимость бдительности, мер безопасности и человеческого надзора при коммерческом развертывании генеративных моделей для ограничения рисков нарушения прав.
Ответ компаний, занимающихся искусственным интеллектом, на контент, защищенный авторским правом
Границы между творчеством человека и ИИ стираются, создавая сложные вопросы об авторском праве. Работы, в которых сочетаются вклады человека и искусственного интеллекта, могут охраняться авторским правом только в тех аспектах, которые выполняются исключительно человеком.
Бюро по авторским правам США недавно отклонило авторские права на большинство аспектов графического романа, созданного с участием искусственного интеллекта и человека, посчитав, что это искусство не является человеческим. Оно также выпустило руководство, исключающее системы искусственного интеллекта из числа «авторов». Федеральные суды подтвердили эту позицию в деле об авторских правах на искусство искусственного интеллекта.
Между тем, в судебных процессах утверждается о нарушении прав генеративного ИИ, например, Getty v. Stability AI и Artists v. Середина пути/Стабильность ИИ. Но без «авторов» ИИ некоторые сомневаются, применимы ли иски о нарушении авторских прав.
В ответ крупные компании, занимающиеся искусственным интеллектом, такие как Meta, Google, Microsoft и Apple, заявили, что им не нужны лицензии или выплаты гонораров для обучения моделей искусственного интеллекта на данных, защищенных авторским правом.
Вот краткое изложение ключевых аргументов крупных компаний, занимающихся ИИ, в ответ на потенциальные новые правила авторского права в США в отношении ИИ, с цитатами:
Мета утверждает, введение лицензирования сейчас вызовет хаос и принесет мало пользы правообладателям.
Google требования Обучение ИИ аналогично действиям, не нарушающим авторские права, например чтению книги. (Гугл, 2022).
Microsoft Уведомление предупреждает изменение закона об авторском праве может поставить в невыгодное положение мелких разработчиков ИИ.
Apple хотеть авторский код, сгенерированный ИИ, контролируемый разработчиками-людьми.
В целом, большинство компаний выступают против новых требований по лицензированию и преуменьшают обеспокоенность по поводу того, что системы искусственного интеллекта воспроизводят защищенные произведения без указания авторства. Однако эта позиция вызывает споры, учитывая недавние судебные иски и дебаты по поводу авторских прав на ИИ.
Пути ответственных инноваций в области генеративного искусственного интеллекта
Поскольку эти мощные генеративные модели продолжают развиваться, устранение рисков плагиата имеет решающее значение для массового признания. Требуется многосторонний подход:
- Реформы политики в отношении прозрачности данных обучения, лицензирования и согласия авторов.
- Более эффективные технологии обнаружения плагиата и внутреннее управление со стороны разработчиков.
- Повышение осведомленности пользователей о рисках и соблюдение этических принципов ИИ.
- Очистить юридические прецеденты и прецедентное право по вопросам авторских прав на ИИ.
При соблюдении надлежащих мер предосторожности творчество с использованием ИИ может процветать с этической точки зрения. Однако неконтролируемый риск плагиата может существенно подорвать общественное доверие. Непосредственное решение этой проблемы — ключ к реализации огромного творческого потенциала генеративного ИИ при соблюдении прав создателей. Достижение правильного баланса потребует активного противодействия «слепой зоне» плагиата, заложенной в самой природе нейронных сетей. Однако это позволит гарантировать, что эти мощные модели не подорвут человеческую изобретательность, которую они призваны развивать.







