Connect with us

Проблема плагіату: Як генеративні моделі штучного інтелекту відтворюють захищені авторським правом матеріали

Штучний інтелект

Проблема плагіату: Як генеративні моделі штучного інтелекту відтворюють захищені авторським правом матеріали

mm
plagiarism-in-AI

Швидкий розвиток генеративного штучного інтелекту викликав підйом ентузіазму щодо творчого потенціалу цієї технології. Однак ці потужні моделі також створюють серйозні ризики щодо відтворення захищених авторським правом або плагіатних матеріалів без належної атрибуції.

Як нейронні мережі засвоюють тренувальні дані

Сучасні системи штучного інтелекту, такі як GPT-3, тренуються за допомогою процесу, який називається переносним навчання. Вони поглинають величезні набори даних, зібрані з публічних джерел, таких як веб-сайти, книги, академічні статті та інше. Наприклад, тренувальні дані GPT-3 охоплювали 570 гігабайт тексту. Під час тренування штучний інтелект шукає закономірності та статистичні відносини в цьому величезному масиві даних. Він вчиться кореляціям між словами, реченнями, абзацами, мовною структурою та іншими ознаками.

Це дозволяє штучному інтелекту генерувати новий сполучний текст або зображення, передбачаючи послідовності, які ймовірно будуть слідувати за заданим входом або підказкою. Однак це також означає, що ці моделі поглинають контент без урахування авторських прав, атрибуції або ризиків плагіату. В результаті генеративні штучні інтелекти можуть ненавмисно відтворювати дослівні пасажі або парафразувати захищені авторським правом тексти з їхніх тренувальних корпусів.

Ключові приклади плагіату штучного інтелекту

Стурбованість щодо плагіату штучного інтелекту виникла після випуску GPT у 2020 році.

Недавні дослідження показали, що великі мовні моделі (LLM) типу GPT-3 можуть відтворювати суттєві дослівні пасажі з їхніх тренувальних даних без цитування (Nasr et al., 2023; Carlini et al., 2022). Наприклад, судова справа проти The New York Times показала, що програмне забезпечення OpenAI генерувало статті The New York Times майже дослівно (The New York Times, 2023).

Ці висновки свідчать, що деякі генеративні системи штучного інтелекту можуть виробляти непрохані плагіатичні виходи, ризикуючи порушити авторське право. Однак поширеність залишається невизначеною через “чорний ящик” характер LLM. Судова справа проти The New York Times стверджує, що такі виходи становлять порушення, яке може мати серйозні наслідки для розвитку генеративного штучного інтелекту. Загалом, докази свідчать, що плагіат є вбудованою проблемою великих нейронних мереж, яка вимагає уваги та заходів безпеки.

Ці випадки розкривають два ключових фактори, які впливають на ризики плагіату штучного інтелекту:

  1. Розмір моделі – Більші моделі, такі як GPT-3.5, більш схильні до регенерації дослівних текстових пасажів порівняно з меншими моделями. Їх більші тренувальні набори даних збільшують експозицію захищеного авторським правом джерельного матеріалу.
  2. Тренувальні дані – Моделі, треновані на даних, зібраних з Інтернету, або захищених авторським правом творів (навіть якщо вони ліцензовані), більш схильні до плагіату порівняно з моделями, тренованими на ретельно відібраних наборах даних.

Однак прямий вимір поширеності плагіатних виходів є складним. “Чорний ящик” характер нейронних мереж робить важким повністю простежити цю зв’язок між тренувальними даними та виходами моделі. Темпи, ймовірно, залежать сильно від архітектури моделі, якості набору даних та формулювання підказки. Але ці випадки підтверджують, що такий плагіат штучного інтелекту відбувається беззаперечно, що має критичні юридичні та етичні наслідки.

Поява систем виявлення плагіату

У відповідь дослідники почали розробляти системи штучного інтелекту для автоматичного виявлення тексту та зображень, згенерованих моделями, порівняно з створеними людьми. Наприклад, дослідники з Mila запропонували GenFace, який аналізує лінгвістичні закономірності, що вказують на текст, написаний штучним інтелектом. Стартап Anthropic також розробив внутрішні можливості виявлення плагіату для свого розмовного штучного інтелекту Claude.

Однак ці інструменти мають обмеження. Масивні тренувальні дані моделей типу GPT-3 роблять важким визначення оригінальних джерел плагіатного тексту, якщо не неможливо. Більш потужні техніки будуть потрібні, оскільки генеративні моделі продовжують швидко еволюціонувати. До тих пір ручний огляд залишається важливим для фільтрації потенційно плагіатних або порушуючих авторське право виходів штучного інтелекту перед публічним використанням.

Найкращі практики для мінімізації плагіату генеративного штучного інтелекту

Ось деякі найкращі практики, які розробники та користувачі штучного інтелекту можуть прийняти для мінімізації ризиків плагіату:

Для розробників штучного інтелекту:

  • Ретельно перевіряйте джерела тренувальних даних, щоб виключити матеріали, захищені авторським правом, без належних дозволів.
  • Розробіть суворі процедури документування даних та відстеження походження. Записуйте метадані, такі як ліцензії, теги, творці тощо.
  • Реалізуйте інструменти виявлення плагіату, щоб позначити високоризиковий контент перед випуском.
  • Надавайте звіти про прозорість, які деталізують джерела тренувальних даних, ліцензування та походження виходів штучного інтелекту, коли виникають питання.
  • Дозволяйте творцям контенту легко відмовитися від тренувальних наборів даних. Швидко виконуйте запитів на видалення або виключення.

Для користувачів генеративного штучного інтелекту:

  • Тщательно фільтруйте виходи на наявність будь-яких потенційно плагіатних або непозначених пасажів перед розгортанням у великому масштабі.
  • Уникаєте лікування штучного інтелекту як повністю автономних творчих систем. Майте людських рецензентів для перевірки остаточного контенту.
  • Віддаєте перевагу створенню, яке допомагає людській творчості, над генерацією повністю нового контенту з нуля. Використовуйте моделі для перефразування або генерації ідей.
  • Консультуйтеся з умовами надання послуг постачальника штучного інтелекту, політикою контенту та заходами безпеки проти плагіату перед використанням. Уникаєте не прозорих моделей.
  • Цитуйте джерела чітко, якщо будь-який матеріал, захищений авторським правом, з’являється в остаточному виході, незважаючи на кращі зусилля. Не представляйте роботу штучного інтелекту як повністю оригінальну.
  • Обмежуйте спільний доступ виходів приватно або конфіденційно, поки ризики плагіату не можуть бути далі оцінені та вирішені.

Більш суворі правила тренувальних даних можуть також бути виправдані, оскільки генеративні моделі продовжують поширюватися. Це може включати вимогу згоди творців перед додаванням їхньої роботи до наборів даних. Однак відповідальність лежить як на розробниках, так і на користувачах для застосування етичних практик штучного інтелекту, які поважають права творців контенту.

Плагіат у Midjourney’s V6 Alpha

Після обмеженого підказування деякі дослідники змогли згенерувати майже ідентичні зображення до захищених авторським правом фільмів, телешоу та знімків відеоігор, ймовірно, включених до його тренувальних даних.

Images Created by Midjourney Resembling Scenes from Famous Movies and Video Games

Images Created by Midjourney Resembling Scenes from Famous Movies and Video Games

Ці експерименти підтверджують, що навіть візуальні системи штучного інтелекту останнього покоління можуть ненавмисно плагіатувати захищений контент, якщо джерела тренувальних даних залишаються неконтрольованими. Це підкреслює необхідність уваги, заходів безпеки та людського нагляду при розгортанні генеративних моделей комерційно для обмеження ризиків порушення.

Відповідь компаній штучного інтелекту на захищений авторським правом контент

Межі між людською та штучною творчістю розмиті, створюючи складні питання авторського права.

Офіс з авторського права США недавно відмовив у праві на авторське право для більшості аспектів графічного роману, створеного людиною та штучним інтелектом, вважаючи мистецтво штучного інтелекту нелюдським. Він також видав керівництво, яке виключає системи штучного інтелекту з “авторства”. Федеральні суди підтвердили цю позицію в справі про авторське право штучного інтелекту.

Тим часом судові справи стверджують, що генеративний штучний інтелект порушує авторське право, наприклад, Getty v. Stability AI та художники проти Midjourney/Stability AI. Однак без “авторів” штучного інтелекту деякі питання, чи застосовуються претензії щодо порушення.

У відповідь великі компанії штучного інтелекту, такі як Meta, Google, Microsoft та Apple, стверджують, що їм не потрібно отримувати ліцензії або платити роялті для тренування моделей штучного інтелекту на захищених авторським правом даних.

Ось підсумок ключових аргументів великих компаній штучного інтелекту у відповідь на потенційні нові правила авторського права США щодо штучного інтелекту, з посиланнями:

Meta стверджує що введення ліцензування зараз спричинить хаос і не принесе жодної користі власникам авторських прав.

Google стверджує що тренування штучного інтелекту аналогічне до невиправданому діям, таким як читання книги (Google, 2022).

Microsoft попереджає що зміна законодавства про авторське право може поставити的小 розробників штучного інтелекту у невигідне становище.

Apple хоче авторське право на код, згенерований штучним інтелектом, який контролюється людськими розробниками.

Загалом, більшість компаній опонують новим вимогам ліцензування та занижують стурбованість щодо систем штучного інтелекту, які відтворюють захищені твори без атрибуції. Однак ця позиція є суперечливою враховуючи недавні судові справи щодо авторського права штучного інтелекту та дебати.

Шляхи для відповідальної інновації генеративного штучного інтелекту

Поскільки ці потужні генеративні моделі продовжують розвиватися, вирішення ризиків плагіату є критичним для широкого прийняття. Потрібний багатограний підхід:

  • Реформи законодавства щодо прозорості тренувальних даних, ліцензування та згоди творців.
  • Більш потужні технології виявлення плагіату та внутрішнього управління розробниками.
  • Більша осведомленість користувачів про ризики та дотримання етичних принципів штучного інтелекту.
  • Чіткі юридичні прецеденти та судові рішення щодо питань авторського права штучного інтелекту.

З належними заходами безпеки створення, яке допомагає штучному інтелекту, може процвітати етично. Однак неконтрольовані ризики плагіату можуть суттєво підірвати публічну довіру. Безпосереднє вирішення цієї проблеми є ключем для реалізації величезного творчого потенціалу генеративного штучного інтелекту,,同时 поважаючи права творців. Досягнення правильного балансу буде вимагати активного протистояння сліпому місці плагіату, закладеному в саму природу нейронних мереж. Однак, зробивши це, ці потужні моделі не підірвуть людську винахідливість, яку вони намагаються посилити.

Я провів останні п'ять років, занурючись у захопливий світ машинного навчання та глибокого навчання. Моя пристрасть та експертиза привели мене до внеску у понад 50 різноманітних проектів програмної інженерії, з особливим акцентом на AI/ML. Моя триваюча цікавість також привела мене до обробки природної мови, галузі, яку я бажаю дослідити далі.