Моделі та платформи ШІ

Проблема плагіату: як генеративні моделі штучного інтелекту відтворюють захищені авторським правом матеріали

mm
plagiarism-in-AI

Швидкий розвиток генеративного штучного інтелекту викликав великий інтерес до творчого потенціалу цієї технології. Однак ці потужні моделі також несуть певні ризики щодо відтворення захищених авторським правом матеріалів без належної атрибуції.

Як нейронні мережі поглинають тренувальні дані

Сучасні системи штучного інтелекту, такі як GPT-3, тренуються за допомогою процесу, який називається переносним навчанням. Вони поглинають величезні набори даних, отримані з публічних джерел, таких як веб-сайти, книги, академічні статті тощо. Наприклад, тренувальні дані GPT-3 охоплювали 570 гігабайт тексту. Під час тренування штучний інтелект шукає закономірності та статистичні зв’язки в цьому великому масиві даних. Він вивчає кореляції між словами, реченнями, абзацами, мовною структурою та іншими ознаками.

Це дозволяє штучному інтелекту генерувати новий змістовний текст або зображення шляхом передбачення послідовностей, які ймовірно будуть слідувати за заданим вхідним сигналом або підказкою. Однак це також означає, що ці моделі поглинають вміст без урахування авторських прав, атрибуції чи ризиків плагіату. В результаті генеративні штучні інтелекти можуть ненавмисно відтворювати дослівні пасажі або перефразовувати захищені авторським правом тексти з їхніх тренувальних корпусів.

Ключові приклади плагіату штучного інтелекту

Обставини навколо плагіату штучного інтелекту набули особливої актуальності після виходу GPT у 2020 році.

Недавні дослідження показали, що великі мовні моделі (LLM) типу GPT-3 можуть відтворювати суттєві дослівні пасажі з їхніх тренувальних даних без цитування (Nasr et al., 2023; Carlini et al., 2022). Наприклад, судова справа проти The New York Times показала, що програмне забезпечення OpenAI генерувало статті The New York Times майже дослівно (The New York Times, 2023).

Ці висновки свідчать про те, що деякі системи генеративного штучного інтелекту можуть виробляти несанкціонований плагіат, ризикуючи порушити авторські права. Однак поширеність цього явища залишається невизначеною через “чорний ящик” природи LLM. Судова справа проти The New York Times стверджує, що такі виходи становлять порушення, яке може мати великі наслідки для розвитку генеративного штучного інтелекту. Загалом, докази свідчать про те, що плагіат є вбудованим vấnцією великих нейронних мереж, яка вимагає уваги та заходів безпеки.

Ці випадки розкривають два ключових фактори, які впливають на ризики плагіату штучного інтелекту:

  1. Розмір моделі – Більші моделі, такі як GPT-3.5, більш схильні до регенерації дослівних текстових пасажів у порівнянні з меншими моделями. Їх більші тренувальні набори даних збільшують вплив захищеного джерельного матеріалу.
  2. Тренувальні дані – Моделі, треновані на даних, отриманих з Інтернету або захищених творів (навіть якщо вони ліцензовані), більш схильні до плагіату порівняно з моделями, тренованими на ретельно відібраних наборах даних.

Однак безпосереднє вимірювання поширеності плагіатських виходів є складним. “Чорний ящик” природи нейронних мереж робить складним повністю простежити зв’язок між тренувальними даними та виходами моделі. Темпи, ймовірно, сильно залежать від архітектури моделі, якості набору даних та формулювання підказки. Однак ці випадки підтверджують, що такий плагіат штучного інтелекту відбувається безумовно, що має критичні юридичні та етичні наслідки.

Емерджентні системи виявлення плагіату

У відповідь дослідники почали розробляти системи штучного інтелекту для автоматичного виявлення текстів та зображень, згенерованих моделями, а не створених людьми. Наприклад, дослідники з Mila запропонували GenFace, який аналізує лінгвістичні закономірності, що вказують на текст, написаний штучним інтелектом. Стартап Anthropic також розробив внутрішні можливості виявлення плагіату для свого розмовного штучного інтелекту Claude.

Однак ці інструменти мають обмеження. Масивні тренувальні дані моделей типу GPT-3 роблять складним визначення оригінальних джерел плагіатського тексту, якщо це взагалі можливо. Більше потужних технік буде потрібно, оскільки генеративні моделі продовжують швидко еволюціонувати. До тих пір ручний огляд залишається важливим для фільтрації потенційно плагіатських або порушувальних виходів штучного інтелекту перед публічним використанням.

Найкращі практики для мінімізації плагіату генеративного штучного інтелекту

Ось деякі найкращі практики, які можуть застосовувати розробники штучного інтелекту та користувачі для мінімізації ризиків плагіату:

Для розробників штучного інтелекту:

  • Підробити джерела тренувальних даних, щоб виключити захищені авторським правом матеріали без належних дозволів.
  • Розробити суворі процедури документації даних та відстеження походження. Записувати метадані, такі як ліцензії, теги, творці тощо.
  • Реалізувати інструменти виявлення плагіату для позначення високоризикового вмісту перед випуском.
  • Надавати звіти про прозорість, які деталізують джерела тренувальних даних, ліцензії та походження виходів штучного інтелекту, коли виникають питання.
  • Дозволити творцям легко відмовитися від участі в тренувальних наборах даних. Швидко виконувати запитів на видалення або виключення.

Для користувачів генеративного штучного інтелекту:

  • Тщательно перевіряти виходи на наявність потенційно плагіатських або непозначених пасажів перед розгортанням у великому масштабі.
  • Уникати використання штучного інтелекту як повністю автономної творчої системи. Мати людських рецензентів для перевірки кінцевого вмісту.
  • Віддавати перевагу створенню людини з підтримкою штучного інтелекту над генерацією цілком нового вмісту з нуля. Використовувати моделі для перефразування або генерування ідей замість цього.
  • Консультуватися з умовами надання послуг, політикою вмісту та заходами проти плагіату постачальників штучного інтелекту перед використанням. Уникати не прозорих моделей.
  • Чітко цитувати джерела, якщо будь-який захищений авторським правом матеріал з’являється у кінцевому виході, незважаючи на кращі зусилля. Не представляти роботу штучного інтелекту як повністю оригінальну.
  • Обмежувати спільне використання виходів приватно або конфіденційно, поки ризики плагіату не можуть бути подальше оцінені та вирішені.

Більш суворі правила щодо тренувальних даних можуть бути також виправдані, оскільки генеративні моделі продовжують поширюватися. Це може включати вимогу згоди творців перед додаванням їхньої роботи до наборів даних. Однак відповідальність лежить як на розробниках, так і на користувачах за застосування етичних практик штучного інтелекту, які поважають права творців.

Плагіат у Midjourney’s V6 Alpha

Після обмеженого підказування деякі дослідники змогли згенерувати майже ідентичні зображення до захищених авторським правом фільмів, телешоу та скріншотів відеоігор, ймовірно, включених до тренувальних даних моделі Midjourney’s V6.

Зображення, створені Midjourney, схожі на сцени з відомих фільмів та відеоігор

Зображення, створені Midjourney, схожі на сцени з відомих фільмів та відеоігор

Ці експерименти підтверджують, що навіть візуальні системи штучного інтелекту найвищого рівня можуть ненавмисно плагіатувати захищений вміст, якщо джерела тренувальних даних залишаються неконтрольованими. Це підкреслює необхідність уваги, заходів безпеки та людського нагляду при розгортанні генеративних моделей комерційно для обмеження ризиків порушення.

Відповідь компаній штучного інтелекту щодо захищених авторським правом матеріалів

Межі між людською та штучною творчістю розмиті, створюючи складні питання авторського права. Роботи, що поєднують людський та штучний внесок, можуть бути захищені авторським правом лише в тих аспектах, які виконані виключно людиною.

Офіс США з питань авторського права недавно відмовив у реєстрації авторського права для більшості аспектів графічного роману, створеного людиною та штучним інтелектом, визнавши мистецтво штучного інтелекту нелюдським. Він також видав керівництво, яке виключає системи штучного інтелекту з “авторства”. Федеральні суди підтвердили цю позицію в справі про авторське право штучного інтелекту.

Тим часом судові справи стверджують, що генеративний штучний інтелект порушує авторське право, наприклад, Getty проти Stability AI та художники проти Midjourney/Stability AI. Однак без “авторів” штучного інтелекту деякі питання щодо застосування претензій щодо порушення.

У відповідь великі компанії штучного інтелекту, такі як Meta, Google, Microsoft та Apple, стверджують, що їм не потрібно отримувати ліцензії чи платити роялті за тренування моделей штучного інтелекту на захищених авторським правом даних.

Ось підсумок ключових аргументів великих компаній штучного інтелекту у відповідь на потенційні нові правила авторського права США щодо штучного інтелекту, з посиланнями:

Meta стверджує, що введення ліцензій зараз призведе до хаосу та принесе мало користі власникам авторського права.

Google заявляє, що тренування штучного інтелекту аналогічне до не порушувальних дій, таких як читання книги (Google, 2022).

Microsoft попереджає, що зміна законодавства про авторське право може поставити的小 розробників штучного інтелекту у невигідне становище.

Apple хоче захистити авторським правом код, згенерований штучним інтелектом, який контролюється людьми.

Загалом більшість компаній виступають проти нових вимог щодо ліцензій та занижують проблеми щодо відтворення системами штучного інтелекту захищених творів без атрибуції. Однак ця позиція є суперечливою враховуючи недавні судові справи щодо авторського права штучного інтелекту та дискусії.

Шляхи для відповідальної інновації генеративного штучного інтелекту

Поскільки ці потужні генеративні моделі продовжують розвиватися, вирішення проблем плагіату є критично важливим для широкого визнання. Потрібен багатограний підхід:

  • Реформи політики щодо прозорості тренувальних даних, ліцензій та згоди творців.
  • Більш потужні технології виявлення плагіату та внутрішнього управління розробниками.
  • Більша осведомленість користувачів про ризики та дотримання етичних принципів штучного інтелекту.
  • Чіткі юридичні прецеденти та судові рішення щодо питань авторського права штучного інтелекту.

З належними заходами безпеки, штучна творчість може процвітати етично. Однак неконтрольовані ризики плагіату можуть суттєво підірвати публічну довіру. Пряме вирішення цієї проблеми є ключовим для реалізації величезного творчого потенціалу генеративного штучного інтелекту при поваженні прав творців. Досягнення правильного балансу буде вимагати активного протистояння сліпому місці плагіату, закладеному в саму природу нейронних мереж. Однак, зробивши це, ці потужні моделі не підірвуть той самий людський геній, який вони намагаються підтримати.

Я провів останні п'ять років, занурючись у захопливий світ машинного навчання та глибокого навчання. Моя пристрасть та експертиза привели мене до внеску у понад 50 різних проектів програмної інженерії, з особливим акцентом на AI/ML. Моя тривала цікавість також привела мене до природної обробки мови, галузі, яку я бажаю дослідити далі.