Штучний інтелект

Моделі генерації письма на основі ІІ часто “копіюють і вставляють” джерельні дані

Published November 19, 2021

Updated April 28, 2026

Martin Anderson

Американський драматург і підприємець Вілсон Мізнер часто цитується як той, хто сказав: “Коли ви викрадаєте у одного автора, це плагіат; якщо ви викрадаєте у багатьох, це дослідження”.

Подобно цьому, припущення щодо нового покоління систем творчого письма на основі ІІ полягає в тому, що величезні об’єми даних, які подаються їм на етапі навчання, призвели до справжньої абстракції високорівневих концепцій і ідей; що ці системи мають у своєму розпорядженні відфільтровану мудрість тисяч авторів, з якої ІІ може сформулювати інноваційні та оригінальні тексти; і що ті, хто використовує такі системи, можуть бути впевнені, що вони не випадково займаються плагіатом-посередником.

Це припущення поставлено під сумнів новою статтею від дослідницького консорціуму (до якого входять підрозділи ІІ досліджень Facebook і Microsoft), яке виявило, що моделі генерації мови на основі машинного навчання, такі як серія GPT, “іноді копіюють навіть дуже довгі пасажі” у свій нібито оригінальний вивід, без посилання.

У деяких випадках автори зазначають, що GPT-2 дублює понад 1000 слів з навчального набору у своєму виводі.

Стаття називається Як багато мовні моделі копіюють з своїх навчальних даних? Оцінка лінгвістичної новизни в генерації тексту за допомогою RAVEN і є спільною роботою між університетом Джонса Гопкінса, Microsoft Research, Нью-Йоркським університетом і Facebook AI Research.

RAVEN

Дослідження використовує новий підхід під назвою RAVEN (RAtingVErbalNovelty), акронім, який був розважально витягнутий, щоб віддзеркалити пташину лиходія класичної поеми:

‘Цей акронім посилається на “Ворона” Едгара Аллана По, в якій оповідач зустрічає загадкового ворона, який повторює крик “Ніколи більше!” Оповідач не може сказати, чи просто повторює ворона щось, що він чув від людини, чи він конструює свої власні вислови (можливо, поєднуючи ніколи і більше)—ту саму базову двозначність, яку наш документ розглядає.’

Висновки з нової статті виходять у контексті великого зростання систем генерації контенту на основі ІІ, які намагаються замінити “прості” завдання редагування, а також написати повноцінний контент. Одна з таких систем отримала $21 мільйон у вигляді фінансування серії А раніше цього тижня.

Дослідники зазначають, що ‘GPT-2 іноді дублює навчальні пасажі, які мають понад 1000 слів довжини.‘ (їхнє підкреслення), і що генеративні мовні системи поширюють лінгвістичні помилки в джерельних даних.

Мовні моделі, вивчені під RAVEN, були серією випусків GPT аж до GPT-2 (автори не мали доступу до GPT-3 на той час), Transformer, Transformer-XL і LSTM.

Новизна

Стаття зазначає, що GPT-2 винаходить інфлекції у стилі Буша 2, такі як ‘Швейцарифікований’, і похідні, такі як ‘IKEA-ність’, створюючи такі нові слова (їх немає в навчальному наборі GPT-2) на лінгвістичних принципах, виведених з високих вимірних просторів, створених під час навчання.

Результати також показують, що “74% речень, згенерованих Transformer-XL, мають синтаксичну структуру, якої немає в жодному навчальному реченні”, вказуючи, як зазначають автори, ‘нейронні мовні моделі не просто запам’ятовують; натомість вони використовують продуктивні процеси, які дозволяють їм поєднувати знайомі частини новими способами.’

Отже, технічно узагальнення і абстракція повинні виробляти інноваційний і новий текст.

Дублікування даних може бути проблемою

Стаття припускає, що довгі і дослівні цитати, вироблені системами генерації природної мови (NLG), можуть бути “запечатані” цілком у модель ІІ, оскільки оригінальний джерельний текст повторюється кілька разів у наборах даних, які не були належним чином дедубліковані.

Хоча інший дослідницький проєкт виявив, що повне дублікування тексту може відбуватися навіть якщо джерельний текст з’являється тільки один раз у наборі даних, автори зазначають, що цей проєкт має інші концептуальні архітектури, ніж звичайні системи генерації контенту.

Автори також зазначають, що зміна компонента декодування в системах генерації мови може збільшити новизну, але виявили під час тестів, що це відбувається за рахунок якості виводу.

Додаткові проблеми виникають, оскільки набори даних, які живлять алгоритми генерації контенту, стають все більші. Окрім того, що це загострює питання щодо доступності та життєздатності попередньої обробки даних, а також забезпечення якості та дедублікування даних, багато базових помилок залишаються у джерельних даних, які потім поширюються у виводі контенту ІІ.

Автори зазначають*:

‘Нещодавнє збільшення розмірів навчальних наборів робить особливо критичним перевірку новизни, оскільки масштаб цих навчальних наборів може порушити наші інтуїтивні уявлення про те, що можна очікувати природно. Наприклад, деяка відома робота в мові придбанні залежить від припущення, що регулярні форми неправильних дієслів (наприклад, becomed, teached) не з’являються в досвіді учня, тому якщо учень виробляє такі слова, вони повинні бути новими для учня.

‘Однак виявилося, що для всіх 92 базових неправильних дієслів англійської мови неправильна регулярна форма з’являється в навчальному наборі GPT-2.’

Більше кураторської роботи з даними потрібне

Стаття стверджує, що потрібно приділити більше уваги новизні при формуванні генеративних мовних систем, з особливим акцентом на тому, щоб частина даних, яка утримується (частина джерельних даних, яка відкладається для тестування того, як добре алгоритм оцінив основну частину навчальних даних), була підходящою для завдання.

‘У машинному навчанні критично важливо оцінювати моделі на утриманому тестовому наборі. Через відкритий характер генерації тексту згенерований текст моделі може бути скопійований з навчального набору, у цьому випадку він не утримується — тому використання цих даних для оцінки моделі (наприклад, для узгодженості або граматичності) не є дійсним.’

Автори також стверджують, що потрібно більше уваги при створенні мовних моделей через ефект Елізи, синдром, ідентифікований у 1966 році, який ідентифікує “сприйнятливість людей до читання далеко більшої кількості розуміння, ніж це виправдано, у рядках символів — особливо слова — складених комп’ютерами”.

* Моя конвертація внутрішніх посилань у гіперпосилання

Martin Anderson

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]

Unite.AI

Моделі генерації письма на основі ІІ часто “копіюють і вставляють” джерельні дані

RAVEN

Новизна

Дублікування даних може бути проблемою

Більше кураторської роботи з даними потрібне

You may like