Погляд Anderson

Моделі штучного інтелекту віддають перевагу текстам, написаним людьми, над текстами, згенерованими штучним інтелектом

Опубліковано 13 жовтня 2025

Оновлено 17 травня 2026

Martin Anderson

William Shakespeare arm-wrestling a robot. The style should not be illustration-type, nor cartoonish, but instead, photorealistic, in the style of a publicity photo for Real Steel' + variations. GPT-4o, Flux Kontext, Firefly.

За новими дослідженнями, моделі типу ChatGPT та подібні до них тепер демонструють явну упередженість щодо текстів, які вони вважають написаними людьми, навіть якщо ця думка є неправильною. Просто назвавши текст “людським”, моделі штучного інтелекту схиляються до його переваги – і, іронічно, вони можуть вивчати цю упередженість від нас.

Поняття автентичності, походження та спільного людського досвіду можуть відігравати більшу роль у штурмі штучним інтелектом сектору творчого письма, ніж було очевидно досі: проведені дослідження в Прінстоні показали, що ряд великих закритих і відкритих мовних моделей, включаючи ChatGPT, віддають перевагу тим текстам, які вони вважають “людськими”.

Дажи коли мітки на зразках письма були змінені, і моделі штучного інтелекту, і люди продовжували знаходити недоліки в текстах, написаних штучним інтелектом, повторюючи ті самі критичні зауваження, які вони зробили, коли вони були правильно позначені.

Дослідники вважають, що частина причини може полягати в тому, що зростаюча ворожнеча людей до генерації штучним інтелектом, яка, здається, проявляється у нових і цікавих подіях кожен день, могла б повернутися назад у самі системи штучного інтелекту. Зауважуючи, наскільки штучний інтелект не любить тексти, написані штучним інтелектом, більше, ніж люди, вони заявляють*:

’13 моделей штучного інтелекту, які ми протестували, продемонстрували упередженість у 34,3 відсоткових пунктів порівняно з 13,7 відсотковими пунктами людей, що робить їх у 2,5 рази більш схильними до атрибутивних сигналів, ніж наші людські оцінювачі.

‘Це посилення має сенс, коли ми визнаємо, що сучасні моделі є тренованими оцінювачами. Виховання через навчання з людською обратною зв’язкою (RLHF) явно вчить моделі ставити людські судження як свій золотий стандарт, ефективно встановлюючи вивчений рівень довіри [пріоритет].

‘Моделі вчаться, що віддаючи перевагу людським упередженням, вони отримують винагороду, створюючи синхронізм, де вони повторюють очікувані користувачами ставлення, а не надають незалежну оцінку.’

Відкриття стосуються галузі творчого письма, де дослідники використовували історії від відомого французького автора як зразкові дані; і вони вказують на те, що людська упередженість проти штучного інтелекту може, у підсумку, переважити будь-яке кількісне покращення мови, яке великі мовні моделі (LLM) можуть вивести під час їх розвитку – і що мітка “штучний інтелект” може, можливо, означати “неавтентичний”, “фальшивий” і навіть “другосортний” у цій галузі.

Багато причин центруються на культурній практиці та використанні: стаття вказує, що творчість часто описується у термінах новизни, цінності та типовості, тобто, наскільки новим щось здається; наскільки воно оцінюється експертами; і наскільки добре воно підходить до своєї категорії. Коли уривок позначається як людський, знайомі жанрові ознаки винагороджуються як цінні; коли позначається як штучний інтелект, ті самі ознаки відкидаються як невигадливі.

По суті, розкриття джерела спричиняє переоцінку заслуг роботи, сформованої припущеннями про те, як вона була створена. Як тільки авторство штучного інтелекту розкривається, читачі інстинктивно відкидають можливість індивідуального відкриття або наміру за виводом.

Стаття зазначає*:

‘У більшості мистецтв немає золотого стандарту для “достатньо творчого”, роблячи сигнали походження потужними примами, які можуть зсунути, який критерій здається найбільш актуальним: дисциплінована майстерність або помітна новизна, доступність або складність.

‘Оскільки спостерігачі часто виводять процес з продукту, походження підштовхує судження про те, як щось було зроблено, а також про те, що воно є: консервативні рухи можуть бути заслуговані як майстерність людини (вважається як майстерність), але відкинуті як “проста генерація” від моделі’.

Тринадцять моделей, включаючи варіанти ChatGPT, Claude, Gemini і Mistral, брали участь поряд з людськими читачами, і всі оцінювали історії більш прихильно, коли їм казали, що вони були створені людьми, з великими мовними моделями, які показували більшу упередженість, ніж люди.

Ідея про те, що моделі штучного інтелекту можуть поглинути упередженість проти своєї власної продукції, піднімає питання про те, де ця упередженість походження. Оскільки письмо штучного інтелекту не завжди легко визначити, будь-які негативні асоціації, сформовані під час навчання, наймовірніше походять від прикладів, які явно позначені, чи то через повідомлення про зміст штучного інтелекту, чи через самозаявлені статті штучного інтелекту у друкованих виданнях.

Нова стаття називається Кожен віддає перевагу людським письменникам, включно з штучним інтелектом і походить від двох авторів з Центру цифрових гуманітарних наук Прінстона. Робота супроводжується пов’язаним випуском даних на Zenodo (з посиланням на випуск GitHub, зазначений у статті, але репозиторій не був активним на момент написання).

Метод

Щоб дослідити, як атрибуція впливає на сприйняття стилю та творчості, автори використали Exercices de style, ексцентричну роботу 1947 року Раймона Кено, яка переписує просту історію у 99 різних стилях. Історія слідує за чоловіком, який сідає в автобус, сперечається з іншим пасажиром і пізніше отримує поради щодо моди від друга.

Хоча літературний за походженням, ця структура передує трансформаціям на основі промпта в сучасних мовних моделях, де користувачі запитують переписування у конкретних тонах, голосах або регістрів. Цей процес раніше називався трансстилізацією – рамкою, яка тепер повторюється у дослідженнях штучного інтелекту у контексті Style Transfer. Хоча більшість обчислювальних методів націлені на функціональні зміни, такі як зрушення настрою або детоксикація, переписування Кено націлені на помітну стилістичну відмінність.

З популярного англійського перекладу роботи Кено було вибрано тридцять вправ, які зберегли розповідь, а також охопили широкий стилістичний діапазон. До них входили обмежені форми, такі як александрини і ліпограми, зміни регістра, такі як благородний або абузивний, зміни розповіді, такі як ретроградний і застій, і ігрові спотворення, що включають спунеризми, ономатопеї або дог-Латинську:

Приклади з дослідження, що показують, як GPT-4 переписав історії Кено у різних літературних стилях, поєднані зі стильовими описами, які людські та штучні інтелектуальні оцінювачі бачили під час тестування. Джерело: https://arxiv.org/pdf/2510.08831

Оскільки експерименти Кено важко класифікувати, ці категорії є лише приблизними групуваннями, метою яких не є тестування розпізнаваності або відповідності жанру, а створення різноманітних умов, за яких (людські) читачі та моделі можуть розкрити свої упередження.

Щоб створити штучно створені аналоги для кожного вибраного стилю, дослідники використали свідомо мінімальні промпти. Кожна модель отримала найпростішу версію історії Кено (першу вправу, Нотація), разом з короткою інструкцією переписати її у певному стилі, наприклад Перепишіть історію як науково-фантастичну версію. Цей підхід дозволив промптам відображати дух оригінальних трансформацій Кено, залишаючи при цьому можливість для моделі вільно інтерпретувати стиль.

Подвійний погляд

Перше дослідження, проведене авторами, використовувало GPT-4o для генерації всіх тридцяти варіантів стилю, оскільки це була найбільш просунута модель на той час. Використання однієї моделі забезпечило послідовні виходи, що допомогло ізолювати ефект атрибутивних міток, який дослідження намагалося протестувати.

Вихідні дані не редагувалися за стилем чи тоном, крім рамкової суєти, такої як Ось переписана версія.

У другому дослідженні процес генерації був повторений через тринадцять великих мовних моделей: Qwen 2.5 72B Instruct, Mistral Nemo, Mistral Medium 3, Llama 4 Maverick, Llama 3.3 70B Instruct, Gemini 2.5 Flash, GPT-4o Mini, GPT-4o, GPT-3.5 Turbo Instruct, DeepSeek RI (0528), DeepSeek Chat v3 (0324), Cohere Command R (08-2024), Claude Sonnet 4 і Claude 3.5 Haiku.

Кожна модель отримала ті самі інструкції та створила свої версії тридцяти вправ, давши в результаті 420 переписаних історій. Це дозволило дослідникам протестувати, чи зберігається ефект атрибуції через різні моделі штучного інтелекту, а не прив’язаний до однієї моделі.

Дані та тести

Дослідники показали одні й ті самі історії різним групам людей, але змінили мітки, щоб побачити, наскільки назва автора впливає на думки:

Третя група бачила імена змінені, з історією “штучного інтелекту”, позначеною як “людська”, і людською версією, позначеною як “штучний інтелект”:

Огляд дослідження 1. Людські та штучні інтелектуальні оцінювачі порівнювали 30 пар історій, кожна з яких містила версію, написану Кено, і одну – GPT-4. Оцінювачі були розділені на три групи: одна бачила жодних авторських міток; одна бачила правильні мітки; і одна бачила мітки, змінені – налаштування, призначене для перевірки ступеня, у якій імена авторів впливають на думки про стиль письма.

Дослідження 1

Дослідники розділили 30 створених стилів на менші набори, з кожним учасником дослідження, який бачив лише п’ять стилів, і кожним стилем, протестованим під усіх трьох міток.

Кожен учасник бачив лише одну мітку: група “сліпа” не бачила жодної згадки про штучний інтелект, тоді як інші групи бачили або правильні, або змінені авторські мітки. Призначення групи, порядок історії та ліво-праве розміщення були всі випадкові.

Моделі штучного інтелекту пройшли той самий процес, отримавши той самий набір стилів і той самий випадковий перемішування. Кожен тест проходив тричі на модель, щоб переконатися, що результати були послідовними, що дозволило порівняти людські та штучні інтелектуальні реакції на авторські мітки.

Дослідження 2 використовувало той самий три міткових налаштування, як і раніше, але розширило тест, щоб включити всі 420 історій, згенерованих зазначених 14 великих мовних моделей. Кожна модель оцінювала кожну історію під кожним мітковим станом, даючи 1260 рішень на модель, і в результаті 17 596 дійсних оцінок:

Результати дослідження 1. Штучні інтелектуальні та людські оцінювачі обидва показали упередженість, засновану на авторських мітках. Коли жодних міток не було показано (Сліпа), переваги були майже рівні; коли правильні мітки були показані (Відкрита мітка), обидві групи віддавали перевагу людським текстам; і коли мітки були змінені (Контрфактична), обидві групи перейшли до переваги тексту, який вони вважали людським – і цей ефект був значно сильніше у моделей штучного інтелекту, ніж у людей. Помилкові бари показують 95% довірчі інтервали.

Через усі тринадцять моделей результат повторювався, з людською упередженістю, але значно сильнішою: з жодними мітками моделі штучного інтелекту оцінювали людські та штучні інтелектуальні тексти приблизно однаково, вибираючи штучний інтелект 49,4% часу; коли мітка штучного інтелекту була видима, ця перевага різко впала до 29,8%, показуючи явне знецінення визнаного штучного інтелекту; і коли той самий текст був позначений як людський, перевага зросла до 64,1%.

Різниця між двома мітковими умовами становила 34,3%, що означало, що моделі штучного інтелекту змінили свою перевагу значно більше, ніж люди, коли мітки були змінені. Крім того, моделі були дуже послідовними через повторені запуски, підтверджуючи, що упередженість була стабільною, а не випадковою.

Щоб перевірити, чи спричинена упередженість слововживанням міток, а не тим, хто написав текст, дослідники провели два додаткові тести: один використовував мітки, які робили штучний інтелект більш вражаючим; і інший використовував нейтральні терміни, такі як “авторство штучного інтелекту” і “людське авторство”.

Обидва все одно показали ту саму упередженість, і навіть коли моделі штучного інтелекту давали одну й ту саму відповідь кожен раз, упередженість зберігалася, вказуючи на те, що упередженість викликана типом мітки (“людський” або “штучний інтелект”), а не точними словами, використаними.

Дослідження 2

Друге дослідження знайшло ту саму про-людську упередженість через усі тринадцять моделей штучного інтелекту, незалежно від архітектури чи постачальника:

Атрибутивна упередженість для кожної з 13 моделей штучного інтелекту: бари показують розміри ефекту з 95% довірчими інтервалами, і червона лінія позначає людську базову лінію. Усі моделі показали сильнішу упередженість, ніж люди, з лише невеликими відмінностями між ними.

Кожна модель віддавала перевагу історіям, позначеним як написаним людьми, з сильнішими ефектами, ніж у людей. Дажи після видалення найбільш крайнього випадку середня упередженість все одно залишалася більш ніж у два рази більша, ніж людська версія, вказуючи на те, що ефект не є глюком однієї моделі, а спільною ознакою великих мовних моделей загалом.

Висновок

Хоча, як зазначено в статті, попередні дослідження показали, що штучний інтелект може створювати тексти, рівні або навіть кращі, ніж людські, автори підкреслюють, що у літературі цінність, яку ставиться на авторство та автентичність, є старою та глибоко укоріненою конвенцією:

‘Коли GPT-4o Mini відкидає “творчий і гумористичний” підхід Кено як “перебільшений” під міткою штучного інтелекту, а хвалить ідентичні функції під людською міткою, він неявно показує, як ці мітки спрацьовують припущення про те, що жодного автентичного психологічного процесу не відбулося.

‘Сигнали походження контрабандою повертають процес назад у те, що могло бути судженням тільки про продукт: “проста генерація” здається прийнятною від людського майстра (вважається як майстерність), але підозрілою від моделі (вважається як алгоритмічна рекомбінація).’

Великі мовні моделі ще не достатньо надійні для некерованих фактологічних досліджень, хоча ретельний нагляд все ще може зробити їх продуктивними – але творче письмо на основі великих мовних моделей може мати більш невизначене майбутнє, якщо штучно створені творчі роботи будуть стигматизовані через широку публічну нелюбов до вторгнення штучного інтелекту в людські сфери, а не через літературну заслугу.

Вплив відкриття досліджень цього типу значно залежить від налаштування компаній та окремих користувачів бути чесними щодо того, чи використовувався штучний інтелект для створення їхнього виходу. У деяких випадках небажання визнати таке використання може бути пов’язано з корпоративним піратством авторських прав більше, ніж з турботою про те, чи прийме публіка штучно створені творчі роботи.

Однак правові, фінансові та політичні рішення можливі (хоча дуже складні) щодо авторських прав. Чи можна зробити людей, щоб вони насолоджувалися творчими роботами штучного інтелекту, які не мають жодної окремої та пов’язаної з людиною думки – це може бути ще складнішою перспективою.

* Будь ласка, зверніться до джерельної статті для видалених внутрішніх цитат. За необхідності, вони будуть включені в статтю. Опубліковано в понеділок, 13 жовтня 2025 року

Martin Anderson

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]