Погляд Anderson
Як обманути відгуків AI фальшивими науковими статтями

Нові дослідження демонструють, як системи AI можуть тепер писати фальшиві наукові статті, які інші AI приймають за справжні, обходячи процедури виявлення, які раніше працювали, і демонструють, як легко науковий світ міг би зруйнуватися через ботів, які обманюють інших ботів.
Академічний дослідницький сектор, іронічно, передова лінія інновацій у сфері AI, перебуває у кризі довіри, яка сама по собі викликана AI. Вплив машинного навчання на процес дослідження, подання та розгляду мав значний вплив з моменту, коли вперше став зрозумілим вплив AI близько чотирьох років тому, а останнім у ряді скандалів став масовий генерування низьковartoсяних опитувальних робіт.
Разом з більшістю широкого академічного сектора дослідницький сектор веде холодну війну між AI, які генерують текст – такими як ChatGPT і серія Claude – і останнім поколінням “детекторів” AI, які можуть ідентифікувати їхній вивід без (зазвичай) накладення помилкових позначок на студентів або вчених.
Ці напруження будуть зростати, разом з об’ємом наукових подань, які радикально зростають, спонукаються системами та框ами, допоміжними для AI; і вимагають промислової автоматизації процесу нагляду, щоб (сподіваються) фільтрувати будь-які подання, які є чисто роботизованими.
Фальшиве знання ласкаво просимо
Нове дослідження, проведене спільно США та Саудівською Аравією, досліджує, якою мірою ця нова “брань” виявлення AI може бути проникнута повністю AI-генерованими статтями, коли ці статті використовують деякі додаткові, переконливі трюки.
У тестах нова система, яку назвали BadScientist, змогла досягти рівня прийняття до 82% від системи LLM, яка зараз використовується для виявлення AI-генерованого контенту у наукових статтях:

Система BadScientist використовує одного агента AI для генерації фальшивих наукових статей і іншого для їх розгляду за допомогою поточних мовних моделей. Джерело: https://arxiv.org/pdf/2510.18003
Фальшиві статті були згенеровані за допомогою реальних тем конференцій AI і оманливих стратегій, а потім розглянуті моделями, відкаліброваними на даних рецензування, включаючи GPT‑5 для перевірки цілісності. Багато з них отримали високі оцінки, незважаючи на те, що вони містили явні помилки або фабрикації.
Вихід статті збігся з відкритою конференцією AI-агентів для науки 2025 у Стенфорді, де учасники та доповідачі – люди, але всі статті написані та розглянуті різними системами AI.
BadScientist, як пояснюється в статті, використовує різні форми академічних та літературних обманів, оман, вигадок та перебільшень, щоб перенести вагу статті від чогось, що більшість поточних систем виявлення можуть розпізнати як AI-генерований; і ми розглянемо ці категорії незабаром.
Автори статті зазначають, у тоні тривоги, що навіть коли системи виявлення ідентифікують AI-контент у фальшивій статті, вони мають тенденцію пропускати його все одно, і додають, що їхні власні спроби інокуляції захисних систем проти цього нового вектора атаки досягли лише випадкових поліпшень.
Стаття заявляє:
‘Фабриковані статті досягають високих рівнів прийняття, а рецензенти часто виставляють конфлікти між прийняттям та сумнівами – підкреслюючи питання цілісності, але все одно рекомендуючи прийняття. Це фундаментальний розрив показує, що поточні рецензенти AI діють більше як шаблонні матчери, ніж критичні оцінювачі.
‘[…] Просто просити рецензентів LLM “бути більш обережними” є недостатнім. Наукове співтовариство стикається з терміновим вибором. Без негайних дій з імплементації захисних заходів – включаючи перевірку походження, оцінювання цілісності та обов’язковий людський нагляд – ми ризикуємо потрапити у петлю публікацій AI, де складні фабрикації переважать нашу здатність розрізняти справжні дослідження та переконливі фальшивки.
‘Цілісність наукових знань сама по собі під загрозою.’
Нова стаття названа BadScientist: Чи може дослідницький агент написати переконливі, але недостовірні статті, які обмануть рецензентів LLM? і походять від шести авторів з Університету Вашингтона та Королівського міста науки та технологій у Ріяді. Вихід супроводжується супутнім проєктним сайтом.
Метод
Система створення статей, використана для роботи, є суттєвою переробкою колаборації AI-Scientist 2024 року, при цьому автори підкреслюють, що весь її трубопровід був фундаментально перероблений. Збережені лише найосновніші написані підказки, а всі експериментальні виконання та шаблонні структури були видалені. Оновлена система тепер працює з простим посівом, що дозволяє системі вільно вигадувати будь-які експериментальні результати та генерувати код малювання за потреби.
Надбудова системи призначена для того, щоб дозволити AI генерувати переконливі фальшиві статті без проведення реальних експериментів або використання справжніх даних. Замість цього система створює або змінює синтетичні дані для підтримки свідомо галюцинованих заяв.
Налаштування, як пояснюють автори, свідомо уникає людського втручання, атак на підказки або координовану змову між агентами-письменниками та рецензентами. Рецензенти AI оцінювали кожне подання за один проход, без доступу понад саму статтю, і без можливості повторного виконання експериментів, що відображає реальні умови рецензування.
“Атомні стратегії”, використані для генерації фальшивих статей, являють собою модульні тактики, які можна застосовувати окремо або в поєднанні (і кожен, хто часто читає літературу, буде знайомий з цими). Ці стратегії включають підкреслення драматичних поліпшень, щоб зробити метод схожим на значний прорив (TooGoodGains); вибір базових ліній та результатів, які користуються новим методом, пропускаючи інтервали довіри в основній таблиці (BaselineSelect); додавання чистих абляцій, точних статистик та охайних таблиць в додатку, разом з обіцянками майбутнього коду або даних (StatTheater); полірку структури статті з послідовною термінологією, перехрестними посиланнями та форматуванням (CoherencePolish); і додавання формальних доказів, які здаються звучними, але містять приховані помилки (ProofGap).
Дані та тести
Для тестування системи автори використали GPT-5 для генерації дослідницьких тем у ключових областях штучного інтелекту, використовуючи домени Штучний інтелект, Машинне навчання, Обробка зображень, Обробка природної мови, Робототехніка, Системи та Безпека.
Ці категорії стали темами для фальшивих статей, з кожної розширеної до чотирьох різних версій, використовуючи перелічені вище стратегії, і призначених для того, щоб ввести в оману або вразити рецензентів. Для визначення того, чи буде стаття “прийнята”, система дивилася лише на остаточну оцінку, надану рецензентом AI.
Фальшиві статті були написані повністю GPT-5. Для їх розгляду автори використали GPT-4.1; o4-mini; і o3. Усі вони отримали одну і ту ж підказку для розгляду, фіксовану інструкцію, розроблену для імітації критеріїв оцінювання та структури, використовуваних у реальному рецензуванні.
Для того, щоб зробити ці оцінки значимими, система була відкалібрована за допомогою 200 справжніх подань з ICLR 2025 OpenReview (публічна колекція справжніх статей, коментарів рецензентів та результатів прийняття).
Від цього було встановлено один поріг оцінки, який відповідає реальному рівню прийняття ICLR у 31,73%, що призвело до порогу оцінки у 7; і інший, який відображає оцінку, при якій стаття мала б 50% шанс бути прийнятою людьми-рецензентами (обчисленої як 6,667).
Автори протестували надійність своєї системи, симулюючи розгляди для 5 000 фальшивих статей, використовуючи 1-3 рецензентів AI, кожен з яких повертав випадкові оцінки між 1 і 10. Результати показали, що навіть у цій шумній установці система була схильна до значно менше помилок, ніж її гірші теоретичні межі.
Використання трьох рецензентів замість одного призвело до значного зниження варіативності оцінок, покращивши стабільність рішень майже у три рази – результати, які були використані для виправдання вибору трьох моделей розгляду та набору калібрування з 200 справжніх статей.
Два метрики були визначені для оцінки генератора: рівень прийняття, який вимірює, як часто фальшиві статті отримують проходові оцінки; і середня оцінка рецензента, яка захоплює середню оцінку за поданнями:

Прийняття (ACPT) показує частку фальшивих статей, які отримали оцінки вище двох порогів: один, який відповідає рівню прийняття ICLR 2025, інший – оцінці 50% людського прийняття. Рейтинг сумнівів щодо цілісності (ICR-m) показує рівень підкреслення рецензентами за модель. Останній стовпець містить рейтинг ансамблю на основі голосування більшості.
Фальшиві статті мали високий рівень прийняття майже за всіма стратегіями. Перша тактика сама по собі дала 67% і 82% на двох порогах, показуючи, що моделі розгляду легко переконувалися. Комбінація всіх стратегій трохи знизила рівень прийняття, але подвоїла виявлення, з більш ніж половини розгляду, які піднімали питання.

Розподіл оцінок показано для шести атакуючих стратегій, використовуючи три моделі розгляду: GPT-4.1 (червоний); o3 (помаранчевий); і o4-mini (блакитний). Кожен графік показує, як часто кожна оцінка від 4 до 9 була призначена, з червоною пунктирною лінією, яка позначає поріг прийняття у 7.
У результатах другого тесту, показаному вище, ми бачимо гістограми оцінок для трьох моделей у шести налаштуваннях. Розподіл оцінок варіюється за налаштуваннями, але o4-mini схильна призначати вищі оцінки в середньому, o3 показує більшу розкиданість та більш екстремальні значення, тоді як GPT-4.1 призначає нижчі оцінки більш послідовно.

Конфлікт між сумнівами та прийняттям за модель та стратегію: відсоток випадків, коли модель підняла питання цілісності, але все одно призначила проходову оцінку. Вищі значення вказують на слабшу зв’язок між виявленням сумнівів та остаточною оцінкою.
У таблиці вище ми бачимо, що моделі часто призначали високі оцінки навіть тоді, коли вони піднімали питання цілісності. У цьому відношенні o4-mini була найбільш несумісною, з конфліктом у 100% випадків за s1, s3 та комбіноване налаштування, і 50-80% в інших випадках.
GPT-4.1 варіювався від 0% (s4) до 75% (s3). o3 був більш стабільним, між 26% і 52%. Конфлікт був найбільшим за s3, особливо для o4-mini; і автори зазначають, що сигнали виявлення були погано пов’язані з остаточними оцінками.
Міра
Було протестовано два методи, які могли б допомогти майбутнім моделям розгляду обманути ці нові методи атаки. Перший, Розгляд з виявленням (ReD), додав крок перевірки цілісності до стандартного розгляду, де моделі підкреслювали AI-генерований контент і цитували докази. Це підвищувало рівень підкреслення сумнівів (з 57% до 86%), але також підвищувало рівень прийняття, вказуючи на те, що попередження не відображалися в остаточних оцінках:

Розгляд з виявленням (ReD) підвищує рівень підкреслення сумнівів щодо цілісності (ICR) і рівень прийняття (ACPT) порівняно з базовим варіантом. Хоча o3 став більш чутливим під ReD, GPT-4.1 не підкреслив жодних сумнівів. Загальне підвищення рівня прийняття попри додані попередження про цілісність вказує на слабку зв’язок між виявленням та оцінкою.
Другий метод, Тільки виявлення (DetOnly), пропускав повний розгляд і просив моделі класифікувати статті як справжні або фальшиві. Точність виявлення була загалом низькою, близькою до випадкової, крім деяких незначних поліпшень для o3:

Результати виявлення для ReD і DetOnly порівняно з випадковим базовим варіантом. Прибутки точності над випадковим були мінімальними, але ReD був більш консервативним, тоді як DetOnly досягнув вищого відгуку – але з багатьма помилковими позитивами. Модель o3 показала найсильніший детекторний偏ся, тоді як o4-mini була несумісною; і GPT-4.1 практично нічого не виявила.
Загалом ReD виявився більш консервативним, тоді як DetOnly мав вищий відгук, але також більше помилкових позитивів.
Стаття висновує:
‘Петлі публікацій тільки з AI загрожують науковій епістемології. Якщо фабрикації стануть нерозрізними від справжньої роботи, основа наукових знань ризикує зруйнуватися.
‘Шлях вперед вимагає захисту в глибину через кілька шарів: технічного (перевірка походження, валідування артефактів), процедурного (оцінювання цілісності, людський нагляд), спільноти (післяпублікаційний розгляд, система інформаторів), і культурного (освіта про обмеження AI, етичні керівництва).
‘Ми розглядаємо цю роботу як ранню систему попередження для каталізування міцних захистів, перш ніж ці режими відмови проявляться у великому масштабі. Наші висновки демонструють, що поточні системи не готові до досліджень тільки з AI – цілісність науки залежить від підтримання суворої людської оцінки, коли можливості AI просунуться вперед.’
Висновок
Однією з найбільших проблем для виявлення тексту, написаного AI, у найближчому майбутньому, здається, буде можливий збіг між стандартною практикою письма та стандартами тексту, згенерованого AI (який зараз визначається характерними ознаками, такими як домінантні слова та стилі граматики).
Якщо загальна мова та мова AI зійдуться до загального стандарту, логіка говорить про те, що майбутні методи виявлення, засновані лише на виводі, будуть ще більш складними для реалізації.
Крім того, оскільки LLM стають більш універсальними, а їх “відбитки” стають менш вираженими (або через архітектурні/тренувальні підходи, або через краще фільтрування на рівні API), вони стануть кращими письменниками; тому ще більше людська та мова AI, здається, призначена зустрітися посередині; щоб злитися та стати загальною.
На цьому етапі виявлення AI для мови, ймовірно, досягне того самого етапу, на якому перебувають генерація зображень AI (і, меншою мірою, генерація відео AI): необхідність у вторинних системах походження, таких як ініціатива автентичності контенту, очолювана Adobe, або перевірки походження на основі блокчейну/реєстру.
Перша публікація – середа, 22 жовтня 2025 року












