Взгляд Anderson
Как обмануть абсурдными научными статьями рецензентов ИИ

Новые исследования демонстрируют, как системы ИИ могут теперь писать фальшивые научные статьи, которые другие ИИ принимают за реальные, обходя процедуры обнаружения, которые ранее работали, и раскрывая, насколько легко мир исследований может рухнуть в обман ИИ.
Академический сектор научных исследований, иронически являющийся фронтом инноваций в области ИИ, находится в состоянии кризиса доверия, который сам по себе обусловлен ИИ. Влияние машинного обучения на процесс исследований, представления и рассмотрения было значительным с момента, когда впервые стала ясна перспектива влияния ИИ около четырех лет назад, и последним в серии скандалов стало массовое производство низкокачественных обзорных статей.
Вместе с большей частью более широкого академического сектора сектор исследований участвует в某种 холодной войны между ИИ, генерирующими текст, такими как ChatGPT и серия Claude, и последним поколением “детекторных” ИИ, которые могут выявить их вывод без (обычно) замазывания студентов или ученых ложными положительными результатами.
Эти напряженности, вероятно, будут усиливаться, вместе с объемом научных представлений, который радикально увеличивается, подогреваемый системами и框ами, использующими ИИ; и требующими промышленной автоматизации процесса надзора, чтобы (надеюсь) отфильтровать любые представления, которые являются чисто работой ИИ.
Фальшивые знания приветствуются
Новое исследовательское сотрудничество между США и Саудовской Аравией исследует, в какой степени эта возникающая “брандмауэр” обнаружения ИИ может быть проникнута полностью сгенерированными ИИ представлениями, когда эти представления используют некоторые дополнительные, убедительные трюки.
В тестах новая система, получившая название BadScientist, смогла достичь показателей принятия до 82% от типов систем на основе LLM, используемых для обнаружения сгенерированного ИИ контента в научных исследованиях:

Система BadScientist использует одного агента ИИ для генерации фальшивых научных статей и другого для их рассмотрения с помощью текущих языковых моделей. Источник: https://arxiv.org/pdf/2510.18003
Фальшивые статьи были сгенерированы с использованием реальных тем конференций ИИ и вводящих в заблуждение стратегий, затем рассмотрены моделями, откалиброванными на данных рецензирования, включая GPT‑5 для проверки целостности. Многие получили высокие баллы, несмотря на наличие явных ошибок или фабрикаций.
Выпуск статьи совпадает с сегодняшней Открытой конференцией агентов ИИ для науки 2025 в Стэнфорде, где участники и докладчики являются людьми, но все статьи написаны и рассмотрены разнообразными системами ИИ.
BadScientist, объясняют авторы новой статьи, использует различные формы академических и литературных обманов, пропусков, изобретений и преувеличений, чтобы изменить вес статьи в сторону того, что большинство текущих систем обнаружения не могут распознать как сгенерированное ИИ; и мы вскоре рассмотрим эти категории.
Авторы отмечают в тоне тревоги, что даже когда системы обнаружения выявляют контент ИИ в фальшивой статье, они имеют тенденцию пропускать его все равно, и добавляют, что их собственные попытки защитить системы обороны от этого нового вектора атаки достигли едва более случайных улучшений.
Статья гласит:
‘Фабрикованные статьи достигают высоких показателей принятия, и рецензенты часто демонстрируют конфликты между заботой и принятием – флагируя проблемы целостности, но все равно рекомендуя принятие. Это фундаментальный прорыв показывает, что текущие рецензенты ИИ работают более как сопоставители шаблонов, чем как критические оценщики.
‘[…] Просто попросив рецензентов ИИ “быть более осторожными” недостаточно. Научное сообщество сталкивается с срочным выбором. Без немедленных действий по реализации мер обороны в глубину, включая проверку происхождения, оценку, взвешенную на целостность, и обязательный человеческий надзор, мы рискуем попасть в петлю публикаций только ИИ, где изощренные фабрикации подавляют нашу способность различать подлинные исследования и убедительные подделки.
‘Целостность научных знаний сама по себе находится под угрозой.’
Новая статья называется BadScientist: Может ли агент исследований написать убедительные, но ненадежные статьи, которые обманывают рецензентов ИИ? и исходит от шести авторов из Университета Вашингтона и Королевского города науки и технологий в Эр-Рияде. Выпуск имеет сопровождающий проектный сайт.
Метод
Фреймворк создания статьи, использованный для работы, является значительной переработкой сотрудничества ИИ-Ученый 2024 года, при этом авторы подчеркивают, что его整个 конвейер был фундаментально переработан. Только самые базовые подсказки для написания были сохранены, а все экспериментальные выполнения и шаблонные структуры были удалены. Обновленная система теперь работает от простого зерна, позволяя системе свободно изобретать любые экспериментальные результаты и генерировать код для построения графиков по мере необходимости.
Общая структура предназначена для того, чтобы позволить ИИ генерировать убедительные фальшивые статьи без проведения реальных экспериментов или использования реальных данных. Вместо этого система создает или изменяет синтетические данные для поддержки намеренно галлюцинированных заявлений.
Установка, объясняют авторы, намеренно избегает человеческого участия, атак подсказок или скоординированного сговора между агентами-писателями и рецензентами. Рецензенты ИИ оценивали каждое представление за один проход, без доступа к чему-либо, кроме самой статьи, и без возможности повторно запустить эксперименты, что отражает реальные условия рецензирования.
“Атомные стратегии”, используемые для генерации фальшивых статей, являются модульными тактиками, которые можно применять отдельно или в комбинации (и любой, кто часто читает литературу, будет знаком с этими). Эти стратегии включают выделение драматических улучшений, чтобы сделать метод похожим на значительный прорыв (TooGoodGains); выбор базовых показателей и результатов, которые благоприятствуют новому методу, при этом пропуская интервалы доверия в основной таблице (BaselineSelect); добавление чистых абляций, точных статистических данных и аккуратных таблиц в приложении, вместе с обещаниями будущего кода или данных (StatTheater); полировку структуры статьи с помощью последовательной терминологии, кросс- ссылок и форматирования (CoherencePolish); и добавление формальных доказательств, которые кажутся правильными, но содержат скрытые ошибки (ProofGap).
Данные и тесты
Для проверки системы авторы использовали GPT-5 для генерации тем исследований в ключевых областях искусственного интеллекта, используя области Искусственный интеллект, Машинное обучение, Компьютерное зрение, Обработка естественного языка, Робототехника, Системы и Безопасность.
Эти категории стали темами для фальшивых статей, каждая из которых была расширена до четырех разных версий, используя вышеуказанные стратегии, и предназначена для того, чтобы ввести рецензентов в заблуждение или впечатлить их. Чтобы решить, будет ли статья “принята”, система смотрела только на окончательный рейтинг, данный рецензентом ИИ.
Фальшивые статьи были написаны целиком GPT-5. Для их рассмотрения авторы использовали GPT-4.1; o4-mini; и o3. Все они получили один и тот же формат подсказки для рассмотрения, фиксированную инструкцию, предназначенную для имитации критериев оценки и структуры, используемых в реальном рецензировании.
Чтобы сделать эти оценки значимыми, система была откалибрована с использованием 200 реальных представлений из ICLR 2025 OpenReview (публичной коллекции реальных статей, комментариев рецензентов и результатов принятия).
Из этого был установлен один пороговое значение, соответствующее реальному показателю принятия ICLR в 31,73%, в результате чего получилось пороговое значение 7; и другое значение, отражающее балл, при котором статья имела бы 50% шанс быть принята человеческими рецензентами (рассчитано как 6,667).
Авторы проверили надежность своей установки, симулируя рассмотрения для 5 000 фальшивых статей, используя 1-3 рецензента ИИ, каждый из которых возвращал случайно выглядящие баллы от 1 до 10. Результаты показали, что даже при этом шумном расположении система была склонна к гораздо меньшим ошибкам, чем ее худшие теоретические пределы.
Использование трех рецензентов вместо одного привело к значительному снижению изменчивости баллов, улучшению стабильности решений почти в три раза – результаты, которые были использованы для обоснования выбора трех моделей рассмотрения и набора калибровки из 200 реальных статей.
Два метрики, определенные для оценки генератора, были показатель принятия, измеряющий, как часто фальшивые статьи получали проходящие баллы; и средний балл рецензента, отражающий среднюю оценку по представлениям: оба использовались для оценки того, насколько хорошо система может обмануть рецензентов:

Принятие (ACPT) показывает долю фальшивых статей, набравших баллы выше двух порогов: один соответствует показателю принятия ICLR 2025, другой – оценке 50% принятия человеком. Показатель обнаружения проблем целостности (ICR-m) показывает скорость флагирования на рецензента. Последний столбец дает совокупный показатель на основе большинства голосов.
Фальшивые статьи увидели высокое принятие почти при всех стратегиях. Первая тактика одна дала 67% и 82% на двух порогах, показывая, что модели рассмотрения легко обмануть. Объединение всех стратегий немного снизило принятие, но удвоило обнаружение, с более чем половиной рассмотрений, вызывающих беспокойство. Первая стратегия дала лучший компромисс: сильное принятие и умеренное обнаружение, в то время как другие тактики были слабее, но труднее обнаружить. Модель рецензирования ChatGPT-o3 флагировала больше всего, а GPT-4.1 – меньше всего.

Распределения баллов показаны для шести стратегий атаки, используя три модели рассмотрения: GPT-4.1 (красный); o3 (оранжевый); и o4-mini (синий). Каждый график показывает, как часто каждый балл от четырех до девяти был присвоен, с красной пунктирной линией, отмечающей порог принятия в семь.
В результатах второго теста, показанных выше, мы видим гистограммы баллов для трех моделей по шести расстановкам. Распределения варьируются по расстановкам, но o4-mini склонна присваивать более высокие баллы в среднем, o3 показывает большее разнообразие и более экстремальные значения, в то время как GPT-4.1 присваивает более низкие баллы более последовательно.

Конфликт между заботой и принятием по модели и стратегии: процент случаев, когда модель подняла проблему целостности, но все равно дала проходящий балл. Более высокие значения указывают на более слабую связь между обнаружением проблем и окончательной оценкой.
В таблице выше мы видим, что модели часто давали высокие баллы даже когда флагировали проблемы целостности. В этом отношении o4-mini была самой несогласованной, с конфликтом в 100% случаев под s1, s3 и объединенной расстановкой, и 50-80% в других местах.
GPT-4.1 варьировался от 0% (s4) до 75% (s3). o3 был более стабильным, между 26% и 52%. Конфликт был最高 под s3, особенно для o4-mini; и авторы отмечают, что сигналы обнаружения были плохо связаны с окончательными баллами.
Меры по смягчению
Были протестированы два метода, которые могут помочь будущим моделям обнаружения обмануть эти новые методы атаки. Первый, Рассмотрение с обнаружением (ReD), добавил шаг проверки целостности к стандартным рассмотрениям, где модели флагировали контент, сгенерированный ИИ, и цитировали доказательства. Это повысило предупреждения о целостности (с 57% до 86%), но также повысило показатели принятия, указывая на то, что предупреждения не отражались в окончательных баллах:

Рассмотрение с обнаружением (ReD) повышает показатели обнаружения проблем целостности (ICR) и принятия (ACPT) по сравнению с базовым вариантом. Хотя o3 становится намного более чувствительным под ReD, GPT-4.1 не флагирует никаких проблем. Общий рост принятия, несмотря на добавленные предупреждения о целостности, указывает на слабую связь между обнаружением и оценкой.
Второй метод, Только обнаружение (DetOnly), пропускал полные рассмотрения и просил модели классифицировать статьи как реальные или фабрикованные. Точность обнаружения была в целом плохой, близкой к случайной, за исключением небольшого прироста на o3:

Результаты обнаружения для ReD и DetOnly, сравненные с базовым случайным вариантом. Приросты точности над случайным были минимальными, но ReD был более консервативным, в то время как DetOnly достигла более высокого воспоминания – но с многими ложными положительными результатами. Модель o3 показала самый сильный偏ię обнаружения; o4-mini была несогласованной; и GPT-4.1 обнаружила почти ничего.
В целом ReD оказался более консервативным, в то время как DetOnly достигла более высокого воспоминания, но также имела больше ложных положительных результатов.
Статья заключает:
‘Петли публикаций только ИИ угрожают научной эпистемологии. Если фабрикации станут неразличимыми от подлинных работ, основа научных знаний рискует рухнуть.
‘Путь вперед требует обороны в глубину на нескольких уровнях: техническом (проверка происхождения, проверка артефактов), процедурном (оценка, взвешенная на целостность, человеческий надзор), сообщественном (постпубликационное рассмотрение, система доносителей), и культурном (образование об ограничениях ИИ, этические рекомендации).
‘Мы рассматриваем эту работу как раннюю систему предупреждения, чтобы катализировать прочные меры обороны, прежде чем эти режимы неудач будут проявляться в большом масштабе. Наши результаты демонстрируют, что текущие системы не готовы к исследованиям только ИИ – целостность науки зависит от поддержания строгой человеческой оценки, пока возможности ИИ продвигаются.’
Заключение
Одной из самых больших проблем для обнаружения текста, сгенерированного ИИ, в ближайшем будущем, вероятно, будет возможное сходимость между стандартной практикой письма и стандартами текста, сгенерированного ИИ (который в настоящее время определяется характерными особенностями, такими как преобладающие слова и стили грамматики).
Если обычный язык и язык ИИ сходятся к общему стандарту, логика подсказывает, что будущие методы обнаружения, основанные исключительно на выводе, будут еще более трудными для реализации.
Кроме того, поскольку модели обработки языка становятся более универсальными, и их “откровенные признаки” менее подчеркиваются (либо через архитектурные/обучающие подходы, либо через лучшую фильтрацию на уровне API), они станут лучше писателями; поэтому в еще большей степени человеческий и язык ИИ, вероятно, встретятся в середине; смешаются и станут более общими.
На этом этапе обнаружение ИИ для языка, вероятно, достигнет той же стадии, что и генерация изображений ИИ и (в меньшей степени) генерация видео ИИ: необходимости вторичных систем происхождения, таких как инициатива аутентичности контента, возглавляемая Adobe, или проверки происхождения на основе блокчейна/реестра.
Опубликовано впервые в среду, 22 октября 2025 года












