Погляд Anderson

«Опитування-атака ДДоС», яка завалює наукову дослідницьку роботу

mm
An Oxbridge professor, a white middle-aged man, is shocked to see the entrance to his office clogged with an avalanche of books. ChatGPT-40; Firefly V3.

Моделі генеративного ІІ, такі як ChatGPT, зараз залішають академічні видавничі платформи завалені ІІ-генерованими опитуваннями на рівні, який робить співвідношення сигнал-шум критичним. Нове дослідження стверджує, що цей потік завалює дослідників, спотворює цитування та підтримує недовіру до наукової документації, порівнюючи потік ІІ-допоміжних робіт з “атакою ДДоС” на саму науку.

 

(Частково) думка  Минулого тижня, вперше за сім років стеження за науковою літературою, пов’язаною з ІІ, я був змушений визнати поразку і зізнатися, що, принаймні в пікові періоди, мені тепер потрібно вибирати між тим, щоб бути в курсі нових публікацій, або мати час, щоб написати про деякі з них.

Загальна кількість записів у дуже обмеженій кількості відповідних категорій (Комп’ютерне бачення, Машинне навчання, Моделі мови та кілька інших менш популярних розділів) становила значно понад тисячу – тільки за один день.

При такому обсязі навіть просмотр усіх нових назв і лише час від часу читання деяких резюме зробили б день непродуктивним.

Це було вівторок, 7 жовтня. Наприклад, у категорії Машинного навчання минулого вівторка (14 жовтня) кількість публікацій була трохи менше інтенсивною, ніж 400 публікацій у вівторок попереднього тижня; було всього 354 публікації:

354 публікації в категорії Машинного навчання за один день. Джерело: https://arxiv.org/

354 публікації в категорії Машинного навчання за один день. Джерело: https://arxiv.org/

Вам потрібно було читати Arxiv кожен день протягом кількох років, щоб зрозуміти, наскільки ці цифри стають абсурдними.

Звісно, вівторок – це “година пік” Arxiv для публікацій, можливо, тому, що це перший робочий день, який відбувається після довгих вихідних, і дослідники сподіваються досягти впливових людей; і категорія Машинного навчання – це “збірна” секція з меншою кількістю унікальних робіт (робот, які не публікуються одночасно в більш спеціалізованих каналах), ніж більшість інших категорій.

Однак зростання кількості публікацій вже є відзначеною явищем в академічному середовищі та ЗМІ.

Можливо, найбільш шокуючим аспектом цього зростання є те, що всі інші суміжні категорії залишаються більш або менш незмінними за частотою за останні три роки, тоді як категорія Інформатики (подивіться, чи можете ви знайти її в офіційних даних Arxiv нижче) знаходиться на сильній зростаючій траєекторії:

Зростання публікацій з комп'ютерних наук за останні три роки. Джерело: https://info.arxiv.org/about/reports/submission_category_by_year.html

Зростання публікацій з комп’ютерних наук за останні три роки. Джерело: https://info.arxiv.org/about/reports/submission_category_by_year.html

Близько трьох років тому видача публікацій з ІІ на Arxiv, як передбачалося, подвоювалася кожні кілька років; і буде цікаво прочитати власний щорічний огляд тенденцій Arxiv у кінці 2025 року.

Об’єм на 11

Дві найочевидніші причини цього зростання – а) безпрецедентна фінансова приверженість генеративному ІІ, яка приваблює величезні рівні дослідницьких інвестицій у приватному та академічному секторах, які часто співпрацюють; і б) той факт, що системи моделей мови ІІ, такі як ChatGPT, зараз роблять публікацію дослідницьких робіт (включаючи роботи про ІІ) майже індустріалізованим процесом.

Однак якість дослідницьких публікацій не зростає в такт з об’ємом (хоча похибка ІІ tende робить більше заголовків у юридичній сфері, ніж в академічній, не в останню чергу тому, що наслідки більш очевидні там).

Політика нульової толерантності важко реалізувати в цьому випадку, навіть якщо визнання ІІ-генерованого контенту було б легше; окрім того, що використання ІІ в дослідженнях загалом є явним благом для наукових досліджень, його використання в публікаціях дослідницьких робіт загалом покращило ясність робіт багатьох неанглійських учасників – осіб і команд, які до цього часу працювали в невигідних умовах.

Але проблема зниження мовного бар’єру в цьому випадку полягає в тому, що це також підвищує загальну кількість глобальних учасників, не підвищуючи рівень людського нагляду, який надає цінність цій роботі.

Якщо рівень публікацій продовжить зростати експоненціально, співвідношення сигнал-шум стане такою некерованою, що тільки ІІ зможе орієнтуватися в нових потоках і притоках ІІ-робіт; завдання, до якого воно не підходить більше, ніж до перевірки власного виходу. Іронічно, наукове дослідження – це дуже людська справа.

Атака на дослідження

Причина цього відображення є цікавою новою співпрацею з Китаю під назвою Стоп атака ДДоС на дослідницьке співтовариство з ІІ-генерованими опитуваннями.

Нова позиційна робота зосереджується конкретно на опитуваннях – високозатратних оглядах окремих напрямків досліджень, які традиційно як перелічували, так і контекстуалізували, інтерпретуючи тенденції та роблячи обґрунтовані прогнози:

Лише мала частина величезної та постійно зростаючої кількості опитувань, доступних у розділах, пов'язаних з машинним навчанням та ІІ, на arxiv.org

Лише мала частина величезної та постійно зростаючої кількості опитувань, доступних у розділах, пов’язаних з машинним навчанням та ІІ, на arxiv.org

Оскільки опитування курирують, а не походять, вони незвично легко автоматизуються з ІІ, і автори нової роботи характеризують поширення низько-затратних опитувань у термінах безпекової загрози для дослідницького сектора:

‘[Останнє зростання ІІ-генерованих опитувань, особливо завдяки великим мовним моделям (ВММ), перетворило цю традиційно високозатратну жанр у низько-затратний, високовиробничий вихід. Хоча така автоматизація знижує бар’єри для входу, вона також вводить критичну загрозу: явище, яке ми називаємо “опитувальною атакою ДДоС” на дослідницьке співтовариство.

‘Це відноситься до неконтрольованого поширення поверхнево повних, але часто повторюваних, низькоякісних або навіть галюцинованих опитувальних рукописів, які завалюють переддрукові платформи, завалюють дослідників і підтримують недовіру до наукової документації.

‘[Ми] стверджуємо, що нам потрібно зупинити завантаження величезної кількості ІІ-генерованих опитувальних робіт (тобто опитувальної атаки ДДоС) у дослідницьке співтовариство, встановивши сильні норми для ІІ-допоміжного написання оглядів.’

Автори стверджують, що ця некерована прискорення виробництва опитувань загрожує затопити дослідницьку екосистему відполірованими звітами, які все ж таки缺ують критичної глибини, і які, ймовірно, поширять фактичні помилки та/або галюциновані цитування.

Папера попереджає, що без кращих правил або нагляду ІІ-генеровані опитування можуть перетворитися на мілкі копії, які спотворюють, які теми важливі, приховують значимий аналіз і роблять огляди літератури менш надійними:

‘Вплив на якість досліджень і довіру глибокий. По-перше, справжні досягнення ризикують бути заслонені алгоритмічно згенерованими перефразами існуючої роботи.

‘Нові учасники та міжгалузеві вчені можуть боротися з пошуком надійних оглядів серед шуму. Крім того, помилки або упередження, введені автоматичним складанням, можуть поширюватися неконтрольовано, засіваючи подальші дослідження помилковими припущеннями.

‘Підсумком є те, що потік нерецензованих ІІ-генерованих опитувань загрожує як якість оглядів літератури, так і надійність наукової документації.’

‘Аномальні’ автори

Дослідники нової роботи надають деякий цікавий аналіз еволюції опитувальних публікацій:

Ліворуч: щорічна кількість комп'ютерних наук опитувань з 2020 по 2024 рік. Посередині: середній бал генерації ІІ для цих робіт за той же період. Праворуч: кількість авторів, позначених як аномальні (ті, у кого незвичайно висока опитувальна продуктивність, обмежена різноманітність співавторів та повторювані інституційні моделі) кожен рік. Всі три тенденції показують різкий зростання, починаючи з 2023 року, що збігається з випуском ChatGPT та інших великомасштабних мовних моделей.

Ліворуч: щорічна кількість комп’ютерних наук опитувань з 2020 по 2024 рік. Посередині: середній бал генерації ІІ для цих робіт за той же період. Праворуч: кількість авторів, позначених як аномальні (ті, у кого незвичайно висока опитувальна продуктивність, обмежена різноманітність співавторів та повторювані інституційні моделі) кожен рік. Всі три тенденції показують різкий зростання, починаючи з 2023 року, що збігається з випуском ChatGPT та інших великомасштабних мовних моделей.

У першому стовпці ми бачимо тенденції зростання: крива починає стрімко зростати близько 2022 року, саме тоді, коли ChatGPT з’явився та великомасштабні мовні моделі почали набувати популярності, а наступні моделі, такі як Claude, PaLM та Gemini, підтримували цей імпульс протягом усього 2023 року.

Середній графік показує різке зростання після 2022 року, що збігається з запуском ChatGPT. Одна дослідницька команда виявила, що до 2024 року понад 10% наукових анотацій пройшли через ВММ. Відокремлений звіт від компанії з виявлення ІІ поставив пост-ChatGPT стрибок на 72% для робіт на arXiv, які можуть бути написані з допомогою ІІ. Кількість робіт з високими балами генерації ІІ також подвоїлася за рік, з 3,6% до 6,2%.

Правий графік показує стійке зростання кількості “аномальних” авторських моделей (дослідників, які подають три або більше опитувань протягом місяця, працюючи з менше двох співавторів), з різким зростанням, починаючи з 2022 року.

Автори стверджують, що багато цих опитувальних робіт можуть бути написані ІІ з різних причин; деякі написані сольними авторами або малими групами, які подають кілька опитувань протягом короткого часу; багато з них охоплюють не пов’язані теми; і в деяких випадках автори не мають попередньої історії в галузях, які вони підсумовують.

Крім того, деякі з них публікуються під анонімними колективами без явних інституційних зв’язків – моделі, які свідчать про координоване затоплення галузі швидкими опитуваннями, можливо, для отримання цитувань або поліпшення академічних профілів, а не для внеску в літературу.

Проблеми

Хоча ми не можемо охопити всі суперечки нової роботи, нам потрібно розглянути деякі з найбільш помітних спостережень, а також критично оцінити запропоновані авторами рішення цих проблем.

Якість і оригінальність

Проблема не тільки в обсязі: багато ІІ-написаних опитувань пропускають те, що робить хороше опитування корисним: чітку структуру, глибокий аналіз, правильну та ретельну атрибуцію та справжню проникливість. Натомість папера пропонує, що ІІ-генеровані/допоміжні опитування часто читаються як зшиті підсумки, без жодної необхідної турботи чи кураторства.

Автори відзначають далі, що ІІ-написані опитування часто бракують структури, а просто перелічують роботи без чіткого напрямку, пропускають ключові розділи та не створюють контекст. Люди-написані опитування, навпаки, схильні встановлювати належні категорії та розповідати більш сполучену історію.

Також багато потенційно ІІ-допоміжних опитувань здаються просто копіями існуючих тематичних розділів, іноді прямо з Вікіпедії. Наприклад, папера відзначає, що кілька опитувань про Візуальні трансформери містять спільні заголовки розділів і структуру, що видає ІІ-шаблонний вихід:

‘Натомість добре створене людино-написане опитування може запровадити нову таксономію, наприклад, категоризуючи Віт за стратегіями ефективності. Відсутність такої оригінальної структури в багатьох недавніх опитувальних переддруків викликає занепокоєння, що вони можуть бути згенерованими ІІ з обмеженим людським розумінням.’

Не цитуйте мене на це

Можливо, найбільш публічно прикро, ІІ-написані опитування часто отримують цитування неправильно, пропускаючи ключові роботи, включаючи нерелевантні роботи, а іноді навіть перелічуючи неіснуючі роботи – помилки, які свідчать про те, що посилання походять від поверхневого зіставлення моделей, а не справжньої експертизи.

Автори також відзначають, що деякі недавні опитувальні роботи, часто від зовсім різних команд, мають до 70% спільних списків посилань – рівень перекриття такої висоти, що вони стверджують, що це свідчить про спільну залежність від ВММ, які черпають з тієї ж вузької групи джерел.

Дійсно, випадкові користувачі ChatGPT знають, що чим більш незвичайна тема, тим менше різноманітних джерел є для моделі, щоб узагальнити; дуже часто знаходження власних обмежених джерел моделі в Інтернеті є більш корисним, ніж спроба взаємодіяти з цією інформацією через ІІ, яка не мала достатніх даних у певній галузі.

‘Омогенний стиль’ з’являється

Автори також відзначають, що багато ІІ-написаних опитувань на одну й ту ж тему виглядають і звучать майже ідентично, оскільки ВММ повторюють фрази та структуру, особливо для популярних предметів, що призводить до потоку майже ідентичних робіт, які додають мало цінності та створюють значний шум для дослідників, які шукають відповіді на питання галузі:

‘Коли кілька авторів просять ВММ “написати огляд літератури про Х”, модель часто генерує дуже схожі відповіді, особливо для спільних визначень або добре відомих фактів. Недавнє дослідження показало різкий зростання використання певних стилів письма, пов’язаних з ВММ, що свідчить про те, що багато робіт тепер мають спільний стиль.’

Ваш ChatGPT видно

Папера відзначає, що швидкий спосіб виявити ІІ-написані опитування – це присутність фраз, таких як ‘як модель мови ІІ‘ або ‘мій знаний креслення‘, що свідчить про мінімальну або навіть нульову кураторську обробку виходу мовної моделі до подачі робіт (хоча на момент написання цією статті цільовий пошук не виявив жодних таких ознак, індексованих у Google Search).

Папера відзначає, що багато “підозрілих” опитувань показують нижчу різноманітність слів і повторюване фразування, наприклад, починаючи кілька абзаців з Крім того. Такий шаблон, стверджують автори, є типовим для стилю письма GPT, і міг би бути корисним прапорцем для виявлення автоматично згенерованого тексту.

(Моя особиста думка про це полягає в тому, що обмеження онлайн-журналістики часто вимагають від автора перелічувати багато пунктів у прозовій, нестилізованій формі. Тому ChatGPT та його однокласники, ймовірно, вивчили цю погану звичку від людських письменників, яким була обмежена кількість лексичних альтернатив. Крім того, припущення авторів свідчить про те, що вони займаються основами виявлення ІІ-контенту, що є складною та розвивається областю з небагатьма довговічними константами того типу, який автори пропонують)

Хоча дослідники продовжують розвивати цікавий дискурс про негативний вплив ІІ-опитувань на дослідницьку культуру та довіру, ми повинні відправити читача до оригінальної роботи для більшої глибини на цю тему.

Рішення?

Рішення папери є цікавим, радикальним і в той же час дивно неоригінальним: корисність опитувальних робіт повинна бути замінена Динамічним живим опитуванням – за тлумаченням, гібридом між Вікіпедією та сторінкою GitHub, постійно живленим новими даними з ІІ та інших систем ІІ, але з комітами, зробленими тільки людьми, так що ІІ не може фактично “авто-публікувати” оновлення.

Предложена система буде розділяти версіонування та розгалуження GitHub, фактично перетворюючи інформаційний ресурс у постійно оновлюваний список, подібний до ‘awesome’ ряду кураторських списків на GitHub:

‘Під цією рамкою співтовариство перш за все встановлює опитувальне вікі, уточнюючи сферу, ключові дослідницькі питання та семінальні посилання, які тим самим встановлюють чітку тематичну межу та початкову структуру.

‘Потім агент інгестії на основі ВММ безперервно моніторить переддруки, матеріали конференцій та таблиці лідерів. Він автоматично витягує анотації, малюнки та ключові показники продуктивності; синтезує лаконічні підсумки нових результатів; оновлює граф цитування, щоб відображати міжпаперові відносини; і підкреслює появу нових дослідницьких тенденцій для подальшого огляду.

‘За конструкцією ці автоматичні оновлення відбуваються за кілька годин після публікації, забезпечуючи, щоб репозиторій залишався на передньому краї.’

‘Людські учасники потім вступають у гру, щоб надати інтерпретативну глибину, яку машини самі не можуть запропонувати. Вони уточнюють еволюційні таксономії, щоб захопити тонкі методологічні відмінності, координують суперечливі інтерпретації алгоритмічних інновацій у різних підгалузях, і надають глибші критичні порівняння до документа.’

Книга змін

Автори розвивають свою пропозицію з ентузіазмом і докладно, і фактично виправдовують її тим, що є дуже правдою: високо-затратні людські опитування про нестабільні теми навколо ІІ старіють так швидко, що вони майже не варті писати; і папера відзначає, що тримісячний оборот на нове опитувальне дослідження, ймовірно, означатиме, що воно буде застарілим (або навіть гірше застарілим) до дня його запланованої публікації:

‘Рік за роком спільноти залішаються повторюваними або поверхневими оглядами, які швидко втрачають актуальність, залишаючи практиків і нових учасників боротьбою за розрізнення сигналу від шуму. Традиційний цикл публікації (тобто, чернетка, подача, огляд і публікація) може тривати кілька місяців, до яких часу критичні прориви можуть вже змінили ландшафт.

‘Крім того, зростаюча кількість статичних опитувань додає до когнітивного перевантаження, оскільки читачі повинні просіювати численні перекриваються документи, щоб знайти суттєві ідеї.’

На жаль, рішення папери розділяє багато з найгірших і найбільш зневажених якостей Discord: найбільш явно те, що воно буде постійно зміщуватися і змінюватися.

Оскільки будь-яка частина Динамічного живого опитування може зникнути або бути зміненою в будь-який момент, воно буде неможливо використовувати як цитоване, стабільне джерело; окрім, можливо, посилання на “попередній коміт”, подібно до того, як archive.is і Wayback Machine, серед інших архівних сайтів, забезпечують посиланняні знімки вмісту веб-сторінки, заморожені в певний момент часу. Але які ресурси будуть потрібні такому коміту, і можна буде йому довіряти, щоб залишитися активним з плином часу?

Крім того, платформа/Вікіпедія з постійно змінюваними визначеннями та вмістом буде складною для індексування, як традиційними пошуковими системами, так і ІІ.

Можливо, найслабша частина запропонованої системи полягає в ідеї, що справжні люди повинні наглядати за комітами від ІІ-агентів; як завжди, справжні люди дорого коштують. Те, що пропонується, – це щось середнє між музеєм і бібліотекою – обидва з яких будуть потребувати м’ясної начинки, пропорційної до обсягу даних і кількості тем, охоплених.

Якщо “використайте справжніх людей” – єдине рішення проблеми ІІ, то проблема залишається відкритою і нерозв’язаною.

Висновок

На даний момент короткий термін зберігання опитувальних робіт про ІІ є дратівливим; якщо поточна тенденція до високомасштабного автоматизованого письма та подачі продовжиться, як передбачається в новій роботі, співвідношення сигнал-шум стане хронічним, а література стане некерованою.

У такій ситуації було б ще складніше, ніж зараз, для менших, не-FAANG голосів бути почутими в штормі подач, і великі лідери ринку, ймовірно, здобудуть ще більшу видимість.

Крім живих опитувань, нова робота пропонує, що автори не тільки повинні бути обмежені самозакріпленням при використанні ІІ в будь-якій частині подачі, але й що ІІ-допоміжні розділи повинні бути явно позначені всередині папери (можливо, з боку JSON-файлу…?).

Оскільки це перспектива, що викликає обурення, папера пропонує альтернативу, яку я можу охарактеризувати лише як “гетто ІІ” – окремий розділ у подачі, відведений для внесків ІІ.

У короткому слові, нова робота, принаймні на мою думку, не пропонує реалістичних рішень; але автори зробили корисну службу, сформулювавши майбутні виклики.

 

Паперу Стоп атака ДДоС на дослідницьке співтовариство з ІІ-генерованими опитувальними паперами можна знайти на https://arxiv.org/abs/2510.09686, і написано шістьма авторами з різних кафедр Шанхайського університету Цзяо Тун.

___________________________________

* Не всі вважають, що це так.

Акцент авторів, не мій. Також, де застосовно, моє перетворення авторських внутрішніх цитат у гіперпосилання.

Перша публікація – п’ятниця, 17 жовтня 2025 року

Писатель про машинне навчання, домен-спеціаліст у сфері синтезу зображень людини. Колишній керівник дослідницького контенту в Metaphysic.ai.
Особистий сайт: martinanderson.ai
Контакт: [email protected]