Kąt Andersona
„Przeglądowy atak DDos” zagrażający badaniom naukowym

Modele językowe generatywne, takie jak ChatGPT, zalewają obecnie platformy publikacji akademickiej AI-generowanymi pracami przeglądowymi w takim stopniu, że stosunek sygnału do szumu staje się krytyczny. Nowe badanie twierdzi, że ten potok jest przytłaczający dla badaczy, zniekształca cytaty i podważa zaufanie do rekordu naukowego, porównując falę prac AI-do ataku DDos na samą naukę.
(Częściowo) opinia W zeszłym tygodniu, po raz pierwszy w ciągu siedmiu lat, kiedy starałem się być na bieżąco z literaturą naukową związaną z AI, musiałem uznać porażkę i przyznać, że przynajmniej w czasie szczytu, muszę wybierać między pozostawaniem na bieżąco z nowymi publikacjami a mając jakikolwiek czas, aby pisać o niektórych z nich.
Łączna liczba wpisów w bardzo ograniczonej liczbie odpowiednich kategorii (Widzenie komputerowe, Uczenie maszynowe, Modele językowe i kilka innych mniej popularnych sekcji) przekroczyła znacznie tysiąc – tylko za jeden dzień.
Przy takim poziomie objętości, nawet przeglądanie wszystkich nowych tytułów i tylko okazjonalne zagłębianie się w niektóre z abstraktów sprawiłoby, że dzień byłby nieproduktywny.
To było wtorek, 7 października. Dla porównania, w kategorii Uczenie maszynowe ten wtorek (14 października) oferował objętość publikacji nieco mniejszą niż 400 wpisów z zeszłego tygodnia; miało 354 wpisy:

354 wpisy w kategorii Uczenie maszynowe w ciągu dnia. Źródło: https://arxiv.org/
Musiałbyś czytać Arxiv każdego dnia przez kilka lat, aby zrozumieć, jak szalone stają się te liczby.
Przyznaję, że wtorek to „godzina szczytu” Arxiv dla zgłoszeń, być może dlatego, że jest to najwcześniejszy dzień roboczy, który występuje poza długimi weekendami, na które liczą wpływowi ludzie, których badacze chcą osiągnąć; a kategoria Uczenie maszynowe jest sekcją „wszystko-w-jednym” z mniejszą liczbą unikalnych prac (prac, które nie są publikowane jednocześnie w bardziej wyspecjalizowanych kanałach) niż większość innych kategorii.
Niemniej jednak, wzrost liczby zgłoszeń jest już zjawiskiem odnotowanym w środowisku akademickim i w mediach.
Być może najbardziej szokującym aspektem tego zjawiska jest to, że wszystkie inne sąsiednie kategorie są mniej więcej niezmienne pod względem częstotliwości w ciągu ostatnich trzech lat, podczas gdy kategoria Informatyka (sprawdź, czy możesz ją znaleźć w oficjalnych danych Arxiv poniżej) jest na ostrym wzroście:

Wzrost prac z dziedziny informatyki (CS) w ciągu ostatnich trzech lat. Źródło: https://info.arxiv.org/about/reports/submission_category_by_year.html
Jeszcze ponad trzy lata temu szacowano, że wydajność prac AI na Arxiv podwaja się co kilka lat; i będzie interesujące przeczytać własny roczny podsumowanie trendów Arxiv na koniec 2025 roku.
Objętość na maksymalnym poziomie
Dwie najbardziej oczywiste przyczyny tego zjawiska to a) bezprecedensowe zaangażowanie finansowe w AI, które przyciąga ogromne inwestycje badawcze w sektorze prywatnym i akademickim, które często współpracują; oraz b) fakt, że systemy modeli językowych AI, takie jak ChatGPT, sprawiają, że składanie prac badawczych (w tym prac o AI) staje się prawie zindustrializowanym procesem.
Jednak jakość prac badawczych nie rośnie wraz z objętością (chociaż błędne dane wyjściowe AI mają tendencję do robienia więcej nagłówków w sektorze prawnym niż w akademickim, nie tylko dlatego, że konsekwencje są tam bardziej oczywiste).
Prowadzenie polityki zero tolerancji jest trudne do wdrożenia w tym przypadku, nawet jeśli rozpoznawanie treści generowanych przez AI było łatwiejsze; poza tym, że AI sam w sobie jest oczywistym bonusem dla badań naukowych w ogóle, jego użycie w składaniu prac badawczych ogólnie* poprawiło klarowność pracy wielu osób nie posługujących się językiem angielskim – osób i zespołów, które do tej pory działali w niekorzystnej sytuacji.
Ale problem polegający na obniżeniu bariery językowej w ten sposób polega na tym, że podnosi to również ogólną liczbę globalnych składających, bez zwiększania poziomu nadzoru ludzkiego, który nadaje wartość takiej pracy.
Jeśli poziom składania prac będzie nadal rosł w sposób wykładniczy, stosunek sygnału do szumu stanie się tak niekontrolowany, że tylko AI będzie w stanie nawigować nowe fale i dopływy prac AI; zadanie, do którego nie jest lepiej przystosowane niż do sprawdzania własnych danych wyjściowych. Ironicznie, badania naukowe są niezwykle ludzkim przedsięwzięciem.
Atak na badania
Przyczyną tej refleksji jest ciekawa nowa współpraca z Chin, zatytułowana Przestań atakować społeczność badawczą pracami przeglądowymi wygenerowanymi przez AI.
Nowy artykuł koncentruje się szczególnie na pracach przeglądowych – pracach wymagających dużego wysiłku, które tradycyjnie wymieniały i kontekstualizowały, interpretowały trendy i dokonywały przewidywań:

Znikoma część ogromnie rosnącego zbioru prac przeglądowych w sekcjach związanych z uczeniem maszynowym i AI, na arxiv.org
Ponieważ prace przeglądowe kuratorują, a nie tworzą, są niezwykle łatwe do zautomatyzowania za pomocą AI, a autorzy nowej pracy charakteryzują proliferację prac przeglądowych o niskim wysiłku w kategoriach zagrożenia bezpieczeństwa dla sektora badawczego†:
‘[Ostatni] wzrost prac przeglądowych wygenerowanych przez AI, zwłaszcza z użyciem dużych modeli językowych (LLM), przekształcił tę tradycyjnie pracochłonną dziedzinę w proces o niskim wysiłku i dużej objętości. Chociaż taka automatyzacja obniża bariery wejścia, wprowadza również krytyczne zagrożenie: zjawisko, które nazywamy „atakiem prac przeglądowych DDos” na społeczność badawczą.
‘[Chodzi o] niekontrolowaną proliferację prac przeglądowych, które są powierzchownie kompleksowe, ale często redundantne, o niskiej jakości lub nawet halucynowane, które zalewają platformy preprintowe, przytłaczają badaczy i podważają zaufanie do rekordu naukowego.
‘[Uważamy], że musimy przestać wysyłać duże ilości prac przeglądowych wygenerowanych przez AI (tj. atak prac przeglądowych DDos) do społeczności badawczej, wprowadzając silne normy dla AI-pomocnego pisania recenzji.’
Autorzy twierdzą, że ten nieograniczony przyrost produkcji prac przeglądowych zagraża zalać ekosystem badawczy polerowanymi raportami, które nie posiadają krytycznej głębi i które prawdopodobnie będą propagować błędy faktograficzne i/lub halucynacje cytaty.
Artykuł ostrzega, że bez lepszych zasad lub nadzoru, prace przeglądowe wygenerowane przez AI mogą stać się płytkimi kopiami, które zniekształcają, które tematy są ważne, ukrywają istotną analizę i sprawiają, że przeglądy literatury stają się mniej godne zaufania:
‘Konsekwencje dla jakości badań i zaufania są głębokie. Po pierwsze, prawdziwe postępy są narażone na to, że zostaną zaciemnione przez algorytmicznie wygenerowane powtórzenia istniejących prac.
‘Nowicjusze i badacze interdyscyplinarni mogą mieć trudności ze znalezieniem wiarygodnych przeglądów wśród szumu. Co więcej, błędy lub uprzedzenia wprowadzone przez automatyczne pisanie mogą się niekontrolowanie rozmnażać, wprowadzając następne badania z błędnymi założeniami.
‘W sumie, powódź prac przeglądowych wygenerowanych przez AI, które nie zostały poddane recenzji, zagraża zarówno rygorowi przeglądów literatury, jak i wiarygodności rekordu naukowego.’
‘Niezwykli’ autorzy
Badacze nowej pracy zaprezentowali kilka interesujących analiz dotyczących ewolucji prac przeglądowych:

Lewy: roczna liczba prac przeglądowych z dziedziny informatyki z 2020 do 2024. Środkowy: średnie wyniki generowania AI dla tych prac w tym samym okresie. Prawy: liczba autorów oznaczonych jako niezwykli (ci, którzy mają niezwykle wysoką produkcję prac przeglądowych, ograniczoną różnorodność współautorów i powtarzające się wzorce instytucjonalne) każdego roku. Wszystkie trzy trendy pokazują gwałtowny wzrost od 2023 roku, zbiegający się z wydaniem ChatGPT i innych dużych modeli językowych.
W pierwszej kolumnie widzimy trendy wzrostu: krzywa zaczyna się stroma około 2022 roku, kiedy ChatGPT pojawił się i duże modele językowe zaczęły stawać się popularne, a modele takie jak Claude, PaLM i Gemini utrzymały ten impet na przestrzeni 2023 roku.
Środkowy wykres pokazuje gwałtowny wzrost zgłoszeń po 2022 roku, zbiegający się z wydaniem ChatGPT. Jedna grupa badawcza stwierdziła, że do 2024 roku ponad 10% abstraktów naukowych zostało przetworzonych przez LLM. Oddzielne sprawozdanie z firmy zajmującej się wykrywaniem AI podało, że skok po ChatGPT wyniósł 72% dla prac na arXiv, które mogły zostać napisane z pomocą AI. Liczba prac z wysokimi wynikami generowania AI również podwoiła się w ciągu roku, z 3,6% do 6,2%.
Trzeci, prawy wykres pokazuje stały wzrost liczby „niezwykłych” wzorców autorów (badaczy składających trzy lub więcej prac przeglądowych w ciągu miesiąca, pracujących z mniej niż dwoma współpracownikami), z gwałtownym wzrostem od 2022 roku.
Autorzy twierdzą, że wiele z tych prac przeglądowych mogło zostać napisanych przez AI, z różnych powodów; niektóre zostały napisane przez autorów indywidualnych lub małe grupy, które składają wiele prac przeglądowych w krótkim czasie; wiele dotyczy niespokrewnionych tematów; a w niektórych przypadkach autorzy nie mają wcześniejszego doświadczenia w dziedzinach, które podsumowują.
Ponadto, niektóre są publikowane pod anonimowymi kolektywami bez wyraźnych powiązań instytucjonalnych – wzorce sugerujące skoordynowane zalewanie dziedziny szybkimi pracami przeglądowymi, być może w celu uzyskania cytowań lub poprawy profili akademickich, a nie w celu wniesienia jakiegokolwiek realnego wkładu w literaturę.
Problemy
Chociaż nie możemy objąć wszystkich kontrowersji nowej pracy, powinniśmy przyjrzeć się niektórym z najbardziej godnych uwagi spostrzeżeń, a także rzucić krytyczne spojrzenie na proponowane przez autorów rozwiązania tych problemów.
Jakość i oryginalność
Problemem nie jest tylko objętość: wiele prac przeglądowych napisanych przez AI pomija to, co sprawia, że dobra praca przeglądowa jest przydatna: klarowną strukturę, głęboką analizę, poprawną i staranną weryfikację oraz prawdziwą wgląd. Zamiast tego praca sugeruje, że prace przeglądowe wygenerowane przez AI często czytają się jak zszywane podsumowania, bez wymaganego starania czy kuracji.
Autorzy zauważają, że prace przeglądowe napisane przez AI często brakuje struktury, ale po prostu wymieniają prace bez jasnego kierunku, pomijając kluczowe sekcje i nie tworząc kontekstu. Prace przeglądowe napisane przez ludzi mają tendencję do tworzenia właściwych kategorii i opowiadania bardziej spójnej historii.
Ponadto wiele potencjalnie wspomaganych przez AI prac przeglądowych wydaje się po prostu kopiować istniejące podziały tematów, czasem prosto z Wikipedii. Na przykład, praca zauważa, że wiele prac przeglądowych na temat Transformatorów wizji zawiera wspólne tytuły sekcji i strukturę, co wskazuje na wyjście AI z szablonu:
‘W przeciwieństwie do tego, dobrze napisana praca przeglądowa autorstwa człowieka mogłaby wprowadzić nową taksonomię, np. kategoryzując ViT według strategii efektywności. Brak takiej oryginalnej struktury w wielu ostatnich pracach przeglądowych wskazuje na to, że mogły one zostać wygenerowane przez AI z ograniczonym wglądem ludzkim.’
Nie cytuj mnie na to
Być może najbardziej publicznie zawstydzające, prace przeglądowe napisane przez AI często mylą cytaty, pomijając kluczowe prace, w tym nieistotne prace, a czasem nawet wymieniając niewystępujące prace – błędy, które sugerują, że cytaty pochodzą z powierzchownego dopasowania wzorców, a nie z prawdziwej ekspertyzy.
Autorzy zauważają również, że niektóre ostatnie prace przeglądowe, często z całkowicie różnych zespołów, mają do 70% wspólnej listy cytowań – poziom nakładania się tak wysoki, że autorzy twierdzą, że wskazuje on na wspólną zależność od LLM, które czerpią z tego samego wąskiego zakresu materiałów źródłowych.
W istocie, użytkownicy ChatGPT wiedzą, że im bardziej zagadkowy temat, tym mniej różnorodnych źródeł jest dostępnych dla modelu do uogólnienia; bardzo często znalezienie własnych ograniczonych źródeł modelu w sieci jest bardziej przydatne niż interakcja z tą informacją za pośrednictwem AI, które nie miało wystarczających danych w danej dziedzinie.
‘Jednorodny styl’ pojawia się
Autorzy zauważają również, że wiele prac przeglądowych napisanych przez AI na ten sam temat wygląda i brzmi prawie identycznie, ponieważ LLM powtarza sformułowania i strukturę, zwłaszcza w przypadku popularnych tematów, w wyniku czego powstaje lawina prawie identycznych prac, które dodają niewiele wartości i wprowadzają znaczony szum do badaczy poszukujących odpowiedzi w dziedzinie*:
‘Gdy wielu autorów prosi LLM o „napisanie przeglądu literatury na temat X”, model często produkuje bardzo podobne odpowiedzi, zwłaszcza w przypadku powszechnych definicji lub dobrze znanych faktów. Ostatnie badania wykazały gwałtowny wzrost stosowania pewnych wzorców pisarskich związanych z LLM, co sugeruje, że wiele prac dzieli ten sam styl.’
Twój ChatGPT jest widoczny
Praca zauważa, że szybki sposób, aby zauważyć prace przeglądowe napisane przez AI, to obecność fraz takich jak ‘ jako model językowy AI‘ lub ‘moja data graniczna wiedzy‘, co sugeruje minimalną lub nawet zerową kurację danych wyjściowych modelu językowego przed złożeniem pracy (chociaż celowy wyszukiwarka w momencie pisania nie ujawniła takich wskazówek zindeksowanych w Google Search).
Praca zauważa, że wiele „podejrzanych” prac przeglądowych wykazuje niższą różnorodność słów i powtarzające się sformułowania, na przykład, zaczynając wiele akapitów od Dalej. Taki wzorzec, autorzy sugerują, jest typowy dla pisarstwa w stylu GPT, i mógłby być przydatnym wskaźnikiem do wykrywania automatycznie generowanego tekstu.
(Moja osobista uwaga na ten temat jest taka, że surowce online journalismu często wymagają, aby pisarz wymieniał wiele elementów w formie prozy, niestylizowanej. Dlatego ChatGPT i jego rówieśnicy prawdopodobnie nauczyli się tej złej nawyki od pisarzy, którzy mieli ograniczoną liczbę leksykalnych alternatyw. Ponadto, konjektura autorów pokazuje, że próbują oni zajmować się zasadami wykrywania treści AI, co jest skomplikowaną i rozwijającą się dziedziną, z niewieloma trwałymi stałymi, jakie autorzy sugerują)
Chociaż badacze kontynuują fascynującą dyskusję na temat negatywnego wpływu prac przeglądowych AI na kulturę badawczą i zaufanie, musimy odesłać czytelnika do oryginalnej pracy w celu uzyskania większej głębi na ten temat.
Rozwiązania?
Rozwiązanie proponowane w pracy jest fascynujące, radykalne i jednocześnie niesamowicie nieoryginalne: użyteczność prac przeglądowych powinna zostać zastąpiona przez Dynamiczny Przegląd na Żywo – rodzaj hybrydy między Wiki a stroną GitHub, ciągle zasilaną nowymi danymi z LLM i innych systemów AI, ale z commity wykonywanymi tylko przez ludzi, tak aby AI nie mogło „autopublikować” aktualizacji.
System proponowany miałby dzielić wersjonowanie i gałęzie GitHub, podstawiając podstawianie informacyjnego zasobu w ciągle aktualizowaną listę podobną do „niesamowitej” linii w GitHub:
‘W ramach tego frameworku członek społeczności najpierw ustanawia wiki przeglądu, określając zakres, kluczowe pytania badawcze i podstawowe cytaty, które w ten sposób ustanawiają wyraźną granicę tematyczną i początkową strukturę.
‘Następnie agent LLM-based ciągle monitoruje preprintowe archiwa, procedury konferencyjne i tablice liderów. Automatycznie wyodrębnia abstrakty, rysunki i kluczowe wskaźniki wydajności; syntetyzuje zwięzłe podsumowania nowych wyników; aktualizuje graf cytatów, aby odzwierciedlić relacje między pracami; i wskazuje nowe trendy badawcze do dalszej recenzji.
‘Z założenia te automatyczne aktualizacje występują w ciągu godzin od publikacji, zapewniając, że repozytorium pozostaje na bieżąco.’
‘Ludzcy współpracownicy następnie wnoszą głębię interpretacyjną, której maszyny same nie mogą dostarczyć. Udoskonalają ewoluujące taksonomie, aby uchwycić subtelne różnice metodologiczne, koordynują sprzeczne interpretacje innowacji algorytmicznych w różnych subdziedzinach i zapewniają głębsze porównania dokumentu.’
Księga zmian
Autorzy wyjaśniają entuzjastycznie i obszernie tę propozycję i uzasadniają ją czymś, co jest bardzo prawdziwe: prace przeglądowe napisane przez ludzi na tematy związane z AI szybko starzeją się; a praca zauważa, że trzymiesięczny okres oczekiwania na nową pracę przeglądową oznacza, że będzie ona przestarzała (lub nawet znacznie przestarzała) w momencie jej planowanej daty publikacji:
‘Rok po roku społeczności są zalewane powtarzalnymi lub powierzchownymi przeglądami, które szybko tracą znaczenie, pozostawiając praktyków i nowicjuszy, aby odróżnić sygnał od szumu. Tradycyjny cykl publikacji (tj. projekt, złożenie, recenzja i publikacja) może trwać kilka miesięcy, do tego czasu krytyczne przełomy mogą już zmienić krajobraz.
‘Ponadto, rosnąca objętość statycznych prac przeglądowych dodaje do przeciążenia poznawczego, ponieważ czytelnicy muszą przeszukiwać wiele nakładających się dokumentów, aby znaleźć istotne spostrzeżenia.’
Niestety, rozwiązanie proponowane w pracy dzieli wiele z najgorszych i najbardziej krytykowanych cech Discord: najbardziej wszystko, że byłby to ciągle zmieniający się i zmieniający się zasób.
Ponieważ każda część Dynamicznego Przeglądu na Żywo mogłaby zniknąć lub zostać zmieniona w dowolnym momencie, byłby to niemożliwy do użycia jako cytowalne, stabilne źródło; chyba, że poprzez linkowanie do „poprzedniego commita”, w podobny sposób, jak archive.is i Wayback Machine, wśród innych stron archiwizujących, zapewniają linkowalne migawki zawartości strony internetowej, zamrożone w określonym czasie. Ale jakie zasoby potrzebowałby taki commit, i czy mógłby on być ufał, aby pozostać aktywny przez czas?
Ponadto, platforma/Wiki z ciągle zmieniającymi się definicjami i zawartością byłaby wyzwaniem do indeksowania, zarówno przez tradycyjne wyszukiwarki, jak i LLM.
Być może najbardziej słabą częścią proponowanego systemu jest pomysł, że prawdziwi ludzie powinni nadzorować commity od agentów LLM; jak zawsze, prawdziwi ludzie są drodzy. To, co jest proponowane, to coś pomiędzy muzeum a biblioteką – obie będą potrzebować mięsnej obsługi proporcjonalnej do ilości danych i liczby tematów objętych.
Jeśli „użyj prawdziwych ludzi” jest jedyną odpowiedzią na problem rozwoju AI, to można powiedzieć, że problem pozostaje otwarty i nierozwiązany.
Wnioski
W tym momencie krótki okres przydatności prac przeglądowych na temat AI jest irytujący; jeśli obecny trend w kierunku wysokoskalowego pisania automatycznego i składania będzie się utrzymywał, jak to przewiduje nowa praca, stosunek sygnału do szumu stanie się chroniczny, a literatura stanie się niekontrolowalna.
W takiej sytuacji byłoby jeszcze trudniej niż teraz, aby głosy mniejszości, nie-FAANG, zostały usłyszane w burzy składanych prac, a liderzy rynku prawdopodobnie zyskaliby jeszcze większą dominację.
Ponadto, nowa praca proponuje, że autorzy nie tylko powinni być ograniczeni do deklarowania, kiedy AI jest używana w jakiejkolwiek części składanego materiału, ale także, że sekcje wspomagane przez AI powinny być wyraźnie oznaczone w ramach pracy (może z plikiem JSON…?).
Ponieważ jest to perspektywa pełna problemów, praca alternatywnie sugeruje, co mogę tylko określić jako „getto AI” – odrębną sekcję w składanym materiale, przeznaczoną dla wkładów AI.
W skrócie, nowa praca nie ma realistycznych odpowiedzi do zaoferowania; ale autorzy wykonali użyteczną pracę, ramy wyzwań, które nadchodzą.
Praca Przestań atakować społeczność badawczą pracami przeglądowymi wygenerowanymi przez AI można znaleźć pod adresem https://arxiv.org/abs/2510.09686, i jest napisana przez sześciu autorów z różnych wydziałów na Uniwersytecie w Szanghaju.
___________________________________
* Nie wszyscy uważają, że tak jest.
† Nacisk autorów, nie mój. Również, gdzie stosowane, moja konwersja cytowań wstawionych przez autorów w linki.
Pierwotnie opublikowane w piątek, 17 października 2025












