Kąt Andersona

Język generowany przez AI zaczyna zanieczyszczać literaturę naukową

Opublikowano 15 lipca 2021

Zaktualizowano 24 maja 2026

Przez

Martin Anderson

Badacze z Francji i Rosji opublikowali studium, które wskazuje, że wykorzystanie AI-napędzonych generatorów tekstu prawdopodobnościowego, takich jak GPT-3, wprowadza “znieprawiony język”, cytaty nieistniejącej literatury i ad hoc, nieuznane ponowne wykorzystanie obrazów do wcześniej szanowanych kanałów publikacji nowej literatury naukowej.

Może najbardziej niepokojące jest to, że studium również zawiera naukowo niedokładne lub niepowtarzalne treści, przedstawione jako owoce obiektywnych i systematycznych badań, wskazując, że modele językowe generatywne są wykorzystywane nie tylko do wspierania ograniczonych umiejętności językowych autorów, ale również do wykonania ciężkiej pracy (i, niezmiennie, do jej źle wykonania).

Raport raport, zatytułowany Tortured phrases: A dubious writing style emerging in science, został skompilowany przez badaczy z Wydziału Informatyki na Uniwersytecie w Tuluzy i Yandex researcher Alexander Magazinov, obecnie na Uniwersytecie w Tel Awiwie.

Studium koncentruje się szczególnie na wzroście nonsensownych publikacji naukowych generowanych przez AI w czasopiśmie Elsevier Microprocessors and Microsystems.

Pod inną nazwą

Autoregresyjne modele językowe, takie jak GPT-3, są szkolone na dużych ilościach danych i są zaprojektowane do parafrazowania, podsumowywania, łączenia i interpretowania tych danych w spójne modele językowe generatywne, które są w stanie odtwarzać naturalne wzorce mówienia i pisania, przy zachowaniu pierwotnego zamysłu danych szkoleniowych.

Od czasu gdy takie ramy są często karane na etapie szkolenia modelu za oferowanie bezpośredniego i “nieprzyswojonego” powtórzenia danych oryginalnych, nieuchronnie szukają synonimów – nawet dla dobrze ugruntowanych fraz.

Wygląda na to, że AI-stworzone/ wspomagane naukowe zgłoszenia odkryte przez badaczy zawierają nadzwyczajną liczbę nieudanych prób tworzenia kreatywnych synonimów dla znanych fraz w sektorze machine learning:

głęboka sieć neuronowa: ‘zagłębiona organizacja neuronowa’
sztuczna sieć neuronowa: ‘(fałszywa | sfałszowana) organizacja neuronowa’
sieć komórkowa: ‘‘wszechstronna organizacja’
atak na sieć: ‘organizacja (zamach | atak)’
połączenie sieciowe: ‘stowarzyszenie organizacji’
duże dane: ‘(ogromne | enorme | kolosalne) informacje’
magazyn danych: ‘informacje (magazyn | centrum dystrybucyjne)’
sztuczna inteligencja (AI): ‘(sfałszowana | ludzka) świadomość’
obliczenia o wysokiej wydajności: ‘elitarna obliczeniowość’
obliczenia w chmurze/mgły: ‘obliczeniowa mgła’
procesor graficzny (GPU): ‘jednostka przygotowująca projekty’
procesor centralny (CPU): ‘centralna jednostka przygotowująca’
silnik przepływu pracy: ‘silnik procesu pracy’
rozpoznawanie twarzy: ‘potwierdzenie twarzy’
rozpoznawanie głosu: ‘potwierdzenie dyskursu’
błąd średniokwadratowy: ‘błąd średniokwadratowy (pomyłka | błąd)’
błąd średni bezwzględny: ‘błąd średni (bezwzględny | najwyższy) (pomyłka | błąd)’
sygnał do szumu: ‘(ruch | flaga | wskaźnik | znak | sygnał) do (zgiełku | hałasu)’
parametry globalne: ‘parametry globalne’
dostęp losowy: ‘(losowy | nieregularny) dostęp do’
las losowy: ‘(losowy | nieregularny) (las | teren leśny | teren zielony)’
wartość losowa: ‘(losowa | nieregularna) wartość’
kolonia mrówek: ‘podziemna insekt (państwo | prowincja | obszar | region | osiedle)’
kolonia mrówek: ‘podziemny insekt (państwo | prowincja | obszar | region | osiedle)’
pozostała energia: ‘pozostała żywotność’
energia kinetyczna: ‘energia ruchu’
naiwny Bayes: ‘(naiwny | niewinny | łatwowierny) Bayes’
osobisty asystent cyfrowy (PDA): ‘indywidualny komputerowy współpracownik’

We maju 2021 roku badacze zapytali silnik wyszukiwania akademickiego Dimensions w poszukiwaniu tego rodzaju znieprawionego, zautomatyzowanego języka, zwracając uwagę, aby wykluczyć prawidłowe frazy, takie jak “ogromne informacje” (które jest prawidłową frazą i nie jest nieudanym synonimem dla “dużych danych”). W tym momencie stwierdzili, że Microprocessors and Microsystems miało największą liczbę wystąpień nieudolnego parafrazowania.

W chwili obecnej nadal można pobrać (zapis archiwalny, 15/07/2021) kilka naukowych prac dla frazy “zagłębiona organizacja neuronowa” (tj. “głęboka sieć neuronowa”), a inne frazy z powyższej listy dają podobne wyniki.

Wyniki wyszukiwania dla ‘zagłębionej organizacji neuronowej’ (‘głębokiej sieci neuronowej’) w Dimensions. Źródło: https://app.dimensions.ai/

Czasopismo Microprocessors zostało założone w 1976 roku i przemianowane na Microprocessors and Microsystems dwa lata później.

Wzrost języka nonsense

Badacze badali okres od lutego 2018 do czerwca 2021 i zaobserwowali gwałtowny wzrost objętości zgłoszeń w ciągu ostatnich dwóch lat, a szczególnie w ciągu ostatnich 6-8 miesięcy;

Korelacja czy przyczynowość? Wzrost zgłoszeń do czasopisma Microprocessors and Microsystems wydaje się pokrywać się z wzrostem ‘nonsensownego’ tekstu i synonimów w pozornie szanowanych zgłoszeniach. Źródło: https://arxiv.org/pdf/2107.06751.pdf

Ostateczny zestaw danych zebranych przez współpracowników zawiera 1 078 pełnych artykułów uzyskanych za pośrednictwem subskrypcji Elsevier na Uniwersytecie w Tuluzy.

Zmniejszająca się kontrola redakcyjna dla chińskich prac naukowych

W pracy stwierdzono, że czas przeznaczony na ocenę redakcyjną wskazanych zgłoszeń znacznie skrócił się w 2021 roku, spadając poniżej 40 dni; sześciokrotny spadek standardowego czasu przeglądu, widoczny od lutego 2021 roku.

Największa liczba oznaczonych prac pochodzi od autorów z afiliacjami do Chin kontynentalnych: spośród 404 prac zaakceptowanych w ciągu mniej niż 30 dni, 97,5% pochodzi z Chin. Odwrotnie, w przypadkach, w których proces redakcyjny przekroczył 40 dni (615 prac), zgłoszenia związane z Chinami stanowiły tylko 9,5% tej kategorii – dziesięciokrotną niesymetryczność.

Raport przypisuje infiltrację oznaczonych prac brakowi w procesie redakcyjnym i możliwemu brakowi zasobów w obliczu rosnącej liczby zgłoszeń.

Badacze hipotezują, że modele językowe generatywne w stylu GPT, i podobne typy ram językowych, zostały wykorzystane do wytworzenia znacznej części tekstu w oznaczonych pracach; jednakże sposób, w jaki model generatywny abstrahuje swoje źródła, utrudnia to udowodnienie, a główne dowody leżą w ocenie zdroworozsądkowej słabych i niepotrzebnych synonimów oraz starannej analizie spójności logicznej zgłoszenia.

Badacze stwierdzają ponadto, że modele językowe generatywne, które, jak się wydaje, przyczyniają się do tego potoku nonsensownych prac, są w stanie nie tylko tworzyć problematyczne teksty, ale również rozpoznawać je i oznaczać systematycznie, w ten sam sposób, w jaki badacze sami wykonali ręcznie. Praca zawiera takie wdrożenie, wykorzystując GPT-2, i oferuje ramy dla przyszłych systemów identyfikujących problematyczne naukowe zgłoszenia.

Występowanie “zanieczyszczonych” zgłoszeń jest znacznie wyższe w czasopiśmie Elsevier (72,1%) w porównaniu z innymi badanymi czasopismami (maksymalnie 13,6%).

Nie tylko semantyka

Badacze podkreślają, że wiele z tych czasopism nie tylko używa niewłaściwego języka, ale zawiera również naukowo niedokładne stwierdzenia, wskazując na możliwość, że modele językowe generatywne nie są wykorzystywane tylko do poprawy ograniczonych umiejętności językowych autorów, ale mogą być również wykorzystywane do sformułowania przynajmniej niektórych podstawowych twierdzeń i danych w pracy.

W innych przypadkach badacze sugerują skuteczną “prze-syntezę” lub “prze-kreowanie” zabstraktyzowanych (i lepszych) wcześniejszych prac, w celu spełnienia presji “publikuj lub zgiń” w kulturach akademickich, i możliwe, aby poprawić rankingi narodowe dla globalnej wyjątkowości w badaniach nad AI, poprzez samą objętość.

Treści nonsensowne w złożonym artykule. W tym przypadku badacze stwierdzili, że tekst został pochodny, ad hoc, z artykułu EDN, skąd również towarzysząca ilustracja została pobrana bez uzasadnienia. Przepisanie oryginalnej treści jest tak ekstremalne, że staje się bezsensowne.

Analizując kilka złożonych artykułów Elsevier, badacze znaleźli zdania, których nie mogli zrozumieć; odniesienia do nieistniejącej literatury; odniesienia do zmiennych i twierdzeń w formułach, które nie pojawiły się w materiałach wspierających (co sugeruje abstrakcję językową lub “halucynację” pozornie faktualnych danych); i ponowne wykorzystanie obrazów bez uznania ich źródeł (co badacze krytykują nie z punktu widzenia prawa autorskiego, ale raczej jako wskaźnik niewystarczającej staranności naukowej).

Awarie cytowań

Cytaty mające na celu wspieranie argumentów w artykule naukowym zostały znalezione w wielu oznaczonych przykładach jako “albo złamane, albo prowadzące do niezwiązanych publikacji”.

Ponadto odniesienia do “związanych prac” często obejmują autorów, których badacze uważają za “zhalucynowanych” przez system w stylu GPT.

Błądząca uwaga

Inną wadą nawet najnowocześniejszych modeli językowych, takich jak GPT-3, jest ich tendencja do tracenia skupienia w długim dyskursie. Badacze stwierdzili, że oznaczone prace często wprowadzają temat na początku artykułu, który nigdy nie jest ponownie podejmowany po jego wprowadzeniu w notatkach wstępnych lub gdzie indziej.

Są oni również przekonani, że niektóre z najgorszych przypadków występują poprzez wielokrotne przechodzenie tekstu źródłowego przez serię silników tłumaczących, z których każdy dalej zniekształca znaczenie.

Źródła i powody

Próbując ustalić, co stoi za tym zjawiskiem, autorzy pracy sugerują kilka możliwości: że treści z “młynów papierowych” są wykorzystywane jako materiał źródłowy, wprowadzając nieścisłości bardzo wcześnie w procesie, który nieuchronnie wytworzy dalsze nieścisłości; że narzędzia do obróbki artykułów, takie jak Spinbot, są wykorzystywane do maskowania plagiatów; i że przytłaczająca presja na publikowanie regularnie prowadzi niedofinansowanych badaczy do wykorzystania systemów w stylu GPT-3 do uzupełnienia lub całkowitego wygenerowania nowych prac naukowych.

Badacze kończą apelem o większą kontrolę i poprawione standardy w dziedzinie publikacji akademickiej, która okazuje się stać się pożywką dla samej tematyki – systemów machine learning. Wzywają również wydawców Elsevier i innych do wprowadzenia bardziej rygorystycznych procedur przeglądu i krytykują obecne standardy i praktyki w tym zakresie, sugerując, że “oszustwo z syntetycznymi tekstami zagraża integralności literatury naukowej”.