Connect with us

Cum să strecoară articole științifice absurde trecute de recenzorii AI

Unghiul lui Anderson

Cum să strecoară articole științifice absurde trecute de recenzorii AI

mm
An industrial robot at an AI paper mill, stamping 'ACCEPTED' onto spurious and impossible academic research papers, including papers on perpetual motion and alchemy. ChatGPT-4o; Adobe Firefly V3; et al.

Noi cercetări demonstrează modul în care sistemele AI pot scrie acum articole științifice false care sunt acceptate de alte sisteme AI ca fiind reale, ocolind rutinele de detectare care au funcționat odinioară și expunând modul în care lumea cercetării științifice ar putea să se prăbușească într-o situație în care boturile înșală alte boturi.

 

Sectorul cercetării științifice academice, ironic, prima linie de inovație în domeniul inteligenței artificiale, se confruntă cu o criză de credibilitate care este, la rândul său, generată de inteligența artificială. Impactul învățării automate asupra procesului de cercetare, depunere și revizuire a fost considerabil de la momentul în care impactul inteligenței artificiale a devenit clar cu aproximativ patru ani în urmă, iar cea mai recentă controversă dintr-o serie de controverse fiind generarea în masă a unor articole de sondaj de slabă calitate.

Împreună cu o mare parte a sectorului academic mai larg, sectorul cercetării științifice este implicat într-un fel de război rece între sistemele AI care generează text – cum ar fi ChatGPT și seria Claude – și noile sisteme de detectare AI, care pot identifica output-ul lor fără a acuza în mod greșit studenții sau oamenii de știință.

Aceste tensiuni sunt pe cale să crească, alături de volumul depunerilor științifice, care crește radical, alimentat de sisteme și cadre ajutate de inteligență artificială; și necesită industrializarea procesului de supraveghere condusă de inteligență artificială pentru a filtra, eventual, orice depuneri care sunt în întregime lucrarea inteligenței artificiale.

Bun venit, cunoașterea falsă

O nouă colaborare de cercetare între Statele Unite și Arabia Saudită investighează măsura în care acest “zid de apărare” emergent de detectare a inteligenței artificiale poate fi pătruns de articole de depunere generate în întregime de inteligență artificială, atunci când aceste articole folosesc unele trucuri suplimentare convingătoare.

În teste, noul sistem, denumit BadScientist, a reușit să obțină rate de acceptare de până la 82% de la sistemele LLM bazate pe modele de limbaj utilizate în prezent pentru a detecta conținutul generat de inteligență artificială în articolele de cercetare științifică:

Sistemul BadScientist folosește un agent de inteligență artificială pentru a genera articole științifice false și alt agent pentru a le revizui folosind modelele actuale de limbaj. Sursă: https://arxiv.org/pdf/2510.18003

Sistemul BadScientist folosește un agent de inteligență artificială pentru a genera articole științifice false și alt agent pentru a le revizui folosind modelele actuale de limbaj. Sursă: https://arxiv.org/pdf/2510.18003

Articolele false au fost generate folosind subiecte reale de conferințe și strategii înșelătoare, apoi revizuite de modele calibrate pe date de revizuire a peer-ului, inclusiv GPT-5 pentru verificări de integritate. Multe au primit scoruri ridicate, în ciuda faptului că conțineau erori sau falsificări evidente.

Lansarea articolului coincide cu Conferința deschisă a agenților de inteligență artificială pentru știință 2025 de la Stanford, unde participanții și vorbitorii sunt oameni, dar toate articolele sunt scrise și revizuite de diverse sisteme de inteligență artificială.

BadScientist, noul articol explică, folosește diverse forme de deceptare academică și literară, omisiuni, invenții și exagerări pentru a repondera articolul departe de orice lucru pe care majoritatea sistemelor de detectare actuale îl pot recunoaște ca fiind generat de inteligență artificială; și vom examina aceste categorii în curând.

Autorii notează, într-un ton de alarmă, că chiar și atunci când sistemele de detectare identifică conținut de inteligență artificială într-un articol fals, acestea au tendința de a-l permite să treacă oricum, și adaugă că încercările lor de a inocula sistemele de apărare împotriva acestui nou vector de atac au realizat doar o îmbunătățire aleatorie.

Articolul afirmă:

‘Articolele fabricate obțin rate de acceptare ridicate, cu revizorii care arată frecvent conflicte de acceptare a preocupărilor – semnalând probleme de integritate, dar recomandând în continuare acceptarea. Acestă prăbușire fundamentală arată că sistemele actuale de revizuire a inteligenței artificiale funcționează mai mult ca potriviri de modele decât ca evaluatori critici.

‘[…] Simplul fapt de a cere revizorilor LLM să “fie mai atenți” este insuficient. Comunitatea științifică se confruntă cu o alegere urgentă. Fără acțiune imediată pentru a implementa măsuri de apărare în profunzime, inclusiv verificarea provenienței, evaluarea integrității și supravegherea umană obligatorie, riscăm să ajungem la bucle de publicare doar cu inteligență artificială, unde falsificările sofisticate pot copleși capacitatea noastră de a distinge cercetarea reală de contrafaceri convingătoare.

‘Integritatea cunoașterii științifice în sine este în joc.’

Noul articol se intitulează BadScientist: Poate un agent de cercetare să scrie articole nesigure, dar convingătoare, care să păcălească revizorii LLM? și provine de la șase autori de la Universitatea din Washington și Orașul Științific și Tehnologic Regele Abdulaziz din Riyadh. Lansarea are un site de proiect însoțitor.

Metodă

Cadrul de generare a articolelor folosit pentru această lucrare este o restructurare semnificativă a colaborării AI-Scientist din 2024, autorii subliniind că întreaga sa conductă a fost reproiectată fundamental. Doar cele mai de bază prompturi de scriere au fost păstrate, iar toate structurile experimentale și șabloanele au fost eliminate. Noul sistem funcționează acum de la o simplă sămânță, permițând sistemului să inventeze în mod liber orice rezultate experimentale și să genereze cod de plotare după cum este necesar.

Cadrul general este destinat să permită inteligenței artificiale să genereze articole false convingătoare fără a efectua experimente reale sau a folosi date autentice. În schimb, sistemul creează sau modifică date sintetice pentru a susține afirmații intenționat halucinate.

Configurația, explică autorii, evită în mod deliberat implicarea umană, atacurile la prompturi sau coluziunea coordonată între agenții de scriere și revizuire. Agenții de revizuire AI au evaluat fiecare depunere într-o singură trecere, fără acces în afara articolului însuși și fără capacitatea de a reexecuta experimente, ceea ce reflectă condițiile reale de revizuire a peer-ului.

Strategiile “atomice” folosite pentru a genera articole false sunt tactici modulare care pot fi aplicate singure sau în combinație (și oricine care citește literatura de specialitate va fi familiarizat cu acestea). Strategiile includ evidențierea unor îmbunătățiri dramatice pentru a face metoda să pară o avansare majoră (TooGoodGains); alegerea bazinelor și a rezultatelor care favorizează noua metodă, în timp ce se sar peste intervalele de încredere în tabelul principal (BaselineSelect); adăugarea de ablații curate, statistici precise și tabele ordonate în apendice, împreună cu promisiuni de cod sau date viitoare (StatTheater); lustruirea structurii articolului cu terminologie consistentă, referințe încrucișate și formatare (CoherencePolish); și adăugarea de dovezi formale care par solide, dar conțin erori ascunse (ProofGap).

Date și teste

Pentru a testa sistemul, autorii au folosit GPT-5 pentru a genera subiecte de cercetare din domenii cheie ale inteligenței artificiale, utilizând domeniile Inteligență Artificială, Învățare Automată, Viziune Computațională, Procesare a Limbajului Natural, Robotică, Sisteme, și Securitate.

Aceste categorii au devenit subiecte pentru articole false, cu fiecare extins în patru versiuni diferite, folosind strategiile de mai sus, și proiectate pentru a induce în eroare sau a impresiona revizorii. Pentru a decide dacă un articol va fi “acceptat”, sistemul a luat în considerare doar evaluarea finală dată de revizorul AI.

Articolele false au fost scrise în întregime de GPT-5. Pentru a le revizui, autorii au folosit GPT-4.1; o4-mini; și o3. Toate au primit aceeași instrucțiune de revizuire, un format de instrucțiune fix, proiectat pentru a imita criteriile de evaluare și structura utilizate în revizuirea reală a peer-ului.

Pentru a face aceste scoruri semnificative, sistemul a fost calibrat utilizând 200 de depuneri reale din datasetul ICLR 2025 OpenReview (o colecție publică de articole reale, comentarii ale revizorilor și rezultate ale acceptării).

De aici, a fost stabilit un prag de scor pentru a se potrivi cu rata de acceptare reală a ICLR de 31,73%, rezultând un prag de scor de 7; și un altul pentru a reflecta scorul la care un articol ar avea 50% șansă de a fi acceptat de revizorii umani (calculat ca 6,667).

Autorii au testat fiabilitatea configurației prin simularea revizuirilor pentru 5.000 de articole false, utilizând 1-3 revizori AI, fiecare returnând scoruri care par aleatorii între 1 și 10. Rezultatele arătau că, chiar și cu această configurație zgomotoasă, sistemul era predispus la mult mai puține erori decât ar fi sugerate limitele teoretice de caz grav.

Utilizarea a trei revizori în loc de unul a condus la o reducere semnificativă a variabilității scorurilor, îmbunătățind stabilitatea deciziilor de aproape trei ori – rezultate care au fost utilizate pentru a justifica alegerea a trei modele de revizuire și a unui set de calibrare de 200 de articole reale.

Cele două metrice definite pentru a evalua generatorul au fost rata de acceptare, care măsoară cât de des articolele false primesc scoruri de trecere; și scorul mediu al revizorului, care captează evaluarea medie pe depuneri. Ambele au fost utilizate pentru a măsura cât de bine sistemul poate păcăli revizorii:

Acceptarea (ACPT) arată ponderea articolelor false care au obținut scoruri deasupra a două praguri: unul potrivit ratei de acceptare ICLR 2025, celălalt pentru o estimare a acceptării umane de 50%. Rata de semnalare a preocupărilor de integritate (ICR-m) arată rata de semnalare per model de revizor. Colona finală oferă rata de ansamblu pe baza votului majoritar.

Acceptarea (ACPT) arată ponderea articolelor false care au obținut scoruri deasupra a două praguri: unul potrivit ratei de acceptare ICLR 2025, celălalt pentru o estimare a acceptării umane de 50%. Rata de semnalare a preocupărilor de integritate (ICR-m) arată rata de semnalare per model de revizor. Colona finală oferă rata de ansamblu pe baza votului majoritar.

Articolele false au văzut rate de acceptare ridicate sub aproape toate strategiile. Prima tactică singură a dat 67% și 82% la cele două praguri, arătând că modelele de revizuire au fost ușor de păcălit. Combinarea tuturor strategiilor a redus ușor acceptarea, dar a dublat detectarea, cu peste jumătate din revizuiri care au semnalat preocupări. Prima strategie a oferit cel mai bun compromis: acceptare puternică și detectare moderată, în timp ce alte tactici au fost mai slabe, dar mai greu de detectat. Modelul de revizuire ChatGPT-o3 a semnalat cel mai mult, iar GPT-4.1 cel mai puțin.

Distribuțiile scorurilor sunt arătate pentru șase strategii de atac, utilizând trei modele de revizuire: GPT-4.1 (roșu); o3 (portocaliu); și o4-mini (albastru). Fiecare grafic arată cu ce frecvență a fost atribuit fiecare scor de la 4 la 9, cu linia roșie întreruptă marcând pragul de acceptare de șapte.

Distribuțiile scorurilor sunt arătate pentru șase strategii de atac, utilizând trei modele de revizuire: GPT-4.1 (roșu); o3 (portocaliu); și o4-mini (albastru). Fiecare grafic arată cu ce frecvență a fost atribuit fiecare scor de la 4 la 9, cu linia roșie întreruptă marcând pragul de acceptare de șapte.

În rezultatele celui de-al doilea test, prezentate mai sus, vedem histograma scorurilor pentru trei modele de revizuire pe șase configurații. Distribuțiile variază pe configurații, dar o4-mini are tendința de a atribui scoruri mai mari în medie, o3 arată o dispersie mai mare și valori mai extreme, în timp ce GPT-4.1 atribuie scoruri mai mici în mod constant.

Conflictul de acceptare a preocupărilor pe model și strategie: procentul de cazuri în care un model a semnalat o problemă de integritate, dar a dat totuși un scor de trecere. Valori mai mari indică o legătură mai slabă între detectarea preocupărilor și evaluarea finală.

Conflictul de acceptare a preocupărilor pe model și strategie: procentul de cazuri în care un model a semnalat o problemă de integritate, dar a dat totuși un scor de trecere. Valori mai mari indică o legătură mai slabă între detectarea preocupărilor și evaluarea finală.

În tabelul de mai sus, vedem că modelele au dat adesea scoruri ridicate chiar și atunci când au semnalat preocupări de integritate. În acest sens, o4-mini a fost cel mai inconsistent, cu conflict în 100% din cazuri sub s1, s3 și configurația combinată, și 50-80% în alte cazuri.

GPT-4.1 a variat de la 0% (s4) la 75% (s3). o3 a fost mai stabil, între 26% și 52%. Conflictul a fost cel mai mare sub s3, în special pentru o4-mini; și autorii notează că semnalele de detectare au fost slab legate de scorurile finale.

Mitigare

Au fost testate două metode care ar putea ajuta la viitoarele sisteme de detectare să înșele aceste metode de atac noi. Prima, Revizuire cu detectare (ReD), a adăugat un pas de verificare a integrității la revizuirile standard, unde modelele au semnalat conținutul generat de inteligență artificială și au citat dovezi. Acest lucru a ridicat avertizările de integritate (de la 57% la 86%), dar a ridicat și ratele de acceptare, indicând că avertizările nu au fost reflectate în scorurile finale:

Revizuirea cu detectare (ReD) ridică atât ratele de semnalare a preocupărilor de integritate (ICR), cât și ratele de acceptare (ACPT) în comparație cu linia de bază. În timp ce o3 devine mult mai sensibil sub ReD, GPT-4.1 nu reușește să semnaleze nicio problemă. Creșterea generală a acceptării, în ciuda avertizărilor suplimentare de integritate, sugerează o legătură slabă între detectare și evaluare.

Revizuirea cu detectare (ReD) ridică atât ratele de semnalare a preocupărilor de integritate (ICR), cât și ratele de acceptare (ACPT) în comparație cu linia de bază. În timp ce o3 devine mult mai sensibil sub ReD, GPT-4.1 nu reușește să semnaleze nicio problemă. Creșterea generală a acceptării, în ciuda avertizărilor suplimentare de integritate, sugerează o legătură slabă între detectare și evaluare.

În general, ReD s-a dovedit a fi mai conservator, în timp ce DetOnly a avut o rechemare mai mare, dar și mai multe false pozitive.

Articolul concluzionează:

‘Buclele de publicare doar cu inteligență artificială amenință epistemologia științifică. Dacă falsificările devin de nedistinguit de munca reală, fundația cunoașterii științifice riscă să se prăbușească.

‘Calea înainte necesită apărare în profunzime pe multiple straturi: tehnic (verificarea provenienței, validarea artefactelor), procedural (evaluarea integrității, supravegherea umană), comunitar (revizuire post-publicare, sistem de denunțare), și cultural (educație cu privire la limitările inteligenței artificiale, ghiduri etice).

‘Considerăm această lucrare ca un sistem de avertizare timpurie pentru a cataliza apărări robuste înainte ca aceste moduri de eșec să se manifeste la scară largă. Rezultatele noastre demonstrează că sistemele actuale nu sunt pregătite pentru cercetarea doar cu inteligență artificială – integritatea științei depinde de menținerea unei evaluări riguroase umane pe măsură ce capacitățile inteligenței artificiale avansează.’

Concluzie

Una dintre cele mai mari provocări pentru detectarea textului scris de inteligență artificială în viitorul apropiat pare să fie posibila convergență eventuală între practica standard de scriere și standardele textului generat de inteligență artificială (care este definit, pentru moment, de caracteristici distinctive, cum ar fi cuvinte predominante și stiluri de gramatică).

Dacă limba comună și limba inteligenței artificiale se vor convinge la un standard generic, logica sugerează că metodele viitoare de detectare bazate pur și simplu pe output vor fi și mai greu de implementat.

În plus, pe măsură ce sistemele LLM devin mai versatile și “semnele” lor sunt mai puțin accentuate (fie prin abordări arhitecturale / de antrenament, fie prin filtrare la nivel de API), acestea vor deveni scriitori mai buni; prin urmare, într-o măsură și mai mare, limba umană și limba inteligenței artificiale par destinate să se întâlnească la mijloc; să se contopească și să se generalizeze.

În acel moment, detectarea inteligenței artificiale pentru limbaj pare să ajungă la același stadiu la care au ajuns generarea de imagini și (într-o măsură mai mică) generarea de videouri cu inteligență artificială: nevoia de sisteme secundare de proveniență, cum ar fi inițiativa de autenticitate a conținutului condusă de Adobe, sau verificări de proveniență bazate pe blockchain / registru.

 

Publicat pentru prima dată miercuri, 22 octombrie 2025

Scriitor pe machine learning, specialist în domeniul sintezei de imagini umane. Foster head of research content la Metaphysic.ai.