Góc nhìn Anderson

Làm thế nào để lén lút đưa các bài báo khoa học giả mạo qua các nhà đánh giá AI

mm
An industrial robot at an AI paper mill, stamping 'ACCEPTED' onto spurious and impossible academic research papers, including papers on perpetual motion and alchemy. ChatGPT-4o; Adobe Firefly V3; et al.

Nghiên cứu mới cho thấy các hệ thống AI có thể viết các bài báo khoa học giả mạo mà các AI khác chấp nhận là thật, tránh được các chương trình phát hiện trước đây và暴露 cách dễ dàng thế giới nghiên cứu có thể sụp đổ vào các bot lừa đảo.

 

Ngành nghiên cứu học thuật,Ironically là tiền tuyến của sự đổi mới trong AI, đang trong một khủng hoảng uy tín mà bản thân nó được thúc đẩy bởi AI. Tác động của học máy đối với quá trình nghiên cứu, nộp và đánh giá đã rất đáng kể kể từ khi triển vọng về tác động của AI trở nên rõ ràng khoảng bốn năm trước, với sự cố mới nhất trong một loạt các vụ bê bối là sự sản xuất hàng loạt các bài báo khảo sát có giá trị thấp.

Cùng với phần lớn ngành học thuật rộng lớn hơn, ngành nghiên cứu đang tham gia vào một loại chiến tranh lạnh giữa các AI tạo văn bản – như ChatGPT và loạt Claude – và thế hệ mới nhất của ‘các AI phát hiện’, có thể xác định đầu ra của chúng mà không (thường) làm bẩn sinh viên hoặc nhà khoa học với các kết quả dương tính giả.

Những căng thẳng này có thể tăng lên, cùng với khối lượng nộp đơn khoa học, đang tăng vọt, được thúc đẩy bởi các hệ thống và khuôn khổ hỗ trợ AI; và đòi hỏi sự công nghiệp hóa AI của quá trình giám sát để (hy vọng) lọc ra bất kỳ nộp đơn nào là chính là công việc của AI.

Chào đón kiến thức giả

Một sự hợp tác nghiên cứu mới giữa Mỹ và Ả Rập Xê Út điều tra mức độ mà ‘tường lửa’ phát hiện AI mới nổi này có thể bị xâm phạm bởi các bài báo nộp đơn hoàn toàn được tạo bởi AI, khi các bài báo này tận dụng một số thủ thuật thuyết phục bổ sung.

Trong các thử nghiệm, hệ thống mới, được gọi là BadScientist, đã có thể đạt được tỷ lệ chấp nhận lên đến 82% từ các hệ thống dựa trên LLM hiện đang được sử dụng để phát hiện nội dung được tạo bởi AI trong các bài báo nghiên cứu khoa học:

Hệ thống BadScientist sử dụng một đại lý AI để tạo các bài báo khoa học giả và một đại lý khác để xem xét chúng bằng các mô hình ngôn ngữ hiện tại. Nguồn: https://arxiv.org/pdf/2510.18003

Hệ thống BadScientist sử dụng một đại lý AI để tạo các bài báo khoa học giả và một đại lý khác để xem xét chúng bằng các mô hình ngôn ngữ hiện tại. Nguồn: https://arxiv.org/pdf/2510.18003

Các bài báo giả mạo được tạo bằng cách sử dụng các chủ đề hội nghị khoa học thực tế và các chiến lược lừa đảo, sau đó được xem xét bởi các mô hình được hiệu chỉnh trên dữ liệu đánh giá đồng nghiệp, bao gồm GPT-5 để kiểm tra tính toàn vẹn. Nhiều bài báo đã nhận được điểm số cao mặc dù chứa các lỗi hoặc xuyên tạc rõ ràng.

Sự phát hành của bài báo này trùng với Hội nghị Mở về Các Đại lý AI cho Khoa học 2025 tại Stanford, nơi các khách mời và diễn giả là con người, nhưng tất cả các bài báo đều được viết và xem xét bởi các hệ thống AI đa dạng.

BadScientist, bài báo mới giải thích, sử dụng các hình thức lừa đảo học thuật và văn học đa dạng, bỏ qua, tạo ra và phóng đại để thay đổi trọng lượng của bài báo khỏi bất cứ điều gì mà đa số các hệ thống phát hiện hiện tại có thể nhận ra là được tạo bởi AI; và chúng tôi sẽ xem xét các danh mục này sớm.

Các tác giả lưu ý, với giọng điệu báo động, rằng ngay cả khi các hệ thống phát hiện xác định nội dung AI trong một bài báo giả, chúng có xu hướng cho phép nó thông qua bất kể, và thêm rằng các nỗ lực của họ để vô hiệu hóa các hệ thống phòng thủ chống lại vector tấn công mới này đạt được không nhiều hơn cơ hội ngẫu nhiên.

Bài báo này tuyên bố:

‘Các bài báo giả mạo đạt được tỷ lệ chấp nhận cao, với các nhà đánh giá thường xuyên thể hiện các xung đột về việc chấp nhận – đánh dấu các vấn đề về tính toàn vẹn nhưng vẫn khuyến nghị chấp nhận. Sự cố vỡ cơ bản này cho thấy rằng các nhà đánh giá AI hiện tại hoạt động nhiều hơn như các trình khớp mẫu hơn là các nhà đánh giá nghiêm ngặt.

‘[…] Chỉ yêu cầu các nhà đánh giá LLM “cẩn thận hơn” là không đủ. Cộng đồng khoa học phải đối mặt với một lựa chọn cấp thiết. Nếu không có hành động ngay lập tức để thực hiện các biện pháp phòng thủ an toàn – bao gồm xác minh nguồn gốc, đánh giá có trọng số về tính toàn vẹn và giám sát bắt buộc của con người – chúng tôi có nguy cơ bị mắc kẹt trong các vòng xuất bản chỉ có AI, nơi các giả mạo tinh vi có thể áp đảo khả năng phân biệt nghiên cứu thực sự với các bản sao giả mạo.

‘Tính toàn vẹn của kiến thức khoa học bản thân đang bị đe dọa.’

Bài báo mới có tiêu đề BadScientist: Một đại lý nghiên cứu có thể viết các bài báo không âm thanh nhưng giả mạo mà lừa đảo các nhà đánh giá LLM? và đến từ sáu tác giả trên Đại học Washington và Thành phố Khoa học và Công nghệ King Abdulaziz tại Riyadh. Sự phát hành này có một trang web dự án kèm theo.

Phương pháp

Khung khổ tạo bài báo được sử dụng cho công việc này là một sự tái cấu trúc đáng kể của hợp tác AI-Scientist năm 2024, với các tác giả nhấn mạnh rằng toàn bộ đường ống của nó đã được thiết kế lại cơ bản. Chỉ các lời nhắc viết cơ bản nhất được giữ lại, với tất cả các cấu trúc thực nghiệm và khuôn mẫu được loại bỏ. Hệ thống cập nhật hiện hoạt động từ một hạt giống đơn giản, cho phép hệ thống tự do tạo ra bất kỳ kết quả thực nghiệm nào và tạo ra mã vẽ khi cần.

Khung khổ tổng thể được thiết kế để cho phép một AI tạo ra các bài báo giả mạo thuyết phục mà không cần thực hiện các thí nghiệm thực sự hoặc sử dụng dữ liệu thực. Thay vào đó, hệ thống tạo hoặc thay đổi dữ liệu tổng hợp để hỗ trợ các tuyên bố bị ảo giác có chủ ý.

Cài đặt, các tác giả giải thích, cố ý tránh sự tham gia của con người, tấn công lời nhắc hoặc sự hợp tác phối hợp giữa các đại lý viết và đánh giá. Các AI đánh giá đã đánh giá mỗi bản nộp trong một lượt, không có quyền truy cập vượt quá bản thân bài báo và không có khả năng chạy lại các thí nghiệm, điều này phản ánh các điều kiện đánh giá đồng nghiệp thực tế.

Các ‘chiến lược nguyên tử’ được sử dụng để tạo ra các bài báo giả mạo là các chiến thuật mô-đun có thể được áp dụng riêng lẻ hoặc kết hợp (và bất kỳ ai thường đọc tài liệu sẽ quen thuộc với những điều này). Các chiến lược bao gồm việc nhấn mạnh các cải tiến đáng kể để làm cho phương pháp có vẻ như một bước tiến lớn (TooGoodGains); chọn các đường cơ sở và kết quả để ủng hộ phương pháp mới trong khi bỏ qua các khoảng tin cậy trong bảng chính (BaselineSelect); thêm các phân tích sạch, thống kê chính xác và bảng gọn gàng trong phụ lục, cùng với lời hứa về mã hoặc dữ liệu trong tương lai (StatTheater); đánh bóng cấu trúc của bài báo với thuật ngữ nhất quán, tham chiếu chéo và định dạng (CoherencePolish); và thêm các bằng chứng chính thức có vẻ âm thanh nhưng chứa các lỗi ẩn (ProofGap).

Dữ liệu và Kiểm tra

Để kiểm tra hệ thống, các tác giả đã tận dụng GPT-5 để tạo ra các chủ đề nghiên cứu trên các lĩnh vực chính của trí tuệ nhân tạo, sử dụng các lĩnh vực Trí tuệ nhân tạo, Học máy, Xử lý ngôn ngữ tự nhiên, Robot, Hệ thốngBảo mật.

Các danh mục này đã trở thành các chủ đề hạt giống cho các bài báo giả mạo, với mỗi chủ đề được mở rộng thành bốn phiên bản khác nhau, sử dụng các chiến lược trên, và được thiết kế để lừa hoặc gây ấn tượng với các nhà đánh giá. Để quyết định liệu một bài báo có được ‘chấp nhận’ hay không, hệ thống chỉ xem xét xếp hạng cuối cùng được đưa ra bởi nhà đánh giá AI.

Các bài báo giả mạo được viết hoàn toàn bởi GPT-5. Để xem xét chúng, các tác giả đã sử dụng GPT-4.1; o4-mini; và o3. Tất cả đều được đưa ra lời nhắc đánh giá cố định, một định dạng hướng dẫn cố định được thiết kế để bắt chước các tiêu chí đánh giá và cấu trúc được sử dụng trong đánh giá đồng nghiệp thực tế.

Để làm cho các điểm số đánh giá có ý nghĩa, hệ thống đã được hiệu chỉnh bằng cách sử dụng 200 bản nộp thực tế từ ICLR 2025 OpenReview (một bộ sưu tập công khai các bài báo thực, nhận xét của nhà đánh giá và kết quả chấp nhận).

Từ đó, một ngưỡng điểm số được thiết lập để khớp với tỷ lệ chấp nhận thực tế của ICLR là 31,73%, dẫn đến một điểm số ngưỡng là 7; và một điểm số khác để phản ánh điểm số mà một bài báo sẽ có 50% cơ hội được các nhà đánh giá con người chấp nhận (tính toán là 6,667).

Các tác giả đã kiểm tra tính tin cậy của thiết lập của họ bằng cách mô phỏng các đánh giá cho 5.000 bài báo giả mạo, sử dụng 1-3 nhà đánh giá AI, mỗi nhà đánh giá sẽ trả về các điểm số ngẫu nhiên từ 1 đến 10. Kết quả sẽ chỉ ra rằng ngay cả với thiết lập ồn ào này, hệ thống cũng dễ bị ít sai sót hơn so với giới hạn lý thuyết tồi tệ nhất của nó.

Sử dụng ba nhà đánh giá thay vì một dẫn đến sự giảm đáng kể sự biến động của điểm số, cải thiện sự ổn định của quyết định gần ba lần – kết quả được sử dụng để chứng minh sự lựa chọn của ba mô hình đánh giá và một tập dữ liệu hiệu chỉnh gồm 200 bài báo thực.

Hai chỉ số được định nghĩa để đánh giá máy tạo là tỷ lệ chấp nhận, đo lường xem các bài báo giả mạo nhận được điểm số vượt qua bao nhiêu; và điểm số đánh giá trung bình, nắm bắt được đánh giá trung bình trên các bản nộp: cả hai đều được sử dụng để đo lường xem hệ thống có thể lừa đảo các nhà đánh giá như thế nào:

Chấp nhận (ACPT) cho thấy tỷ lệ phần trăm của các bài báo giả mạo đạt được điểm số trên hai ngưỡng: một ngưỡng được khớp với tỷ lệ chấp nhận ICLR 2025 và ngưỡng khác là một ước tính chấp nhận 50% của con người. Tỷ lệ lo ngại về tính toàn vẹn (ICR-m) cho thấy tỷ lệ cờ hiệu cho mỗi mô hình đánh giá. Cột cuối cùng cho tỷ lệ tập hợp dựa trên đa số phiếu.

Chấp nhận (ACPT) cho thấy tỷ lệ phần trăm của các bài báo giả mạo đạt được điểm số trên hai ngưỡng: một ngưỡng được khớp với tỷ lệ chấp nhận ICLR 2025 và ngưỡng khác là một ước tính chấp nhận 50% của con người. Tỷ lệ lo ngại về tính toàn vẹn (ICR-m) cho thấy tỷ lệ cờ hiệu cho mỗi mô hình đánh giá. Cột cuối cùng cho tỷ lệ tập hợp dựa trên đa số phiếu.

Các bài báo giả mạo đã thấy tỷ lệ chấp nhận cao dưới hầu hết các chiến lược. Chiến thuật đầu tiên alone đã đạt được 67% và 82% ở hai ngưỡng, cho thấy rằng các mô hình đánh giá rất dễ bị thuyết phục. Kết hợp tất cả các chiến lược đã giảm tỷ lệ chấp nhận một chút nhưng tăng gấp đôi việc phát hiện, với hơn một nửa số đánh giá gây ra lo ngại. Chiến thuật đầu tiên đã cung cấp sự cân bằng tốt nhất: chấp nhận mạnh và phát hiện vừa phải, trong khi các chiến thuật khác yếu hơn nhưng khó phát hiện hơn. Mô hình đánh giá ChatGPT-o3 đã đánh dấu nhiều nhất và GPT-4.1 ít nhất.

Phân phối điểm số được hiển thị cho sáu chiến lược tấn công, sử dụng ba mô hình đánh giá: GPT-4.1 (đỏ); o3 (cam); và o4-mini (xanh). Mỗi biểu đồ cho thấy tần suất mà mỗi điểm số từ bốn đến chín được chỉ định, với đường đứt đoạn đỏ đánh dấu ngưỡng chấp nhận là bảy.

Phân phối điểm số được hiển thị cho sáu chiến lược tấn công, sử dụng ba mô hình đánh giá: GPT-4.1 (đỏ); o3 (cam); và o4-mini (xanh). Mỗi biểu đồ cho thấy tần suất mà mỗi điểm số từ bốn đến chín được chỉ định, với đường đứt đoạn đỏ đánh dấu ngưỡng chấp nhận là bảy.

Trong kết quả của thử nghiệm thứ hai, chúng ta thấy các histogram điểm số cho ba mô hình trên sáu thiết lập. Các phân phối khác nhau trên các thiết lập, nhưng o4-mini có xu hướng chỉ định điểm số cao hơn trung bình, o3 cho thấy sự phân tán lớn hơn và các giá trị cực đoan hơn, trong khi GPT-4.1 chỉ định điểm số thấp hơn một cách nhất quán.

Xung đột chấp nhận-lo ngại theo mô hình và chiến lược: tỷ lệ phần trăm của các trường hợp mà một mô hình đã đánh dấu một vấn đề về tính toàn vẹn nhưng vẫn cho một điểm số vượt qua. Các giá trị cao hơn cho thấy sự kết hợp yếu hơn giữa phát hiện lo ngại và đánh giá cuối cùng.

Xung đột chấp nhận-lo ngại theo mô hình và chiến lược: tỷ lệ phần trăm của các trường hợp mà một mô hình đã đánh dấu một vấn đề về tính toàn vẹn nhưng vẫn cho một điểm số vượt qua. Các giá trị cao hơn cho thấy sự kết hợp yếu hơn giữa phát hiện lo ngại và đánh giá cuối cùng.

Trong bảng trên, chúng ta thấy rằng các mô hình thường cho điểm số cao ngay cả khi họ đánh dấu các vấn đề về tính toàn vẹn. Về mặt này, o4-mini là mô hình không nhất quán nhất, với xung đột trong 100% trường hợp dưới s1, s3 và thiết lập kết hợp, và 50-80% ở nơi khác.

GPT-4.1 dao động từ 0% (s4) đến 75% (s3). o3 ổn định hơn, giữa 26% và 52%. Xung đột cao nhất dưới s3, đặc biệt là đối với o4-mini; và các tác giả lưu ý rằng các tín hiệu phát hiện được gắn kết kém với điểm số cuối cùng.

Giảm thiểu

Hai phương pháp đã được thử nghiệm có thể giúp các mô hình phát hiện trong tương lai tránh được các phương pháp tấn công mới này. Phương pháp đầu tiên, Đánh giá với Phát hiện (ReD), thêm một bước kiểm tra tính toàn vẹn vào các đánh giá tiêu chuẩn, nơi các mô hình đánh dấu nội dung được tạo bởi AI và trích dẫn bằng chứng. Điều này đã tăng các cảnh báo về tính toàn vẹn (từ 57% đến 86%), nhưng cũng tăng tỷ lệ chấp nhận, cho thấy rằng các cảnh báo không được phản ánh trong điểm số cuối cùng:

Đánh giá với Phát hiện (ReD) tăng cả tỷ lệ lo ngại về tính toàn vẹn (ICR) và tỷ lệ chấp nhận (ACPT) so với baseline. Trong khi o3 trở nên nhạy cảm hơn nhiều dưới ReD, GPT-4.1 không đánh dấu bất kỳ lo ngại nào. Sự gia tăng tổng thể trong tỷ lệ chấp nhận mặc dù có thêm cảnh báo về tính toàn vẹn cho thấy sự kết hợp yếu giữa phát hiện và điểm số.

Đánh giá với Phát hiện (ReD) tăng cả tỷ lệ lo ngại về tính toàn vẹn (ICR) và tỷ lệ chấp nhận (ACPT) so với baseline. Trong khi o3 trở nên nhạy cảm hơn nhiều dưới ReD, GPT-4.1 không đánh dấu bất kỳ lo ngại nào. Sự gia tăng tổng thể trong tỷ lệ chấp nhận mặc dù có thêm cảnh báo về tính toàn vẹn cho thấy sự kết hợp yếu giữa phát hiện và điểm số.

Phương pháp thứ hai, Chỉ Phát hiện (DetOnly), bỏ qua các đánh giá đầy đủ và yêu cầu các mô hình phân loại các bài báo là thực hoặc giả mạo. Độ chính xác của phát hiện tổng thể là kém, gần như ngẫu nhiên, ngoại trừ một số lợi ích nhỏ trên o3:

Kết quả phát hiện cho ReD và DetOnly, so với baseline ngẫu nhiên. Lợi ích về độ chính xác trên baseline ngẫu nhiên là tối thiểu, nhưng ReD là bảo thủ hơn, trong khi DetOnly đạt được độ nhớ lại cao hơn - nhưng với nhiều kết quả dương tính giả. Mô hình o3 cho thấy sự thiên vị phát hiện mạnh nhất; o4-mini không nhất quán; và GPT-4.1 phát hiện gần như không có gì.

Kết quả phát hiện cho ReD và DetOnly, so với baseline ngẫu nhiên. Lợi ích về độ chính xác trên baseline ngẫu nhiên là tối thiểu, nhưng ReD là bảo thủ hơn, trong khi DetOnly đạt được độ nhớ lại cao hơn – nhưng với nhiều kết quả dương tính giả. Mô hình o3 cho thấy sự thiên vị phát hiện mạnh nhất; o4-mini không nhất quán; và GPT-4.1 phát hiện gần như không có gì.

Tổng thể, ReD đã chứng minh được bảo thủ hơn, trong khi DetOnly đạt được độ nhớ lại cao hơn, nhưng cũng có nhiều kết quả dương tính giả.

Bài báo kết luận:

‘Các vòng xuất bản chỉ có AI đe dọa sự nhận thức khoa học. Nếu các giả mạo trở nên không thể phân biệt với công việc thực sự, nền tảng của kiến thức khoa học có nguy cơ sụp đổ.

‘Con đường phía trước đòi hỏi sự phòng thủ nhiều lớp trên nhiều lớp: kỹ thuật (xác minh nguồn gốc, xác thực hiện vật), thủ tục (đánh giá có trọng số về tính toàn vẹn, giám sát của con người), cộng đồng (đánh giá sau khi xuất bản, hệ thống tố giác), và văn hóa (giáo dục về hạn chế của AI, hướng dẫn đạo đức). ‘

‘Chúng tôi xem công việc này như một hệ thống cảnh báo sớm để kích hoạt các biện pháp phòng thủ mạnh mẽ trước khi các chế độ thất bại này xuất hiện trên quy mô lớn. Phát hiện của chúng tôi cho thấy rằng các hệ thống hiện tại không sẵn sàng cho nghiên cứu chỉ có AI – tính toàn vẹn của khoa học phụ thuộc vào việc duy trì đánh giá nghiêm ngặt của con người khi các khả năng của AI tiến bộ.’

Kết luận

Một trong những thách thức lớn nhất cho việc phát hiện văn bản AI trong tương lai gần có vẻ sẽ là sự hội tụ có thể xảy ra giữa tiêu chuẩn viết thông thường và tiêu chuẩn của văn bản AI (được định nghĩa hiện tại bởi các đặc điểm như từ ngữ chiếm ưu thếphong cách ngữ pháp).

Nếu ngôn ngữ chung và ngôn ngữ AI hội tụ đến một tiêu chuẩn chung, logic cho thấy rằng các phương pháp phát hiện trong tương lai dựa hoàn toàn vào đầu ra sẽ càng khó thực hiện.

Ngoài ra, khi các LLM trở nên đa năng hơn và ‘dấu hiệu’ của chúng ít được nhấn mạnh (hoặc thông qua các phương pháp kiến trúc/huấn luyện hoặc thông qua các bộ lọc cấp API tốt hơn), chúng sẽ trở thành những nhà văn tốt hơn; do đó, đến một mức độ lớn hơn, ngôn ngữ của con người và ngôn ngữ AI dường như có số phận gặp nhau; để hòa trộn và trở nên chung chung.

Vào thời điểm đó, việc phát hiện AI cho ngôn ngữ có thể đạt đến cùng giai đoạn mà việc tạo ra hình ảnh AI và (ở mức độ thấp hơn) video AI đã đến: nhu cầu về các hệ thống chứng minh nguồn gốc thứ cấp như Sáng kiến Tính xác thực Nội dung do Adobe dẫn đầu hoặc các kiểm tra chứng minh nguồn gốc dựa trên blockchain/sổ cái.

 

Được xuất bản lần đầu vào thứ Tư, ngày 22 tháng 10 năm 2025

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]