Trí tuệ nhân tạo

Ngôn ngữ được tạo bởi AI đang bắt đầu làm ô nhiễm văn học khoa học

Published July 15, 2021

Updated April 28, 2026

Martin Anderson

Các nhà nghiên cứu từ Pháp và Nga đã công bố một nghiên cứu chỉ ra rằng việc sử dụng các trình tạo văn bản xác suất được điều khiển bởi AI như GPT-3 đang giới thiệu ‘ngôn ngữ bị bóp méo’, trích dẫn các tài liệu không tồn tại và tái sử dụng hình ảnh không được ghi nhận vào các kênh từng được coi trọng để xuất bản văn học khoa học mới.

Có lẽ điều đáng lo ngại nhất là các bài báo được nghiên cứu cũng chứa nội dung không chính xác về mặt khoa học hoặc không thể tái tạo được, được trình bày như kết quả của nghiên cứu khách quan và có hệ thống, cho thấy rằng các mô hình ngôn ngữ tạo sinh đang được sử dụng không chỉ để tăng cường kỹ năng tiếng Anh hạn chế của các tác giả của các bài báo, mà còn để thực hiện công việc khó khăn liên quan (và, không thể tránh khỏi, để làm nó một cách tồi tệ).

Báo cáo report, có tiêu đề Các cụm từ bị bóp méo: Một phong cách viết đáng ngờ xuất hiện trong khoa học, đã được biên soạn bởi các nhà nghiên cứu từ Bộ phận Khoa học Máy tính tại Đại học Toulouse và nhà nghiên cứu Yandex Alexander Magazinov, hiện đang tại Đại học Tel Aviv.

Nghiên cứu tập trung đặc biệt vào sự tăng trưởng của các xuất bản khoa học không có nghĩa tại Tạp chí Elsevier Microprocessors and Microsystems.

Bằng bất kỳ tên nào khác

Các mô hình ngôn ngữ tự hồi như GPT-3 được đào tạo trên các khối lượng dữ liệu lớn, và được thiết kế để paraphrase, tóm tắt, tổng hợp và diễn giải dữ liệu đó thành các mô hình ngôn ngữ tạo sinh có khả năng tái tạo các mẫu nói và viết tự nhiên, trong khi vẫn giữ nguyên ý định ban đầu của dữ liệu đào tạo.

Vì các khuôn khổ như vậy thường bị phạt tại giai đoạn đào tạo mô hình cho việc cung cấp trực tiếp và ‘không được hấp thụ’ regurgitation của dữ liệu gốc, chúng sẽ tìm kiếm các từ đồng nghĩa – ngay cả đối với các cụm từ đã được thiết lập vững chắc.

Các bài báo khoa học rõ ràng được tạo bởi AI / hỗ trợ được các nhà nghiên cứu phát hiện bao gồm một số lượng lớn các nỗ lực thất bại trong việc tạo ra các từ đồng nghĩa sáng tạo cho các cụm từ đã biết trong lĩnh vực học máy:

mạng nơ-ron sâu: ‘tổ chức nơ-ron sâu sắc’
mạng nơ-ron nhân tạo: ‘(giả | nhân tạo) tổ chức nơ-ron’
mạng di động: ‘tổ chức đa năng’
tấn công mạng: ‘(tấn công | tập kích) tổ chức’
kết nối mạng: ‘liên kết tổ chức’
dữ liệu lớn: ‘(lớn | khổng lồ | vô cùng | khổng lồ) thông tin’
kho dữ liệu: ‘thông tin (kho | trung tâm phân phối)’
trí tuệ nhân tạo (AI): ‘(nhân tạo | do con người tạo ra) ý thức’
tính toán hiệu suất cao: ‘tính toán ưu tú’
tính toán sương mù / sương / đám mây: ‘tính toán sương mù’
đơn vị xử lý đồ họa (GPU): ‘đơn vị chuẩn bị thiết kế’
đơn vị xử lý trung tâm (CPU): ‘đơn vị chuẩn bị trung tâm’
động cơ công việc: ‘động cơ quy trình công việc’
nhận dạng khuôn mặt: ‘nhận dạng khuôn mặt’
nhận dạng giọng nói: ‘nhận dạng cuộc trò chuyện’
lỗi bình phương trung bình: ‘lỗi bình phương trung bình (lỗi | sai lầm)’
lỗi tuyệt đối trung bình: ‘lỗi (tuyệt đối | tối cao) (lỗi | sai lầm)’
tín hiệu so với tiếng ồn: ‘(chuyển động | tín hiệu | chỉ số | dấu hiệu | tín hiệu) so với (tiếng ồn | ồn ào | tiếng động)’
tham số toàn cầu: ‘tham số toàn cầu’
truy cập ngẫu nhiên: ‘(ngẫu nhiên | bất thường) truy cập’
rừng ngẫu nhiên: ‘(ngẫu nhiên | bất thường) (rừng | khu rừng | vùng đất màu mỡ)’
giá trị ngẫu nhiên: ‘(ngẫu nhiên | bất thường) giá trị’
thành phố kiến: ‘thành phố côn trùng (bang | tỉnh | khu vực | vùng | khu định cư)’
thành phố kiến: ‘thành phố côn trùng dưới lòng đất (bang | tỉnh | khu vực | vùng | khu định cư)’
năng lượng còn lại: ‘năng lượng còn lại’
năng lượng động: ‘năng lượng động’
Naïve Bayes: ‘(ngây thơ | trong sáng | dễ tin) Bayes’
trợ lý kỹ thuật số cá nhân (PDA): ‘trợ lý máy tính hóa cá nhân’

Vào tháng 5 năm 2021, các nhà nghiên cứu đã truy vấn công cụ tìm kiếm học thuật Dimensions để tìm kiếm loại ngôn ngữ tự động bị bóp méo này, đồng thời loại bỏ các cụm từ hợp lệ như ‘thông tin khổng lồ’ (đây là một cụm từ hợp lệ và không phải là từ đồng nghĩa thất bại cho ‘dữ liệu lớn’). Tại thời điểm này, họ quan sát thấy rằng Microprocessors and Microsystems có số lượng lớn nhất các trường hợp paraphrase bị xử lý sai.

Hiện tại, vẫn có thể truy xuất (archive snapshot, 15/07/2021) một số bài báo khoa học cho cụm từ ‘tổ chức nơ-ron sâu sắc’ (tức là ‘mạng nơ-ron sâu’), và các cụm từ khác trong danh sách trên cho kết quả tương tự.

Kết quả tìm kiếm cho ‘tổ chức nơ-ron sâu sắc’ (‘mạng nơ-ron sâu’) tại Dimensions. Source: https://app.dimensions.ai/

Tạp chí Microprocessors được thành lập vào năm 1976 và được đổi tên thành Microprocessors and Microsystems hai năm sau đó.

Sự tăng trưởng của ngôn ngữ vô nghĩa

Các nhà nghiên cứu đã nghiên cứu một giai đoạn bao gồm từ tháng 2 năm 2018 đến tháng 6 năm 2021 và quan sát thấy sự tăng trưởng mạnh mẽ về số lượng bài báo trong hai năm qua, và đặc biệt là trong 6-8 tháng qua:

Sự tương quan hay nguyên nhân? Sự tăng trưởng về số lượng bài báo trong tạp chí Microprocessors and Microsystems dường như trùng với sự tăng trưởng của ‘ngôn ngữ vô nghĩa’ và từ đồng nghĩa trong các bài báo có vẻ hợp lệ. Source: https://arxiv.org/pdf/2107.06751.pdf

Bộ dữ liệu cuối cùng được thu thập bởi các cộng tác viên chứa 1.078 bài báo đầy đủ được thu thập thông qua đăng ký Elsevier của Đại học Toulouse.

Giám sát biên tập giảm cho các bài báo khoa học của Trung Quốc

Bài báo quan sát thấy rằng thời gian được phân bổ cho việc đánh giá biên tập của các bài báo được gắn cờ trở nên ngắn hơn đáng kể vào năm 2021, giảm xuống dưới 40 ngày; một sự giảm sáu lần trong thời gian tiêu chuẩn cho việc đánh giá đồng nghiệp, rõ ràng từ tháng 2 năm 2021.

Số lượng lớn nhất các bài báo được gắn cờ đến từ các tác giả có liên kết với Trung Quốc đại lục: trong số 404 bài báo được chấp nhận trong dưới 30 ngày, 97,5% là liên quan đến Trung Quốc. Ngược lại, trong các trường hợp mà quá trình biên tập vượt quá 40 ngày (615 bài báo), các bài báo liên quan đến Trung Quốc chỉ chiếm 9,5% của danh mục này – một sự mất cân bằng mười lần.

Báo cáo cho rằng sự xâm nhập của các bài báo được gắn cờ là do những thiếu sót trong quá trình biên tập, và có thể là do thiếu nguồn lực khi đối mặt với số lượng ngày càng tăng của các bài báo được gửi.

Các nhà nghiên cứu đưa ra giả thuyết rằng các mô hình ngôn ngữ tạo sinh kiểu GPT, và các loại khuôn khổ tạo ngôn ngữ tương tự, đã được sử dụng để tạo ra nhiều văn bản trong các bài báo được gắn cờ; tuy nhiên, cách một mô hình tạo sinh trừu tượng hóa nguồn của nó làm cho điều này khó được chứng minh, và bằng chứng chính nằm trong một đánh giá chung về các từ đồng nghĩa kém và không cần thiết, và một cuộc kiểm tra kỹ lưỡng về tính hợp lý của bài báo.

Các nhà nghiên cứu cũng quan sát thấy rằng các mô hình ngôn ngữ tạo sinh mà họ tin là đang góp phần vào lũ lụt của ngôn ngữ vô nghĩa này có khả năng không chỉ tạo ra các văn bản có vấn đề, mà còn có thể nhận ra và gắn cờ chúng một cách hệ thống, giống như cách các nhà nghiên cứu đã thực hiện thủ công. Công việc chi tiết về việc triển khai như vậy, sử dụng GPT-2, và cung cấp một khuôn khổ cho các hệ thống tương lai để xác định các bài báo khoa học có vấn đề.

Tỷ lệ các bài báo ‘ô nhiễm’ là cao hơn nhiều trong tạp chí Elsevier (72,1%) so với các tạp chí khác được nghiên cứu (13,6% tối đa).

Không chỉ là ngữ nghĩa

Các nhà nghiên cứu nhấn mạnh rằng nhiều tạp chí trong câu hỏi không chỉ sử dụng ngôn ngữ sai, mà còn chứa các tuyên bố không chính xác về mặt khoa học, cho thấy khả năng rằng các mô hình ngôn ngữ tạo sinh không chỉ được sử dụng để cải thiện kỹ năng ngôn ngữ hạn chế của các nhà khoa học đóng góp, mà còn có thể được sử dụng để tạo ra ít nhất một số định lý và dữ liệu cốt lõi trong bài báo.

Trong các trường hợp khác, các nhà nghiên cứu cho rằng có một ‘tái tổng hợp’ hoặc ‘tái tạo’ hiệu quả của công việc trước đó được trừu tượng hóa (và vượt trội), để đáp ứng áp lực ‘xuất bản hoặc bị sa thải’ của văn hóa nghiên cứu học thuật, và có thể để cải thiện xếp hạng quốc gia cho sự vượt trội toàn cầu trong nghiên cứu AI, thông qua khối lượng thuần túy.

Nội dung vô nghĩa trong một bài báo được gửi. Trong trường hợp này, các nhà nghiên cứu đã tìm thấy rằng văn bản đã được dẫn xuất, một cách ad hoc, từ một bài báo EDN, từ nơi hình ảnh đi kèm cũng bị đánh cắp mà không có sự ghi nhận. Việc viết lại nội dung gốc là quá cực đoan đến mức làm cho nó trở nên vô nghĩa.

Phân tích một số bài báo được gửi cho Elsevier, các nhà nghiên cứu đã tìm thấy các câu mà họ không thể suy ra bất kỳ ý nghĩa nào; tham chiếu đến các tài liệu không tồn tại; tham chiếu đến các biến và định lý trong công thức mà không thực sự xuất hiện trong tài liệu hỗ trợ (gợi ý về việc trừu tượng hóa dựa trên ngôn ngữ, hoặc ‘ảo giác’ của dữ liệu thực tế); và tái sử dụng hình ảnh mà không có sự ghi nhận nguồn (mà các nhà nghiên cứu chỉ trích không từ góc độ bản quyền, mà từ góc độ của sự thiếu nghiêm ngặt khoa học).

Thất bại trong trích dẫn

Các trích dẫn được thiết kế để hỗ trợ các lập luận trong một bài báo khoa học đã được tìm thấy trong nhiều ví dụ được gắn cờ để ‘hoặc bị hỏng hoặc dẫn đến các xuất bản không liên quan’.

Ngoài ra, tham chiếu đến ‘công việc liên quan’ dường như thường bao gồm các tác giả mà các nhà nghiên cứu tin rằng đã được ‘ảo giác’ bởi một hệ thống kiểu GPT.

Chú ý lang thang

Một điểm yếu khác của thậm chí các mô hình ngôn ngữ tiên tiến như GPT-3 là xu hướng mất tập trung trong một cuộc thảo luận dài. Các nhà nghiên cứu đã tìm thấy rằng các bài báo được gắn cờ thường đưa ra một chủ đề sớm trong bài báo mà thực sự không bao giờ được quay lại sau khi nó được đề cập trong các ghi chú sơ bộ hoặc ở nơi khác.

Họ cũng suy đoán rằng một số ví dụ tồi tệ nhất xảy ra thông qua nhiều hành trình của văn bản nguồn qua một loạt các công cụ dịch, mỗi công cụ làm cho ý nghĩa bị bóp méo thêm.

Nguyên nhân và lý do

Khi cố gắng xác định điều gì đứng sau hiện tượng này, các tác giả của bài báo đề xuất một số khả năng: rằng nội dung từ các ‘nhà máy giấy’ được sử dụng làm tài liệu nguồn, giới thiệu sự không chính xác ngay từ đầu của quá trình sẽ vô tình tạo ra thêm sự không chính xác; rằng các công cụ quay bài báo như Spinbot được sử dụng để che giấu việc đạo văn; và rằng áp lực quá lớn để xuất bản thường xuyên đang dẫn đến việc các nhà nghiên cứu thiếu nguồn lực sử dụng các hệ thống kiểu GPT-3 để tăng cường hoặc tạo ra hoàn toàn các bài báo khoa học mới.

Các nhà nghiên cứu kết thúc với một lời kêu gọi hành động để có sự giám sát và tiêu chuẩn tốt hơn trong một lĩnh vực xuất bản học thuật mà dường như đang trở thành thức ăn cho chính chủ đề của nó – các hệ thống học máy. Họ cũng khuyên nhủ Elsevier và các nhà xuất bản khác nên giới thiệu các thủ tục sàng lọc và xem xét nghiêm ngặt hơn, và rộng rãi chỉ trích các tiêu chuẩn và thực tiễn hiện tại trong lĩnh vực này, đề xuất rằng ‘Ảo giác với các văn bản tổng hợp đe dọa đến tính toàn vẹn của văn học khoa học.’