Góc nhìn Anderson

Viết tự động bằng AI không bao giờ ‘mệt mỏi’ và do đó nó tiết lộ chính mình

mm
AI-generated image, by Z-Image Turbo (V1) via Krita AI Diffusion. Prompt: 'An American, hot high-school exam room in Texas,, with all the students seated exhausted in the heat, at lines of desks, trying to concentrate on winning their exams. In the center of the picture we focus on an industrial humanoid robot who is filling out the exam papers so quickly that the A$ sheets are flying around its desk in a flurry of activity. Some of the nearby, sweating and exhausted young students are looking at the tireless robot with annoyance and/or jealousy.'

Trí tuệ nhân tạo kiểu ChatGPT tự tiết lộ mình bằng cách tăng tính nhất quán, trong khi viết của con người vẫn còn bất thường trên toàn bộ nội dung.

 

Ứng dụng hạn chế cửa sổ ngữ cảnh của hầu hết các mô hình ngôn ngữ lớn (LLM) hướng đến người tiêu dùng là một trong những yếu tố có thể khiến chúng quên hoặc nhớ lại không chính xác các phần trước của cuộc trò chuyện của người dùng – những lỗi nhớ lại có thể dần dần biến đầu ra thành vô nghĩa – hoặc, tồi tệ hơn, văn bản trông có vẻ mạch lạc nhưng chứa những lỗi tinh vi.

Vì những tình huống này dẫn đến ảo giác, và vì ảo giác vẫn là chướng ngại vật lớn nhất đối với sự tiến bộ thị trường hoàn toàn của AI, rất nhiều nỗ lực nghiên cứu đã được dành để tạo ra các hệ thống AI tạo sinh có thể tạo ra các đoạn văn dài hơn nhưng nhất quán hơn.

Thực tế, tiến bộ đang được thực hiện đến mức việc nhận ra nội dung dài (tức là nội dung được tạo ra hoàn toàn bằng AI, với -假设 – sự chăm sóc sau của con người tối thiểu hoặc không có) được coi là một vấn đề ngày càng tăng.

Phá vỡ một cuộc filibuster của AI

Tuy nhiên, các nghiên cứu thực nghiệm gần đây cho rằng rằng càng nhiều đầu ra mà các máy tạo văn bản AI tạo ra trong một lần, thì càng dễ dàng xác định liệu văn bản đó có được viết bởi con người hay không; nhưng sự khôn ngoan được chấp nhận liên quan đến ‘neo’ này này đã giả định rằng AI có thể được phân biệt vì những gì nó làm khác với con người, nó có cơ hội làm thường xuyên hơn trong các đoạn văn dài.

Không có giả định nào được thực hiện về phân phối của những ‘dấu hiệu’ này trong văn bản chính nó.

Để thách thức điều này và mở rộng vấn đề, một nghiên cứu thú vị gần đây từ Trung Quốc cung cấp một phương pháp mới để phân biệt các nhà tạo nội dung dài mới với các tác giả con người thực sự. Các nhà nghiên cứu đứng sau công việc này cho rằng mỗi token mà văn bản AI được tạo ra có nghĩa là nó trở nên nhất quán hơn với chiều dài lớn hơn, trong khi những đặc điểm riêng của con người không giảm đi khi chiều dài tăng lên.

Theo cách này, các tác giả đề xuất rằng sự hiểu biết của họ cung cấp một số liệu đo lường mới tiềm năng cho các hệ thống phát hiện văn bản AI*:

‘Các token được tạo ra bởi AI trong phần sau của văn bản thể hiện sự biến động xác suất nhỏ hơn và ổn định hơn khi các dự đoán của mô hình trở nên nhất quán hơn khi ngữ cảnh tích lũy.

‘Chúng tôi gọi mẫu này là Sự suy giảm biến động giai đoạn cuối. Hiện tượng này phản ánh hành vi vốn có của tạo sinh tự hồi: khi ngữ cảnh có sẵn nhiều hơn, phân phối dự đoán của mô hình trở nên sắc nét hơn, dẫn đến giảm biến động trong thống kê cấp token.

‘Ngược lại, việc viết của con người tiếp tục giới thiệu các lựa chọn từ vựng không mong muốn và duy trì biến động cao hơn trên toàn bộ văn bản.’

Để nắm bắt được sự ‘mịn màng’ kỳ lạ này tích tụ trong văn bản AI về phía cuối, các nhà nghiên cứu định nghĩa hai tính năng đơn giản: tính năng đầu tiên đo lường mức độ ‘nhảy’ của hành vi thống kê của văn bản giữa các token; tính năng thứ hai kiểm tra sự ổn định của mọi thứ trong các đoạn văn ngắn.

Cả hai đều chỉ được tính từ phần sau của đầu ra, nơi AI trở nên đều đặn hơn và văn bản của con người không.

Các tín hiệu này hoạt động tốt khi kết hợp với các phương pháp phát hiện cũ hơn quét các mẫu rộng hơn. Họ cũng lưu ý rằng phương pháp này hoạt động tốt nhất trên văn bản dài, nơi sự tương phản có thể trở nên rõ ràng hơn.

Công việc mới này cung cấp một phương pháp luận để kiểm tra ‘tính AI’ thông qua phân tích tính năng thời gian thứ hai, không yêu cầu đào tạo hoặc tinh chỉnh bổ sung hoặc truy cập mô hình đặc quyền.

Công việc mới mới có tiêu đề Khi AI ổn định: Sự ổn định giai đoạn cuối là một đặc trưng của Phát hiện văn bản được tạo ra bởi AI, và đến từ bốn tác giả tại Đại học Westlake ở Hàng Châu.

Phương pháp

Để nắm bắt sự mịn màng ngày càng tăng trong văn bản AI được tạo ra, các nhà nghiên cứu đã thiết kế hai phép đo tập trung chỉ vào phần sau của một đoạn văn. Những phép đo này dựa trên điểm số xác suất log từ một mô hình ngôn ngữ tiêu chuẩn và không yêu cầu tinh chỉnh, đào tạo lại hoặc mẫu bổ sung:

Từ bài báo mới - mỗi hàng hiển thị hành vi của một số liệu cơ bản từ EvoBench trên chuỗi token: giá trị thô (trái), đạo hàm tuyệt đối (giữa) và độ lệch chuẩn địa phương (phải). Các dòng của con người và AI được hiển thị màu xanh lam và đỏ. Hầu hết sự phân kỳ xuất hiện ở nửa sau của văn bản, đặc biệt là đối với Xác suất log và Sự không nhất quán của mẫu, cho thấy sự phân chia tăng và đầu ra AI mịn màng hơn. Entropy và Sự tập trung Top-K cho thấy rất ít thay đổi theo thời gian. Nguồn - https://arxiv.org/pdf/2601.04833

Từ bài báo mới – mỗi hàng hiển thị hành vi của một số liệu cơ bản từ EvoBench trên chuỗi token: giá trị thô (trái), đạo hàm tuyệt đối (giữa) và độ lệch chuẩn địa phương (phải). Các dòng của con người và AI được hiển thị màu xanh lam và đỏ. Hầu hết sự phân kỳ xuất hiện ở nửa sau của văn bản, đặc biệt là đối với Xác suất log và Sự không nhất quán của mẫu, cho thấy sự phân chia tăng và đầu ra AI mịn màng hơn. Entropy và Sự tập trung Top-K cho thấy rất ít thay đổi theo thời gian. Nguồn

Phép đo đầu tiên, được gọi là Phân tán đạo hàm (DD), theo dõi mức độ thay đổi sắc nét của sự tự tin của mô hình từ một từ này sang từ khác. Văn bản AI có xu hướng ổn định vào một nhịp điệu, vì vậy những thay đổi này trở nên nhỏ hơn và có thể dự đoán được hơn trong nửa sau. Ngược lại, việc viết của con người vẫn ‘không đều’.

Phép đo thứ hai, Biến động địa phương (LV), xem xét mức độ ‘nhảy’ của sự tự tin của mô hình ‘trong một cửa sổ văn bản nhỏ’. Một lần nữa, AI có xu hướng trở nên ổn định hơn theo thời gian, trong khi các lựa chọn của con người vẫn còn bất ngờ và ít nhất quán:

Văn bản AI trở nên mịn màng hơn khi nó tiến triển, trong khi việc viết của con người vẫn không đều. Những biểu đồ này theo dõi sự thay đổi của sự tự tin của mô hình theo suốt đoạn văn, phản ánh cả sự sắc nét của sự thay đổi giữa các từ liên tiếp và sự thay đổi trong các đoạn văn ngắn. Trong cả hai khía cạnh, sự suy giảm là rõ rệt hơn trong đầu ra được tạo ra bởi máy, với sự tương phản trở nên rõ ràng hơn sau điểm giữa. Các hộp màu vàng突出 sự gia tăng khoảng cách này trong nửa sau, nơi văn bản AI đạt đến 32% sự ổn định hơn so với văn bản của con người.

Văn bản AI trở nên mịn màng hơn khi nó tiến triển, trong khi việc viết của con người vẫn không đều. Những biểu đồ này theo dõi sự thay đổi của sự tự tin của mô hình theo suốt đoạn văn, phản ánh cả sự sắc nét của sự thay đổi giữa các từ liên tiếp và sự thay đổi trong các đoạn văn ngắn. Trong cả hai khía cạnh, sự suy giảm là rõ rệt hơn trong đầu ra được tạo ra bởi máy, với sự tương phản trở nên rõ ràng hơn sau điểm giữa. Các hộp màu vàng突出 sự gia tăng khoảng cách này trong nửa sau, nơi văn bản AI đạt đến 32% sự ổn định hơn so với văn bản của con người.

Một lần nữa, cả hai phép đo đều được tính toán chỉ từ nửa sau của văn bản, nơi sự khác biệt giữa văn bản của con người và máy là rõ ràng nhất. Những phép đo này sau đó được kết hợp vào một giá trị duy nhất gọi là Phát hiện ổn định thời gian (TSD) – giá trị này có xu hướng tăng khi văn bản trở nên ‘mịn màng’ hơn (và do đó có nhiều khả năng được tạo ra bởi AI). Một ngưỡng đơn giản sau đó được sử dụng để quyết định liệu một đoạn văn nhất định có khả năng được viết bởi một máy hay không.

Vì những tính năng này tập trung vào khi một mẫu xuất hiện, thay vì chỉ nhìn vào mẫu đó, chúng được bổ sung bởi các phương pháp cũ hơn tìm kiếm các bất thường thống kê trên toàn bộ đoạn văn. Thêm điểm số TSD vào đầu ra của đề xuất cuối năm 2024 Fast‑DetectGPT (cũng trong sự hợp tác với Westlake) cung cấp một sự cải thiện bổ sung trong kết quả (đặc biệt là đối với nội dung dài, nơi hiệu ứng làm mịn giai đoạn cuối là mạnh nhất).

Dữ liệu và Kiểm tra

Các tác giả đã tiến hành các thử nghiệm trên hai tập dữ liệu chuẩn liên quan: EvoBench chứa 32.000 cặp văn bản con người / AI được tạo ra trên bảy họ mô hình, bao gồm GPT-4; GPT-4o; Claude; Google Gemini; LLaMA-3; và Qwen, với tổng cộng 29 phiên bản mô hình được giới thiệu.

Khung khác là MAGE, cung cấp 30.000 cặp kiểm tra trên tám họ mô hình, bao gồm (nhưng không giới hạn ở) loạt GPT từ OpenAI, và các họ LLaMA, OPTFLAN-T5.

Người cạnh tranh

Phương pháp mới được kiểm tra chống lại một loạt các bộ phát hiện không có dấu vết bằng cách sử dụng mô hình thay thế giống nhau. Xác suất, Entropy, HạngLog-Rank (DetectGPT) đo lường thống kê cấp token trên toàn đoạn văn; LLR (DetectLLM) áp dụng chuẩn hóa để cho phép so sánh trực tiếp trên các mô hình; và Fast-Detect ước tính độ cong cục bộ thông qua các nhiễu loạn dựa trên lấy mẫu.

Lastde phân tích các chuỗi con phân biệt trong tín hiệu xác suất, trong khi FourierGPT hoạt động trong miền tần số. Diveye nắm bắt các thay đổi trong ‘sự ngạc nhiên’ đa dạng trên toàn bộ chuỗi.

Cuối cùng, UCE đánh giá hồ sơ không chắc chắn của dự đoán token, để xác định các mẫu tự tin không tự nhiên.

Triển khai và Kết quả

Tất cả các phương pháp phát hiện đều được chạy bằng cách sử dụng Llama-3-8B-Instruct làm mô hình thay thế chung, với các chuỗi đầu vào bị giới hạn ở 512 token. Các tính năng thời gian được trích xuất chỉ từ nửa sau của mỗi đoạn văn, sử dụng cửa sổ trượt 20 token để đo biến động. Một phiên bản kết hợp của phương pháp, được gọi là TSD+, kết hợp tín hiệu được đề xuất với Fast-DetectGPT.

Diện tích dưới Đường cong Đặc trưng Vận hành Nhận viên (AUROC) là chỉ số đánh giá chính:

Hiệu suất đa dạng giữa các phương pháp thử nghiệm khác nhau chống lại văn bản được tạo ra bởi AI. Độ chính xác phát hiện được hiển thị trên hai tiêu chuẩn: EvoBench, bao gồm nhiều mô hình LLM nổi bật, và MAGE, một tập dữ liệu bổ sung. Các chỉ số được nhóm theo loại phương pháp: thống kê toàn cầu, tính năng thời gian và các biến thể được đề xuất. Các điểm số AUROC trung bình được đưa ra trong các cột cuối cùng. Kết quả từ các biến thể phương pháp của các tác giả liên tục vượt trội so với các phương pháp cơ sở trước đó, với TSD+ mang lại điểm số cao nhất trong hầu như mọi cài đặt mô hình.

Hiệu suất đa dạng giữa các phương pháp thử nghiệm khác nhau chống lại văn bản được tạo ra bởi AI. Độ chính xác phát hiện được hiển thị trên hai tiêu chuẩn: EvoBench, bao gồm nhiều mô hình LLM nổi bật, và MAGE, một tập dữ liệu bổ sung. Các chỉ số được nhóm theo loại phương pháp: thống kê toàn cầu, tính năng thời gian và các biến thể được đề xuất. Các điểm số AUROC trung bình được đưa ra trong các cột cuối cùng. Kết quả từ các biến thể phương pháp của các tác giả liên tục vượt trội so với các phương pháp cơ sở trước đó, với TSD+ mang lại điểm số cao nhất trong hầu như mọi cài đặt mô hình.

Trong số những kết quả ban đầu này, các tác giả tuyên bố:

‘Các tính năng thời gian đơn giản của chúng tôi đạt được hiệu suất tốt nhất trong số các phương pháp độc lập, với TSD đạt 83,36% trên EvoBench và 71,56% trên MAGE, vượt trội so với tất cả các phương pháp cơ sở, bao gồm cả Fast-DetectGPT.

‘Điều này đáng chú ý,考虑 đến sự đơn giản của phương pháp của chúng tôi: chúng tôi chỉ tính toán thống kê thứ hai từ nửa sau của các chuỗi, mà không cần lấy mẫu nhiễu loạn hoặc biến đổi miền tần số.’

Phương pháp mới này hoạt động đặc biệt tốt trên các mô hình AI mới hơn như GPT-4 và GPT-4o, xác định văn bản được viết bởi AI chính xác hơn bộ phát hiện hàng đầu gần nhất, với khoảng cách hiệu suất lên đến 9,66%. Mặc dù các mô hình tiên tiến hơn tạo ra văn bản ít nhất quán hơn, điều này che giấu một số dấu hiệu của tự động hóa, nhưng các mẫu thời gian tinh vi vẫn còn rõ ràng gần cuối.

Các phương pháp cạnh tranh tập trung vào các tính năng cấu trúc rộng lớn không thành công trong việc nắm bắt các mẫu giai đoạn cuối. Bằng cách tích hợp một bộ phát hiện toàn cầu, hệ thống lai dường như thu hồi các tín hiệu bị bỏ lỡ này và cải thiện hiệu suất, đặc biệt là trên các tiêu chuẩn mà các tín hiệu thời gian yếu hơn có thể làm suy yếu các tín hiệu thời gian.

Kết luận

Một khía cạnh không được giải quyết trực tiếp trong công việc mới là xu hướng của các nhà văn để lặp lại công việc của họ thông qua việc soạn thảo và các lớp giám sát khác nhau – đôi khi bao gồm cả đầu vào của các biên tập viên và người kiểm tra, cũng như các thay đổi được đề xuất có thể có từ các bộ phận pháp lý, tùy thuộc vào ngữ cảnh.

Nhiều bên liên quan trong các tài liệu đơn giản như một bài báo trên tờ báo chôn sâu có thể xóa bỏ các đặc điểm riêng biệt mà hệ thống mới được đề xuất đang dựa vào, và về cơ bản là một phiên bản ‘nội tuyến’ của một quy trình soạn thảo được hỗ trợ bởi AI.

Ngoài ra, các hệ thống đang được nghiên cứu đã được đào tạo trên các công việc như vậy và – khi dữ liệu đào tạo được xếp hạng theo thứ tự ưu tiên tại thời điểm đào tạo – các nguồn được coi trọng nhất có thể là những nguồn ít ‘tự nhiên’ nhất; ít nhất, so với ai đó nhanh chóng viết một email thông thường cho một đồng nghiệp, thay vì lắp ráp một báo cáo hàng năm cho một cuộc họp đại hội đồng cổ đông.

Một sự xem xét khác và trái ngược là văn bản mà nhiều người đã đóng góp cũng có thể là những mảnh văn bản bị phân mảnh, khiếm khuyết và lặp lại nhất trong một tập dữ liệu, vì chúng thường không có lợi thế của một giọng nói thống nhất cuối cùng, để lại bản chất rời rạc của sự phát triển của chúng rõ ràng trong văn bản.

 

* Phong cách văn bản gốc của tác giả được sao chép từ bài báo; không phải nhấn mạnh của tôi.

Các tác giả tuyên bố ‘chính’, trong khi không liệt kê các chỉ số đánh giá khác.

Được xuất bản lần đầu vào thứ hai, ngày 26 tháng 1 năm 2026

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]