Connect with us

Anderson's Angle

Văn Bản AI Tạo Ra Không Bao Giờ ‘Mệt Mỏi’, Và Do Đó Tự Lộ Diện

mm
AI-generated image, by Z-Image Turbo (V1) via Krita AI Diffusion. Prompt: 'An American, hot high-school exam room in Texas,, with all the students seated exhausted in the heat, at lines of desks, trying to concentrate on winning their exams. In the center of the picture we focus on an industrial humanoid robot who is filling out the exam papers so quickly that the A$ sheets are flying around its desk in a flurry of activity. Some of the nearby, sweating and exhausted young students are looking at the tireless robot with annoyance and/or jealousy.'

AI kiểu ChatGPT tự lộ diện bằng cách tăng tính nhất quán, trong khi văn bản của con người vẫn thất thường xuyên suốt.

 

Cửa sổ ngữ cảnh hạn chế của hầu hết các Mô hình Ngôn ngữ Lớn (LLM) hướng đến người dùng phổ thông là một trong những yếu tố có thể khiến chúng quên hoặc nhớ sai các phần trước đó trong cuộc trò chuyện của người dùng – những lỗi về trí nhớ có thể dần biến đầu ra thành văn bản vô nghĩa hoàn toàn – hoặc, tệ hơn, là văn bản trông có vẻ mạch lạc một cách lừa dối nhưng chứa đựng những lỗi tinh vi.

Vì những tình huống này dẫn đến ảo giác, và vì ảo giác vẫn là trở ngại lớn nhất đối với sự tiến bộ toàn diện của AI trên thị trường, rất nhiều nỗ lực nghiên cứu đã được dành cho việc tạo ra các hệ thống AI sinh có khả năng tạo ra các đoạn văn bản dài hơn nhưng nhất quán hơn nhiều.

Trên thực tế, có quá nhiều tiến bộ đang được thực hiện đến mức việc nhận diện nội dung dạng dài do AI tạo ra (tức là nội dung được tạo ra hoàn toàn bởi AI, với – có lẽ là – sự chỉnh sửa sau tối thiểu hoặc bằng không của con người) được coi là một vấn đề ngày càng gia tăng.

Phá Vỡ Cuộc ‘Độc Diễn’ của AI

Tuy nhiên, các nghiên cứu thực nghiệm gần đây cho rằng đầu ra mà các trình tạo văn bản AI tạo ra càng nhiều trong một lần, thì càng dễ xác định văn bản đó có phải do con người viết hay không; nhưng quan điểm được chấp nhận liên quan đến ‘điểm neo’ phát hiện này đã giả định rằng AI có thể được phân biệt vì bất cứ điều gì nó làm khác với con người, nó có cơ hội thực hiện thường xuyên hơn trong các đoạn văn dài hơn.

Không có giả định nào được đưa ra về sự phân bố của những ‘dấu hiệu lộ diện’ này trong chính văn bản.

Để thách thức điều này và mở rộng vấn đề, một nghiên cứu gần đây thú vị từ Trung Quốc đưa ra một phương pháp mới để phân biệt thế hệ trình tạo nội dung dạng dài AI mới với các tác giả người thực sự. Các nhà nghiên cứu đứng sau công trình này tuyên bố rằng bản chất token-chồng-token mà văn bản AI được tạo ra có nghĩa là nó trở nên nhất quán hơn khi độ dài tăng lên, trong khi những đặc điểm riêng của con người không giảm đi theo độ dài.

Theo cách này, các tác giả đề xuất rằng hiểu biết của họ cung cấp một chỉ số tiềm năng mới cho các hệ thống phát hiện văn bản AI*:

‘Các token do AI tạo ra ở phần sau của văn bản thể hiện sự dao động xác suất nhỏ hơn và ổn định hơn khi các dự đoán của mô hình ngày càng trở nên nhất quán hơn khi ngữ cảnh tích lũy.

‘Chúng tôi gọi mẫu hình này là Suy Giảm Biến Động Giai Đoạn Cuối. Hiện tượng này phản ánh hành vi vốn có của việc sinh tự hồi quy: khi có nhiều ngữ cảnh hơn, phân phối dự đoán của mô hình trở nên sắc nét hơn, dẫn đến giảm tính biến đổi trong thống kê cấp độ token.

‘Ngược lại, văn bản của con người tiếp tục đưa ra các lựa chọn từ vựng bất ngờ và duy trì mức biến động cao hơn xuyên suốt.’

Để nắm bắt ‘sự mượt mà’ kỳ lạ tích lũy trong văn bản AI về phía cuối, các nhà nghiên cứu xác định hai đặc điểm đơn giản: đặc điểm đầu tiên đo lường mức độ hành vi thống kê của văn bản ‘nhảy lung tung’ giữa các token; đặc điểm thứ hai kiểm tra mọi thứ ổn định như thế nào trong các đoạn văn bản ngắn.

Cả hai đều chỉ được tính toán từ nửa sau của đầu ra, nơi AI trở nên rõ ràng đều đặn hơn còn văn bản của con người thì không. Các tác giả lưu ý rằng trong khi các tín hiệu này hoạt động tốt một mình, chúng thậm chí còn hiệu quả hơn khi kết hợp với các phương pháp phát hiện cũ hơn quét các mẫu hình rộng hơn. Họ cũng lưu ý rằng cách tiếp cận này hoạt động tốt nhất trên các văn bản dài, nơi sự tương phản có thể trở nên rõ rệt hơn.

Bài báo mới cung cấp một phương pháp luận để kiểm tra ‘tính AI’ thông qua phân tích đặc điểm thời gian nửa sau, không yêu cầu đào tạo bổ sung, tinh chỉnh hoặc quyền truy cập mô hình đặc quyền.

Công trình mới có tiêu đề When AI Settles Down: Late-Stage Stability as a Signature of AI-Generated Text Detection, và đến từ bốn tác giả tại Đại học Westlake ở Hàng Châu.

Phương Pháp

Để nắm bắt sự mượt mà ngày càng tăng trong văn bản do AI tạo, các nhà nghiên cứu đã thiết kế hai phép đo chỉ tập trung vào nửa sau của một đoạn văn. Chúng dựa trên điểm số xác suất log từ một mô hình ngôn ngữ tiêu chuẩn và không yêu cầu tinh chỉnh, đào tạo lại hoặc mẫu bổ sung:

From the new paper - each row shows the behavior of a base metric from EvoBench across the token sequence: raw value (left), absolute derivative (center), and local standard deviation (right). Human and AI lines are shown in blue and red. Most divergence appears in the second half of the text, especially for Log Probability and Sampling Discrepancy, which show rising separation and smoother AI output. Entropy and Top-K Concentration show little change over time. Source -  https://arxiv.org/pdf/2601.04833

Từ bài báo mới – mỗi hàng cho thấy hành vi của một chỉ số cơ sở từ EvoBench trên chuỗi token: giá trị thô (trái), đạo hàm tuyệt đối (giữa) và độ lệch chuẩn cục bộ (phải). Đường của con người và AI được hiển thị bằng màu xanh lam và đỏ. Hầu hết sự phân kỳ xuất hiện ở nửa sau của văn bản, đặc biệt là đối với Xác suất Log và Sự Khác biệt Lấy mẫu, cho thấy sự phân tách ngày càng tăng và đầu ra AI mượt mà hơn. Entropy và Tập trung Top-K cho thấy ít thay đổi theo thời gian. Nguồn

Phép đo đầu tiên, gọi là Phân Tán Đạo Hàm (DD), theo dõi mức độ sắc nét mà sự tự tin của mô hình thay đổi từ từ này sang từ khác. Văn bản AI có xu hướng ổn định thành một nhịp điệu, vì vậy những thay đổi này trở nên nhỏ hơn và dễ đoán hơn trong nửa sau. Ngược lại, văn bản của con người vẫn ‘không đều’.

Phép đo thứ hai, Biến Động Cục Bộ (LV), xem xét mức độ sự tự tin của mô hình ‘nhảy lung tung’ trong một cửa sổ văn bản nhỏ. Một lần nữa, AI có xu hướng trở nên ổn định hơn theo thời gian, trong khi các lựa chọn của con người vẫn gây ngạc nhiên hơn và ít nhất quán hơn:

AI text becomes smoother as it goes, while human writing remains uneven. These graphs track how the model’s confidence shifts over the course of a passage, reflecting both the sharpness of change between successive words and the amount of variation within local stretches of text. In both respects, the decline is much steeper in machine-generated output, with the contrast becoming especially clear after the midpoint. The yellow boxes highlight this widening gap in the second half, where AI writing reaches up to 32% greater stability than human writing.

Văn bản AI trở nên mượt mà hơn khi tiếp diễn, trong khi văn bản của con người vẫn không đều. Các biểu đồ này theo dõi sự thay đổi độ tự tin của mô hình trong suốt một đoạn văn, phản ánh cả độ sắc nét của sự thay đổi giữa các từ liên tiếp và mức độ biến đổi trong các đoạn văn bản cục bộ. Về cả hai mặt, sự suy giảm này dốc hơn nhiều trong đầu ra do máy tạo ra, với sự tương phản trở nên đặc biệt rõ ràng sau điểm giữa. Các hộp màu vàng làm nổi bật khoảng cách ngày càng rộng này ở nửa sau, nơi văn bản AI đạt độ ổn định cao hơn tới 32% so với văn bản của con người.

Một lần nữa, cả hai chỉ số đều chỉ được tính toán từ nửa sau của văn bản, nơi sự khác biệt giữa văn bản của con người và máy móc là rõ ràng nhất. Sau đó, chúng được kết hợp thành một giá trị duy nhất gọi là điểm Phát Hiện Ổn Định Thời Gian (TSD) – có xu hướng tăng lên khi văn bản trở nên ‘mượt mà hơn’ (và do đó có nhiều khả năng do AI tạo ra). Sau đó, một ngưỡng đơn giản được sử dụng để quyết định xem một đoạn văn nhất định có thể được viết bởi máy hay không.

Bởi vì các đặc điểm này tập trung vào thời điểm một mẫu hình xuất hiện, thay vì chỉ hình dạng của mẫu hình đó, chúng được bổ sung bởi các phương pháp cũ hơn tìm kiếm những điều kỳ lạ thống kê trên toàn bộ đoạn văn. Việc thêm điểm TSD vào đầu ra của Fast‑DetectGPT (cũng hợp tác với Westlake) mang lại một cải thiện bổ sung trong kết quả (đặc biệt đối với nội dung dạng dài nơi hiệu ứng làm mượt giai đoạn cuối mạnh nhất).

Dữ Liệu và Kiểm Tra

Các tác giả đã tiến hành kiểm tra trên hai bộ dữ liệu chuẩn liên quan: EvoBench chứa 32.000 cặp văn bản người/AI được tạo ra trên bảy họ mô hình, bao gồm GPT-4; GPT-4o; Claude; Google Gemini; LLaMA-3; và Qwen, với tổng cộng 29 phiên bản mô hình được đặc trưng.

Khung còn lại là MAGE, cung cấp 30.000 cặp kiểm tra trên tám họ mô hình, bao gồm (nhưng không giới hạn) dòng GPT từ OpenAI, và các họ LLaMA, OPT, và FLAN-T5.

Các Phương Pháp Cạnh Tranh

Phương ph

Nhà văn về học máy, chuyên gia trong lĩnh vực tổng hợp hình ảnh con người. Nguyên trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]