Góc nhìn Anderson

Các Mô Hình Ngôn Ngữ Cá Nhân Hóa Dễ Tạo – Và Khó Phát Hiện

Published June 19, 2025

Updated April 26, 2026

Martin Anderson

A robot hand at large in an exam room - Flux, Krita (AI GENERATED).

Các bản sao mã nguồn mở của ChatGPT có thể được tinh chỉnh quy mô lớn và với chuyên môn hạn chế hoặc không có, tạo điều kiện cho các mô hình ngôn ngữ “riêng tư” tránh bị phát hiện. Hầu hết các công cụ không thể theo dõi nguồn gốc của các mô hình này hoặc chúng được đào tạo để làm gì, cho phép sinh viên và người dùng khác tạo văn bản AI mà không bị phát hiện; nhưng một phương pháp mới cho rằng nó có thể xác định các biến thể ẩn này bằng cách phát hiện các “đặc điểm gia đình” chung trong đầu ra của mô hình.

Theo một nghiên cứu mới từ Canada, các mô hình trò chuyện AI tùy chỉnh của người dùng, tương tự như ChatGPT, có khả năng tạo nội dung truyền thông xã hội giống như viết của con người, và có thể đánh lừa các thuật toán phát hiện và con người.

Bản thảo cho biết:

‘Một kẻ tấn công có động lực thực tế có thể tinh chỉnh mô hình cho phong cách và trường hợp sử dụng cụ thể của họ, vì điều đó rẻ và dễ làm. Với nỗ lực tối thiểu, thời gian và tiền bạc, chúng tôi đã tạo ra các máy phát sinh tinh chỉnh có khả năng tạo ra các tweet trên truyền thông xã hội thực tế hơn, dựa trên cả tính năng ngôn ngữ và độ chính xác phát hiện, và được xác nhận thông qua chú thích của con người.’

Các tác giả nhấn mạnh rằng các mô hình tùy chỉnh loại này không giới hạn ở nội dung truyền thông xã hội ngắn:

‘Mặc dù được мотив bởi sự lan truyền của nội dung AI trên truyền thông xã hội, và các rủi ro liên quan đến astroturfing và chiến dịch ảnh hưởng, chúng tôi nhấn mạnh rằng các phát hiện chính mở rộng trên tất cả các lĩnh vực văn bản.

‘Thực tế, việc tinh chỉnh mô hình cho việc tạo nội dung theo phong cách cụ thể là một phương pháp có thể áp dụng chung, và một phương pháp mà có thể đã được sử dụng bởi nhiều người dùng AI tạo sinh – đặt câu hỏi liệu các phương pháp hiện có để phát hiện AIGT có hiệu quả trong thế giới thực như trong phòng thí nghiệm hay không.’

Khi bản thảo quan sát, phương pháp được sử dụng để tạo ra các mô hình ngôn ngữ tùy chỉnh này là tinh chỉnh, nơi người dùng thu thập một lượng dữ liệu mục tiêu hạn chế của riêng họ và đưa nó vào số lượng ngày càng tăng các công cụ đào tạo trực tuyến dễ sử dụng và rẻ tiền.

Ví dụ, kho lưu trữ phổ biến Hugging Face cung cấp tinh chỉnh Mô hình Ngôn ngữ Lớn (LLM) thông qua giao diện đơn giản hóa, sử dụng hệ thống AutoTrain Advanced của nó, có thể được chạy với vài đô la thông qua GPU trực tuyến hoặc miễn phí, cục bộ, nếu người dùng có phần cứng đủ điều kiện:

Các cấu trúc giá khác nhau trên phạm vi GPU có sẵn cho hệ thống Hugging Face AutoTrain. Source: https://huggingface.co/spaces/autotrain-projects/autotrain-advanced?duplicate=true

Các phương pháp và nền tảng đơn giản hóa khác bao gồm Axolotl, Unsloth, và TorchTune có khả năng hơn nhưng đòi hỏi nhiều hơn.

Một trường hợp sử dụng ví dụ sẽ là một sinh viên mệt mỏi khi viết luận văn của mình, nhưng sợ bị phát hiện bởi các công cụ phát hiện AI trực tuyến, người có thể sử dụng các luận văn lịch sử thực tế của riêng họ làm dữ liệu đào tạo để tinh chỉnh một mô hình mã nguồn mở phổ biến như Mistral series.

Mặc dù tinh chỉnh mô hình tends to skew hiệu suất của nó về dữ liệu đào tạo bổ sung và làm giảm hiệu suất tổng thể, nhưng các mô hình “cá nhân hóa” có thể được sử dụng để “de-AI” đầu ra ngày càng đặc trưng từ các hệ thống như ChatGPT, theo cách phản ánh phong cách lịch sử của người dùng (và, để tăng tính xác thực, điểm yếu của họ).

Tuy nhiên, người ta có thể sử dụng độc quyền một mô hình tinh chỉnh được đào tạo cụ thể cho một nhiệm vụ hoặc phạm vi nhiệm vụ hẹp, chẳng hạn như một LLM tinh chỉnh trên khóa học của một mô-đun đại học cụ thể. Một mô hình cụ thể như vậy sẽ có một cái nhìn sâu sắc hẹp nhưng sâu sắc hơn trong lĩnh vực đó so với một LLM đa năng như ChatGPT, và có khả năng sẽ tốn ít hơn 10-20 đô la để đào tạo.

Đảo băng trôi LLM

Thật khó để nói về quy mô của việc thực hành này. Theo lời đồn, trên các nền tảng truyền thông xã hội đa dạng, tôi đã gặp nhiều ví dụ về kinh doanh – định hướng tinh chỉnh LLM – chắc chắn nhiều ví dụ hơn một năm trước; trong một trường hợp, một công ty tinh chỉnh một mô hình ngôn ngữ trên các mảnh lãnh đạo tư tưởng đã xuất bản, sau đó có thể chuyển đổi một cuộc gọi Zoom vụn với một khách hàng mới thành một bài đăng B2B bóng bẩy gần như trong một lần, theo yêu cầu.

Một mô hình như vậy yêu cầu dữ liệu ghép đôi (trước và sau các ví dụ, với quy mô), trong khi tạo một “lớp bóng” cá nhân hóa của các đặc điểm của một nhà văn cụ thể là một nhiệm vụ dễ dàng hơn, tương tự như chuyển đổi phong cách.

Mặc dù đây là một việc theo đuổi bí mật (mặc dù có nhiều tiêu đề và nghiên cứu học thuật về chủ đề này), nơi các con số không có sẵn, cùng một sự hiểu biết thông thường đã đưa đạo luật TAKE IT DOWN thành luật này năm: hoạt động mục tiêu là có thể và phải chăng, và có một sự hiểu biết thông thường mạnh mẽ rằng người dùng tiềm năng rất có động lực.

Chỉ có đủ ma sát còn lại trong các hệ thống tinh chỉnh trực tuyến “dumbed-down” nhất mà việc thực hành disingenuously đào tạo và sử dụng các mô hình tinh chỉnh vẫn là một trường hợp sử dụng đặc biệt, trong thời gian hiện tại – mặc dù chắc chắn không vượt quá sự sáng tạo truyền thống của sinh viên.

PhantomHunter

Điều này đưa chúng ta đến bài báo chính của sự quan tâm ở đây – một phương pháp mới từ Trung Quốc thu thập một loạt các kỹ thuật vào một khuôn khổ duy nhất – được gọi là PhantomHunter – mà tuyên bố xác định đầu ra của các mô hình ngôn ngữ tinh chỉnh, sẽ không bị phát hiện như là công việc gốc của con người.

Hệ thống được thiết kế để hoạt động ngay cả khi mô hình tinh chỉnh cụ thể chưa từng được gặp trước đó, dựa trên các dấu vết còn lại của mô hình cơ sở ban đầu – mà các tác giả mô tả là “đặc điểm gia đình” tồn tại trong quá trình tinh chỉnh.

Trong các thử nghiệm, bài báo – có tiêu đề PhantomHunter: Phát hiện Văn bản được Tạo ra bởi LLM Tinh chỉnh Riêng tư thông qua Học tập Nhận thức Gia đình – báo cáo độ chính xác phát hiện mạnh mẽ, với hệ thống vượt trội so với RoBERTa; T5-Sentinel; SeqXGPT; DNA-GPT; DetectGPT; Fast-DetectGPT; và DeTeCtive.

Hệ thống này hoạt động bằng cách truyền một đoạn văn bản qua một số mô hình cơ sở đã biết và ghi lại khả năng của mỗi mô hình trong việc dự đoán từ tiếp theo, tại mỗi bước. Các mẫu này sau đó được đưa vào một mạng nơ-ron học để học các đặc điểm phân biệt của mỗi gia đình mô hình.

Trong quá trình đào tạo, hệ thống so sánh các văn bản từ cùng một gia đình và học cách nhóm chúng lại với nhau, đồng thời phân biệt chúng với những văn bản từ các gia đình khác, giúp xác định các kết nối ẩn giữa các mô hình tinh chỉnh và mô hình cơ sở của chúng.

MOE

Để quyết định liệu một đoạn văn bản được viết bởi con người hay bởi AI, PhantomHunter sử dụng một hệ thống mixture-of-experts, trong đó mỗi “chuyên gia” được tinh chỉnh để phát hiện văn bản từ một gia đình mô hình cụ thể.

Khi hệ thống đoán gia đình mà đoạn văn bản có khả năng đến từ, nó sử dụng đoán đó để quyết định bao nhiêu trọng lượng để đưa ra ý kiến của mỗi chuyên gia. Những ý kiến có trọng lượng này sau đó được kết hợp để đưa ra quyết định cuối cùng: AI hoặc con người.

Đào tạo hệ thống liên quan đến nhiều mục tiêu: học cách nhận ra các gia đình mô hình; học cách phân biệt văn bản AI với văn bản con người; và học cách tách các gia đình khác nhau sử dụng học tập tương phản – các mục tiêu được cân bằng trong quá trình đào tạo thông qua các tham số có thể điều chỉnh.

Bằng cách tập trung vào các mẫu được chia sẻ trên mỗi gia đình, thay vì các đặc điểm riêng của từng mô hình, PhantomHunter nên có khả năng phát hiện thậm chí các mô hình tinh chỉnh mà nó chưa từng thấy trước đó.

Dữ liệu và Thử nghiệm

Để phát triển dữ liệu cho các thử nghiệm, các tác giả tập trung vào hai kịch bản học thuật phổ biến nhất: viết và trả lời câu hỏi. Đối với viết, họ thu thập 69.297 tóm tắt từ lưu trữ học thuật Arxiv, chia thành các lĩnh vực chính. Đối với Q&A, 2.062 cặp được thu thập từ Bộ dữ liệu HC3 trên ba môn: ELI5; finance; và y học:

Danh sách các nguồn dữ liệu và số lượng của chúng, trong dữ liệu được thu thập cho nghiên cứu.

Tổng cộng, mười hai mô hình đã được đào tạo cho thử nghiệm. Ba mô hình cơ sở là LLaMA-2 7B-Chat; Mistral 7B-Instruct-v0.1; và Gemma 7B-it), từ đó chín biến thể tinh chỉnh đã được tạo ra, mỗi biến thể được tùy chỉnh để bắt chước một lĩnh vực hoặc phong cách viết khác nhau, sử dụng dữ liệu cụ thể cho từng lĩnh vực:

Thống kê của tập dữ liệu đánh giá, nơi ‘FT Domain’ đề cập đến lĩnh vực được sử dụng trong quá trình tinh chỉnh và ‘base’ chỉ ra không có tinh chỉnh.

Tổng cộng, do đó, ba mô hình cơ sở đã được tinh chỉnh bằng cả kỹ thuật tinh chỉnh đầy đủ và LoRA trên ba lĩnh vực khác nhau trong mỗi một trong hai kịch bản sử dụng: viết tóm tắt học thuật và trả lời câu hỏi. Để phản ánh các thách thức phát hiện trong thế giới thực, các mô hình tinh chỉnh trên dữ liệu khoa học máy tính đã được giữ lại từ các thử nghiệm viết, trong khi những mô hình tinh chỉnh trên dữ liệu tài chính đã được giữ lại từ các đánh giá Q&A.

Các khuôn khổ đối thủ được chọn là RoBERTa; T5-Sentinel; SeqXGPT; DNA-GPT; DetectGPT; Fast-DetectGPT; và DeTeCtive.

PhantomHunter được đào tạo bằng cách sử dụng hai loại lớp mạng nơ-ron: ba lớp mạng nơ-ron tích chập với làm mịn tối đa để bắt các mẫu văn bản cục bộ, và hai lớp mạng nơ-ron transformer với bốn đầu chú ý mỗi lớp để mô hình hóa các mối quan hệ dài hơn.

Đối với học tập tương phản, khuyến khích hệ thống phân biệt giữa các gia đình mô hình khác nhau, tham số nhiệt độ được đặt thành 0,07.

Mục tiêu đào tạo kết hợp ba thuật ngữ mất mát: L1 (đối với phân loại gia đình) và L2 (đối với phát hiện nhị phân), mỗi thuật ngữ được trọng số ở 1,0, và L3 (đối với học tập tương phản), được trọng số ở 0,5.

Mô hình được tối ưu hóa bằng Adam với tốc độ học tập là 2e-5 và kích thước lô là 32. Đào tạo diễn ra trong mười epoch đầy đủ, với điểm kiểm tra hoạt động tốt nhất được chọn bằng cách sử dụng tập hợp xác thực. Tất cả các thí nghiệm được thực hiện trên một máy chủ với bốn GPU NVIDIA A100.

Các chỉ số được sử dụng là điểm F1 cho mỗi tập hợp con thử nghiệm, cùng với tỷ lệ dương tính thật, để so sánh với các máy dò thương mại.

Điểm F1 cho việc phát hiện văn bản từ các mô hình ngôn ngữ tinh chỉnh không nhìn thấy. Hai kết quả hàng đầu trong mỗi loại được in đậm và gạch chân. ‘BFE’ đề cập đến việc trích xuất tính năng xác suất cơ sở, ‘CL’ đến học tập tương phản, và ‘MoE’ đến mô-đun chuyên gia hỗn hợp.

Kết quả của thử nghiệm ban đầu, được trực quan hóa trong bảng trên, cho thấy PhantomHunter vượt trội so với tất cả các hệ thống cơ sở, duy trì điểm F1 trên chín mươi phần trăm cho cả văn bản do con người và máy tạo ra, ngay cả khi được đánh giá trên đầu ra từ các mô hình tinh chỉnh được loại trừ khỏi đào tạo.

Các tác giả bình luận:

‘Với tinh chỉnh đầy đủ, PhantomHunter cải thiện điểm MacF1 hơn 3,65% và 2,96% trên cả hai tập dữ liệu so với baseline tốt nhất; và với tinh chỉnh LoRA, các cải tiến là 2,01% và 6,09% tương ứng.

‘Kết quả chứng minh khả năng phát hiện mạnh mẽ của PhantomHunter đối với văn bản được tạo ra bởi các LLM tinh chỉnh không nhìn thấy.’

Các nghiên cứu loại bỏ được thực hiện để đánh giá vai trò của từng thành phần cốt lõi trong PhantomHunter. Khi các yếu tố riêng lẻ được loại bỏ, chẳng hạn như bộ trích xuất tính năng, bộ mã hóa tương phản hoặc bộ phân loại chuyên gia hỗn hợp, sự giảm độ chính xác nhất quán được quan sát, cho thấy kiến trúc phụ thuộc vào sự phối hợp của tất cả các bộ phận.

Các tác giả cũng kiểm tra xem PhantomHunter có thể khái quát hóa ngoài phân bố đào tạo của nó hay không, và xác định rằng ngay cả khi được áp dụng cho đầu ra từ các mô hình cơ sở hoàn toàn vắng mặt trong đào tạo, nó vẫn vượt trội so với các phương pháp đối thủ – cho thấy rằng các chữ ký cấp gia đình vẫn có thể phát hiện được trên các biến thể tinh chỉnh.

Kết luận

Một lập luận ủng hộ các mô hình ngôn ngữ tạo sinh được đào tạo bởi người dùng là rằng ít nhất những tinh chỉnh và LoRA này bảo tồn hương vị và đặc điểm của một tác giả, trong một khí hậu mà ngôn ngữ chung, được SEO hóa của các rô-bốt trò chuyện AI đe dọa làm cho ngôn ngữ trở nên chung chung bất cứ nơi nào AI trở thành một yếu tố lớn hoặc yếu tố đóng góp chính.

Với sự mất giá của luận văn đại học, và với sinh viên hiện nay screencasting các phiên viết luận văn khổng lồ để chứng minh rằng họ không sử dụng AI trong các bài nộp của mình, nhiều giáo viên ngoài châu Âu (nơi các kỳ thi miệng được chuẩn hóa) đang xem xét các kỳ thi trực tiếp như một thay thế cho các văn bản được gửi.

Gần đây, một sự trở lại với công việc viết tay đã được đề xuất.

Có thể lập luận rằng cả hai giải pháp này đều vượt trội so với những gì đe dọa trở thành một cuộc đua vũ trang LLM dựa trên AI; mặc dù chúng có chi phí là sự cố gắng và chú ý của con người, điều mà văn hóa công nghệ đang cố gắng tự động hóa.

^† Xin xem phần cuối của bài báo nguồn, sau kết quả chính, để biết thêm chi tiết.

* Sự chuyển đổi của tôi từ các chú thích trong dòng của tác giả sang các liên kết. Tác giả nhấn mạnh văn bản, không phải của tôi.

Được xuất bản lần đầu vào thứ Năm, ngày 19 tháng 6 năm 2025

Martin Anderson

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]

Unite.AI

Các Mô Hình Ngôn Ngữ Cá Nhân Hóa Dễ Tạo – Và Khó Phát Hiện

Đảo băng trôi LLM

PhantomHunter

MOE

Dữ liệu và Thử nghiệm

Kết luận

You may like