Góc nhìn Anderson

Con Thử Nghiệm Phát Giác Lưu Lượng Tráfico Của Trí Tuệ Nhân Tạo

Published May 14, 2026

Updated May 15, 2026

Martin Anderson

AI-generated image (GPT-2): Rows of human workers focus on their computer screens while a distracted robot, seated among them, tries to look up at a yellow canary perched on its head.

Trong một nghiên cứu mới, các nhà nghiên cứu đã ẩn các cụm từ độc nhất trên các trang web và bắt các bot trò chuyện trí tuệ nhân tạo lặp lại chúng, tiết lộ các đường ống thu thập dữ liệu ẩn và có vẻ như là các hành vi lừa đảo từ một số công ty trí tuệ nhân tạo lớn nhất.

Các công ty trí tuệ nhân tạo đang cạnh tranh để có lợi thế trong một cuộc đua được dự đoán sẽ giảm mạnh; do đó, họ thực sự, thực sự muốn thu thập dữ liệu từ trang web của bạn để đào tạo mô hình trí tuệ nhân tạo của họ. Đôi khi liên tục; thường vi phạm các điều khoản của bạn; và thường xuyên dưới dạng người đọc bình thường, hoặc dưới dạng bot giống như GoogleBot, thay vì tiết lộ danh tính thực sự của họ là bot thu thập dữ liệu trí tuệ nhân tạo.

Hiện tại, dự kiến rằng các bot thu thập dữ liệu tự động được thiết kế để thu thập dữ liệu đào tạo mới và trả lời nhu cầu tức thời của người dùng qua RAG sẽ vượt quá số lượng người trong vòng một năm.

Sự thu thập dữ liệu này đang xảy ra một phần do nhu cầu của mỗi thực thể trí tuệ nhân tạo phải có bản sao hiện tại của internet, thay vì các kho lưu trữ ngày càng cũ như Common Crawl; và có thể vì các công ty lo sợ sự xuất hiện của các hạn chế pháp lý, và cần phải thực hiện rửa IP càng sớm càng tốt.

Ngoài ra, bằng cách liên tục thăm các trang web có thể có ích, các công ty trí tuệ nhân tạo có thể hy vọng cải thiện khả năng hiện không tốt để trả lời thông tin và chính xác cho các tình huống mới xuất hiện.

Trong mọi trường hợp, dường như có một số giá trị trong việc cho rằng những hành vi này đã không được kiểm soát và không thể quản lý trong một thời gian.

Vấn đề là, không dễ dàng để chứng minh mức độ mà các công ty trí tuệ nhân tạo đang đi để thỏa mãn cơn khát dữ liệu của họ.

Theo Dõi Dữ Liệu

Một đề xuất, được đề xuất trong một bài báo mới từ Mỹ, đưa ra một biến thể của phương pháp cũ để phát hiện gián điệp, thông tin và các hành vi không đúng mực khác: tiết lộ thông tin tùy chỉnh cho họ và xem liệu thông tin đó có xuất hiện hay không.
Nếu không ai khác biết thông tin đó, thì nguồn gốc của sự rò rỉ đã được chứng minh:

Ý tưởng cốt lõi của các nhà nghiên cứu, được mô tả trong bài báo mới, là cung cấp cho mỗi bot một phiên bản khác nhau của cùng một trang, sau đó hỏi các bot về trang đó và xem phiên bản nào được trả lại, giúp có thể theo dõi các cuộc thăm web ẩn đã cung cấp câu trả lời. Nguồn

Phương pháp này phổ biến có lẽ được biết đến nhiều nhất thông qua các biện pháp chống vi phạm bản quyền được採 dụng bởi Ủy ban Giải thưởng Hàn lâm vào những năm 2000, trong đó các bản sao DVD được gửi đến các thành viên bầu cử đã được mã hóa kỹ thuật số với các ID duy nhất có thể được quy kết lại cho người nhận ban đầu nếu bộ phim bị rò rỉ lên internet. Trong gián điệp, kỹ thuật này được gọi là bữa ăn bari, sau khi sử dụng một chất lỏng đồng vị phóng xạ để chiếu sáng các mạch máu trong một quét y tế và xác định các tắc nghẽn.

(Ironically, ẩn dụ “con chim canary” không phù hợp lắm với kịch bản mà bài báo giải quyết, mặc dù nó dễ nhận biết hơn bất kỳ trope nào được đề cập trước đó)

Trong trường hợp của nghiên cứu mới, các tác giả đã tạo ra 20 tên miền web “mồi” và cung cấp các token duy nhất cho mỗi khách truy cập duy nhất, để mỗi khách truy cập sẽ được cung cấp các sự kiện khác nhau (xem cột thứ hai từ trái trong hình ảnh trên).

Mục tiêu là tiết lộ danh tính thực sự và hành vi của các bộ thu thập dữ liệu LLM (trí tuệ nhân tạo).

Hành Vi Không Đúng Mực

Tất nhiên, không cần phải làm điều này nếu chúng ta không còn trong giai đoạn “đông tây” của trí tuệ nhân tạo V3, và nếu các công ty thực sự tuân thủ các tệp văn bản nhỏ mà các tên miền có thể sử dụng để thông báo cho các công ty trí tuệ nhân tạo không thu thập dữ liệu của họ.

Trong các thử nghiệm của các nhà nghiên cứu, chỉ có một công ty trí tuệ nhân tạo dường như tôn trọng hành vi và nguyên tắc của chính họ: DuckDuckbot của DuckDuckGo là đại lý duy nhất thể hiện chính xác và ngừng báo cáo “dữ liệu bí mật” ngay sau khi tên miền mục tiêu bị tắt (các công ty trí tuệ nhân tạo khác sử dụng các phiên bản được lưu trong bộ nhớ đệm và các thủ thuật khác) hoặc tệp robots.txt của tên miền được thay đổi để từ chối thu thập dữ liệu trí tuệ nhân tạo.

Nhiều người chơi lớn nhất thay vào đó giả mạo các ID trình duyệt chung (giống như một trang web sẽ thấy nếu bạn hoặc tôi truy cập chúng), và – theo đường lối năm 2025 của Perplexity về hành vi này – giả mạo GoogleBot, đã từng có “hộ chiếu vàng” để truy cập dữ liệu trang web vì nó trả lại (lưu ý thì hiện tại là thì quá khứ, vì điều này đang thay đổi) lưu lượng truy cập để đổi lấy dữ liệu.

Kẻ vi phạm tồi tệ nhất, theo bài báo, là bộ thu thập dữ liệu cho đại sinh thái học Kimi:

‘Kimi dường như là trường hợp cực đoan nhất của hành vi này: nhiều tác nhân người dùng dường như liên quan đến dữ liệu đầu ra bởi Kimi. Chúng tôi suy luận rằng Kimi quay qua một danh sách lớn các chuỗi tác nhân người dùng trong khi thu thập dữ liệu, có thể để tránh phát hiện bot.’

Điều khiến vấn đề này trở thành một thách thức lớn là khi các công cụ như ChatGPT hoặc các công cụ tương tự “tìm kiếm một cái gì đó”, quá trình đó chủ yếu là vô hình, với các công ty chỉ cung cấp các tài khoản một phần hoặc tự báo cáo về cách hệ thống của họ thu thập thông tin trực tiếp. Điều này khiến các chủ sở hữu trang web không có cách rõ ràng để biết bot nào đang thực sự truy cập trang web của họ, liệu các lần truy cập đó có trực tiếp hay được định tuyến qua các công cụ tìm kiếm, hay dữ liệu đó sẽ kết thúc ở đâu trong một câu trả lời cuối cùng.

Các phát hiện từ nghiên cứu mới cho thấy rằng các LLM có thể sử dụng các mục nhập được lưu trong bộ nhớ đệm từ một tên miền, các danh sách phong cách SEO nội bộ, và thường xuyên sử dụng thông tin từ kết quả tìm kiếm của các công ty mà trong nhiều trường hợp, họ không có hiệp hội công khai, và không có thỏa thuận sử dụng rõ ràng.

Các tác giả tin rằng đây là lần đầu tiên một công việc đã giải quyết sự xâm nhập không mong muốn bởi các hệ thống RAG (các cuộc gọi trực tiếp tại thời điểm suy luận từ LLM có thể có hoặc không có người dùng làm việc), thay vì các bot thu thập dữ liệu tìm kiếm vật liệu mới cho các tập dữ liệu đào tạo.

Bài báo mới được gọi là Xác định các bộ thu thập dữ liệu web trí tuệ nhân tạo bằng cách sử dụng các token canary, và đến từ sáu nhà nghiên cứu trên Đại học Duke, Đại học Pittsburgh, và Carnegie Mellon.

Phương Pháp

Các nhà nghiên cứu đã thiết lập 20 tên miền .com với các trang web tương tự dưới các mẫu chung, chẳng hạn như một danh mục nghệ thuật hoặc một trang web công ty. Mỗi mẫu chứa 10 chỗ dành cho các token duy nhất sẽ được tạo ra cho mỗi khách truy cập (dựa trên các yếu tố như địa chỉ IP, dấu vân tay canvas và các phương pháp “ngửi” khác):

Một ví dụ về mẫu và các biến được sử dụng trong thí nghiệm. Mỗi khách truy cập duy nhất sẽ nhận được các biến tùy chỉnh, cá nhân hóa.

Mỗi khách truy cập duy nhất sẽ nhận được các biến tùy chỉnh. Trong trường hợp hệ thống phát hiện sự quay lại của một khách truy cập trước đó, các biến giống như trước sẽ được trình bày lại. Các biến được tạo ra bằng cách sử dụng thư viện Faker của Python, cũng như (không xác định) các máy tạo số ngẫu nhiên.

Các tên miền “mồi” sau đó được gửi đến các chỉ mục như Google và Bing, và cũng được liên kết từ các tên miền khác mà các tác giả kiểm soát.

Hai tháng đã được cho phép trôi qua, như một khoảng thời gian cần thiết để cho phép tần suất quét từ một loạt các bot tìm kiếm và các bot tương tự, cũng như (có thể) các lần truy cập hữu cơ. Tại thời điểm này, các nhà nghiên cứu hiện đang ở vị trí để hỏi các bot trò chuyện trí tuệ nhân tạo được nhắm mục tiêu (danh sách dưới đây):

Bot trò chuyện trí tuệ nhân tạo	Nhà xuất bản
ChatGPT	OpenAI
Claude	Anthropic
Copilot	Microsoft
Deepseek	Deepseek
Duck.ai	DuckDuckGo
ERNIE	Baidu
Gemini	Google
GLM	Z.AI
Granite	IBM
Grok	xAI
Hunyuan	Tencent

Bot trò chuyện trí tuệ nhân tạo	Nhà xuất bản
Kimi	MoonshotAI
Liquid	Liquid
Llama	Meta
Mistral	Mistral
Nova	Amazon
Perplexity	Perplexity
Qwen	Alibaba
Reka	Reka
Solar	Upstage
Step-3	StepFun
Venice	Venice

Các kịch bản đã được xây dựng để hỏi từng hệ thống, thông qua API, khi có thể. Khi điều này không thể, và khi các giải pháp tự động như Selenium bị chặn bởi các quy trình phát hiện của cổng trí tuệ nhân tạo, các tương tác thủ công qua GUI chính thức của LLM đã được thực hiện.

Sau khi trao đổi được mã hóa ban đầu (xem hình ảnh trên), các tác giả đã thực hiện một lời nhắc thứ hai được thiết kế để kích hoạt tên của một công ty hoặc một người trong một token liên quan.

Thí nghiệm được thực hiện trong một trong ba điều kiện: một trang web có thể truy cập được hoàn toàn; trang web bị tắt; và trang web với một hạn chế robots.txt đẩy lùi việc thu thập dữ liệu. Những thí nghiệm này được thực hiện theo trình tự chính xác, một sau另 một, vì các giai đoạn sau phụ thuộc vào các giai đoạn trước.

Cuối cùng, với tất cả các trang web được bật lại trực tuyến, giai đoạn cuối cùng sẽ kiểm tra lại đầu ra của LLM tại các khoảng thời gian một tuần.

Kết Quả

Bốn trong số các LLM mục tiêu đã chứng minh được hoàn toàn kháng với các phương pháp của các nhà nghiên cứu, và không có kết quả nào có thể được thu được cho DeepSeek, Hunyuan, GLM, và Liquid.

Về xu hướng của nhiều bot trí tuệ nhân tạo giả mạo lưu lượng truy cập không phải trí tuệ nhân tạo, các tác giả tuyên bố:

‘Ngoài các tác nhân được khai báo đầu tiên, một số hệ thống trí tuệ nhân tạo đã trả lại nội dung liên quan đến các chuỗi tác nhân người dùng chung. Chúng tôi quan sát thấy hành vi này trong sáu trong số 18 hệ thống trí tuệ nhân tạo mà chúng tôi đã thu thập thông tin về tác nhân người dùng.

‘Kết quả này cho thấy rằng một số hệ thống trí tuệ nhân tạo có thể thu thập nội dung trang web thông qua các yêu cầu giống như lưu lượng truy cập trình duyệt thông thường, điều này khiến việc chặn dựa trên tác nhân người dùng trở nên khó khăn.’

ERNIE trả lại cả Baiduspider và một danh tính Chrome; Grok kết hợp Googlebot với hai tác nhân trình duyệt; Solar sử dụng chỉ các danh tính trình duyệt; Qwen trộn Googlebot với Chrome; và Kimi được liên kết với nhiều tác nhân giống như trình duyệt.

Nhiều hệ thống dường như phụ thuộc vào các bộ thu thập dữ liệu tìm kiếm của bên thứ ba, trong các mối quan hệ không luôn được tiết lộ. Nội dung liên kết với Googlebot, Bingbot và Bravebot được trả lại bởi mười trong số 18 hệ thống được phân tích, thường trong các trường hợp không có hiệp hội công khai giữa nhà cung cấp trí tuệ nhân tạo và công cụ tìm kiếm – mặc dù một số liên kết, chẳng hạn như sử dụng Brave của Claude, được ghi lại.

Các tác giả cho rằng điều này phản ánh sự tiêu thụ kết quả tìm kiếm thay vì thu thập trực tiếp, vì kiểm tra ASN cho thấy lưu lượng truy cập đến từ các mạng tìm kiếm dự kiến, chứ không phải các danh tính bị làm giả.

Điều này cho thấy, bài báo khẳng định, một lớp không minh bạch khác trong đường ống từ web đến trí tuệ nhân tạo, nơi chặn các bộ thu thập dữ liệu trí tuệ nhân tạo đã biết có thể không ngăn chặn việc sử dụng dữ liệu, và tránh việc bao gồm có thể yêu cầu loại bỏ hoàn toàn khỏi chỉ mục tìm kiếm – một lựa chọn không mong muốn trong khi căng thẳng giữa SEO truyền thống và tìm kiếm dựa trên LLM vẫn chưa được giải quyết.

Chỉ Bộ Nhớ Đệm

Các tác giả sau đó đã kiểm tra xem việc loại bỏ một nguồn có ảnh hưởng đến đầu ra của bot trò chuyện hay không, bằng cách tắt các trang web thử nghiệm và hỏi lại các hệ thống sau một khoảng thời gian một tuần. Theo bài báo, nhiều bot trò chuyện tiếp tục tái tạo “nội dung được trồng” ngay cả sau một tuần ngừng hoạt động, cho thấy rằng các phản hồi được rút ra từ dữ liệu được lưu trong bộ nhớ đệm, chứ không phải từ việc thu thập trực tiếp.

Sự tồn tại này rõ ràng nhất trong các hệ thống gắn liền với các bộ thu thập dữ liệu tìm kiếm, nơi nội dung đã được lập chỉ mục trước đó vẫn có sẵn, mặc dù các trang web nguồn không còn khả dụng – mặc dù hành vi tương tự cũng được quan sát trong các hệ thống liên kết với các tác nhân giống như trình duyệt, cho thấy rằng việc lưu trữ dữ liệu có thể mở rộng beyond các đường ống hỗ trợ tìm kiếm.

Bài báo cho rằng một khi nội dung đi vào bộ nhớ đệm, cho dù được duy trì bởi bot trò chuyện hay được truy cập thông qua các chỉ mục tìm kiếm, việc loại bỏ trang web gốc không loại bỏ đáng tin cậy nội dung đó khỏi các đầu ra sau này.

Kết Luận

Các tác giả thừa nhận rằng một số “rò rỉ” sẽ xảy ra từ cách tiếp cận “tự chứa” này, vì các token duy nhất nhằm vào một LLM có thể đôi khi kết thúc trong kết quả tìm kiếm (được tạo bởi chủ sở hữu thực sự của các token), sau đó được tiêu thụ bởi một LLM khác. Tuy nhiên, trong những kế hoạch như vậy, sự khuếch tán của loại này là không thể tránh khỏi, và sự cảnh giác cho lần xuất hiện đầu tiên là khoảnh khắc quan trọng và có ý nghĩa.

Còn lại để xem là mức độ mà một kế hoạch như vậy có thể được thực hiện trên quy mô lớn, đặc biệt là vì, như các tác giả quan sát, một người có thể sẽ hết các token đúng ngữ cảnh rất nhanh.

Tuy nhiên, điều này bỏ qua điểm chính, vì có thể có một giới hạn ngay cả đối với sự táo bạo của các công ty trí tuệ nhân tạo trong việc mạo hiểm qua bằng chứng rõ ràng về các chính sách thu thập dữ liệu của họ. Ngoài ra, trừ khi các công ty này cam kết theo con đường tốn kém của việc lăn qua các địa chỉ IP trong nước để che giấu danh tính của họ, chỉ cần một tổ chức xác định và xuất bản một danh sách đen theo kiểu SpamHaus của các IP hoặc ASN bot trí tuệ nhân tạo không trung thực; quá trình không cần phải được công nghiệp hóa để có hiệu quả.

Được xuất bản lần đầu vào thứ Năm, ngày 14 tháng 5 năm 2026