Góc nhìn Anderson
Ô nhiễm AI trong Kết quả Tìm kiếm Risks ‘Sụp đổ Truy xuất’

Khi nội dung AI làm ô nhiễm web, một vector tấn công mới mở ra trong chiến trường đồng thuận văn hóa.
Nghiên cứu do một công ty tìm kiếm Hàn Quốc dẫn đầu cho rằng khi các trang được tạo bởi AI xâm chiếm vào kết quả tìm kiếm, chúng làm suy yếu sự ổn định của tìm kiếm và xếp hạng đường ống và làm yếu hệ thống – như Retrieval-Augmented Generation (RAG) – mà phụ thuộc vào những xếp hạng đó để quyết định thông tin nào được hiển thị và đáng tin cậy, do đó làm tăng rủi ro rằng thông tin sai lệch hoặc không chính xác sẽ được coi là có thẩm quyền.
Thuật ngữ được tạo ra cho hội chứng này bởi các nhà nghiên cứu là Sụp đổ Truy xuất, như là khác biệt với mối đe dọa đã biết của sụp đổ mô hình (trong đó AI được đào tạo trên đầu ra của chính nó trở nên tồi tệ hơn theo thời gian).
Trong một kịch bản Sụp đổ Truy xuất, nội dung được tạo bởi AI tiến bộ chiếm ưu thế trong kết quả tìm kiếm, đến mức mà ngay cả khi câu trả lời vẫn còn chính xác trên bề mặt, cơ sở bằng chứng cơ bản sẽ trở nên ly khai với nguồn gốc của con người. Tuy nhiên, những dữ liệu ‘thiếu gốc’ này dường như đang sẵn sàng đạt được vị trí cao trong kết quả tìm kiếm*:
‘Với sự phổ biến của văn bản được tạo bởi AI, thử thách trong việc quy kết và chất lượng dữ liệu trước khi đào tạo đã tăng cường. Không giống như spam từ khóa truyền thống , nội dung tổng hợp hiện đại là nhất quán về mặt ngữ nghĩa, cho phép nó hòa nhập vào hệ thống xếp hạng và lan truyền qua đường ống như bằng chứng có thẩm quyền.’
Bản báo cáo khẳng định rằng điều này sẽ tạo ra một môi trường ‘giòn về cấu trúc’ trong đó tín hiệu xếp hạng ưa thích các trang được sản xuất bởi AI, tối ưu hóa SEO, thay thế nguồn gốc của con người theo thời gian một cách tinh vi, tức là không kích hoạt sự sụt giảm rõ ràng về chất lượng câu trả lời:
‘Sự [tăng trưởng] của nội dung được tạo bởi AI trên Web tạo ra một rủi ro cấu trúc đối với việc thu thập thông tin, vì các công cụ tìm kiếm và hệ thống RAG ngày càng tiêu thụ bằng chứng được tạo ra bởi các Mô hình Ngôn ngữ Lớn (LLM).’
‘Chúng tôi mô tả chế độ thất bại ở cấp độ hệ sinh thái này là Sụp đổ Truy xuất, một quá trình hai giai đoạn trong đó (1) nội dung được tạo bởi AI chiếm ưu thế trong kết quả tìm kiếm, xói mòn sự đa dạng của nguồn gốc, và (2) nội dung chất lượng thấp hoặc đối đầu xâm nhập vào đường ống thu thập.’
Các nhà nghiên cứu cho rằng một khi giai đoạn ‘chiếm ưu thế’ được thiết lập, chính đường ống thu thập trở nên dễ bị tổn thương hơn đối với ô nhiễm có chủ ý, vì các trang đối đầu có thể khai thác cùng một cơ chế tối ưu hóa để đạt được khả năng hiển thị*:
‘Bằng cách thiết lập khuôn khổ của Sụp đổ Truy xuất, công việc này đặt nền tảng cho việc hiểu cách nội dung tổng hợp thay đổi việc thu thập thông tin. Để giảm thiểu những rủi ro này, chúng tôi đề xuất một sự thay đổi hướng đến Chiến lược Xếp hạng Phòng thủ mà tối ưu hóa đồng thời sự liên quan, tính thực tế và nguồn gốc.’
Sụp đổ Truy xuất có thể làm trầm trọng thêm sụp đổ mô hình, vì nó thêm một lớp ý định độc hại vào ‘hiệu ứng sao chép’ của entropy, nơi AI ngày càng cho ăn vào đầu ra được tạo bởi AI. Ngoài việc ảnh hưởng đến sự đồng thuận rõ ràng về ‘sự thật’ trong kết quả tìm kiếm thời gian thực, sự không chính xác và các cuộc tấn công có thể sau đó được ghi lại trong các LLM được đào tạo như nguồn có thẩm quyền.
Công việc mới này có tiêu đề Sụp đổ Truy xuất Khi AI Ô nhiễm Web, và đến từ ba nhà nghiên cứu tại Naver Corporation.
Phương pháp
Để kiểm tra cách nội dung được tạo bởi AI lan truyền qua hệ thống thu thập, các nhà nghiên cứu đã lấy mẫu ngẫu nhiên 1000 cặp câu hỏi/câu trả lời từ MS MARCO dữ liệu và điểm chuẩn, bao gồm các câu hỏi phạm vi mở được ghép với câu trả lời tham chiếu đã được xác thực bởi con người. Những thứ này được sử dụng để cố định thu thập và đánh giá tính chính xác của câu trả lời được tạo.
Mô phỏng Trang trại Nội dung
Để mô phỏng mức chất lượng (của các bài viết thông thường, không đối đầu) liên kết với trang trại nội dung, các tác giả đã sử dụng mô hình GPT-5 Nano của OpenAI để thực sự tạo ra các bài viết tổng hợp mới, vì đây là mức ‘tiết kiệm’ của AI có thể được sử dụng bởi các nhà máy nội dung. GPT-5 Mini, được sử dụng để đánh giá đầu ra, là một mô hình稍稍 mạnh mẽ hơn.
Kết quả
Các tác giả đã kiểm tra phương pháp của họ chống lại hồ bơi tài liệu ban đầu được trích xuất từ SERPS, tức là trước khi chúng được sử dụng làm vật liệu để tạo ra dữ liệu tổng hợp, và họ lưu ý rằng trình xếp hạng LLM của họ đã đạt được ‘chất lượng thu thập mạnh mẽ’, vượt qua dấu vết BM25 cơ sở.
Kết luận
Thiết lập các phương pháp mới hoặc cải tiến cho nguồn gốc thông tin có thể là một trong những nhu cầu quan trọng nhất cho năm 2026. Các sơ đồ tín chỉ phức tạp như ailing C2PA, yêu cầu thay đổi cơ sở hạ tầng từ các nhà xuất bản, và giáo dục công cộng về những gì chúng có nghĩa và làm thế nào hoặc tại sao sử dụng chúng, dường như bị lỗi.
Một thứ đơn giản hơn là cần thiết, và nó chưa được tìm thấy. Đó là một nhiệm vụ cấp bách, vì thời đại này có thể là điểm chuyển quan trọng nhất cho sự đồng thuận công chúng về sự thật kể từ khi phát minh ra nhiếp ảnh vào năm 1822, và sự trỗi dậy của tuyên truyền trong những thập kỷ trước Thế chiến II.
* Chuyển đổi chọn lọc của tôi (nếu cần) của các trích dẫn nội tuyến của tác giả thành liên kết.
Được xuất bản lần đầu vào thứ Năm, ngày 19 tháng 2 năm 2026










