Góc nhìn Anderson

Các Mô Hình Ngôn Ngữ Lớn Đang Nhớ Các Bộ Dữ Liệu Được Sử Dụng Để Kiểm Tra Chúng

Published May 16, 2025

Updated April 26, 2026

Martin Anderson

'Robot cheating in an exam' - ChatGPT-4o and Adobe Firefly

Nếu bạn dựa vào AI để giới thiệu những gì để xem, đọc, hoặc mua, nghiên cứu mới cho thấy rằng một số hệ thống có thể dựa vào những kết quả này từ nhớ chứ không phải từ kỹ năng: thay vì học cách đưa ra những gợi ý hữu ích, các mô hình thường nhớ lại các mục từ các bộ dữ liệu được sử dụng để đánh giá chúng, dẫn đến hiệu suất bị đánh giá cao và các gợi ý có thể đã lỗi thời hoặc không phù hợp với người dùng.

Trong học máy, một phân chia kiểm tra được sử dụng để xem liệu một mô hình đã được đào tạo có học cách giải quyết các vấn đề tương tự nhưng không giống hệt với tài liệu nó được đào tạo trên hay không.

Vì vậy, nếu một mô hình mới về nhận dạng giống chó được đào tạo trên một bộ dữ liệu gồm 100.000 bức ảnh của chó, nó thường có tỷ lệ chia 80/20 – 80.000 bức ảnh được cung cấp để đào tạo mô hình; và 20.000 bức ảnh được giữ lại và sử dụng làm tài liệu để kiểm tra mô hình hoàn chỉnh.

Đương nhiên, nếu dữ liệu đào tạo của AI vô tình bao gồm phần 20% ‘bí mật’ của phân chia kiểm tra, mô hình sẽ đạt điểm tuyệt đối trong các bài kiểm tra này, vì nó đã biết câu trả lời (nó đã xem 100% dữ liệu miền).

Tất nhiên, điều này không phản ánh chính xác cách mô hình sẽ hoạt động sau này, trên dữ liệu ‘trực tiếp’ mới, trong một môi trường sản xuất.

Spoiler Phim

Vấn đề về việc AI gian lận trong các kỳ thi của nó đã tăng cùng với quy mô của các mô hình chính nó. Bởi vì các hệ thống ngày nay được đào tạo trên các tập dữ liệu web được thu thập vội vàng và không phân biệt như Common Crawl, khả năng rằng các tập dữ liệu chuẩn (tức là 20% được giữ lại) bị lẫn vào hỗn hợp đào tạo không còn là trường hợp ngoại lệ, mà là mặc định – một hội chứng được biết đến như ô nhiễm dữ liệu; và ở quy mô này, việc kiểm tra thủ công có thể bắt lỗi như vậy là không thể về mặt hậu cần.

Trường hợp này được khám phá trong một bài báo mới từ Politecnico di Bari của Ý, nơi các nhà nghiên cứu tập trung vào vai trò không cân đối của một bộ dữ liệu gợi ý phim đơn, MovieLens-1M, mà họ cho rằng đã được ghi nhớ một phần bởi một số mô hình AI hàng đầu trong quá trình đào tạo.

Bởi vì bộ dữ liệu này được sử dụng rộng rãi trong việc kiểm tra các hệ thống gợi ý, sự hiện diện của nó trong bộ nhớ của mô hình có thể làm cho các bài kiểm tra này trở nên vô nghĩa: những gì có vẻ như là trí thông minh có thể thực sự chỉ là nhớ lại, và những gì trông giống như một kỹ năng gợi ý trực giác có thể chỉ là một hồi âm thống kê phản ánh sự phơi sáng trước đó.

Các tác giả tuyên bố:

‘Các phát hiện của chúng tôi cho thấy rằng LLMs có kiến thức rộng lớn về bộ dữ liệu MovieLens-1M, bao gồm các mục, thuộc tính người dùng và lịch sử tương tác.

‘Đáng chú ý, một lời nhắc đơn giản cho phép GPT-4o khôi phục gần 80% các bản ghi MovieID::Title. Không có mô hình nào trong số các mô hình được kiểm tra là không có kiến thức này, cho thấy rằng dữ liệu MovieLens-1M có thể được bao gồm trong các tập dữ liệu đào tạo của chúng.

‘Chúng tôi quan sát thấy xu hướng tương tự trong việc thu hồi thuộc tính người dùng và lịch sử tương tác.’

Bài báo ngắn mới có tiêu đề Liệu LLMs Có Nhớ Các Bộ Dữ Liệu Gợi Ý?, và đến từ sáu nhà nghiên cứu của Politecnico. Đường ống để tái tạo công việc của họ đã được đặt sẵn tại GitHub.

Phương Pháp

Để hiểu liệu các mô hình đang hỏi có thực sự học hỏi hay chỉ nhớ lại, các nhà nghiên cứu bắt đầu bằng cách định nghĩa những gì nhớ lại có nghĩa là trong ngữ cảnh này, và bắt đầu bằng cách kiểm tra xem một mô hình có thể thu hồi các mảnh thông tin cụ thể từ bộ dữ liệu MovieLens-1M khi được hỏi một cách chính xác.

Nếu một mô hình được hiển thị mã ID của một bộ phim và có thể tạo ra tiêu đề và thể loại của nó, điều đó được tính là nhớ lại một mục; nếu nó có thể tạo ra chi tiết về một người dùng (chẳng hạn như tuổi, nghề nghiệp hoặc mã zip) từ mã ID người dùng, điều đó cũng được tính là nhớ lại người dùng; và nếu nó có thể tái tạo xếp hạng phim tiếp theo của một người dùng từ một chuỗi xếp hạng trước đó, nó được coi là bằng chứng rằng mô hình có thể nhớ lại dữ liệu tương tác cụ thể, chứ không phải học các mẫu chung.

Mỗi hình thức nhớ lại này được kiểm tra bằng cách sử dụng các lời nhắc được viết cẩn thận, được thiết kế để đẩy mô hình mà không cung cấp thông tin mới. Càng nhiều câu trả lời chính xác, càng có nhiều khả năng mô hình đã gặp dữ liệu đó trong quá trình đào tạo:

Zero-shot prompting cho giao thức đánh giá được sử dụng trong bài báo mới. Source: https://arxiv.org/pdf/2505.10212

Dữ Liệu và Kiểm Tra

Để tạo ra một bộ dữ liệu phù hợp, các tác giả đã khảo sát các bài báo gần đây từ hai hội nghị lớn trong lĩnh vực này, ACM RecSys 2024 và ACM SIGIR 2024. MovieLens-1M xuất hiện thường nhất, được trích dẫn trong hơn một phần năm số gửi.

Kể từ khi các nghiên cứu trước đã đạt được kết luận tương tự, điều này không phải là kết quả bất ngờ, mà là một xác nhận về sự thống trị của bộ dữ liệu.

MovieLens-1M bao gồm ba tệp: Movies.dat, liệt kê các bộ phim theo ID, tiêu đề và thể loại; Users.dat, ánh xạ mã ID người dùng đến các trường sinh học cơ bản; và Ratings.dat, ghi lại ai đã xếp hạng cái gì và khi nào.

Để tìm hiểu xem dữ liệu này đã được nhớ lại bởi các mô hình ngôn ngữ lớn hay không, các nhà nghiên cứu đã sử dụng các kỹ thuật nhắc nhở đầu tiên được giới thiệu trong bài báo Trích xuất Dữ Liệu Đào Tạo từ Các Mô Hình Ngôn Ngữ Lớn, và sau đó được điều chỉnh trong công việc tiếp theo Túi Mẹo cho Trích Xuất Dữ Liệu Đào Tạo từ Mô Hình Ngôn Ngữ.

Phương pháp là trực tiếp: đặt một câu hỏi phản ánh định dạng bộ dữ liệu và xem mô hình có trả lời chính xác hay không. Zero-shot, Chain-of-Thought, và few-shot prompting được kiểm tra, và nó được phát hiện ra rằng phương pháp cuối cùng, trong đó mô hình được hiển thị một vài ví dụ, là phương pháp hiệu quả nhất; ngay cả khi các phương pháp tinh vi hơn có thể cho kết quả nhớ lại cao hơn, điều này được coi là đủ để tiết lộ những gì đã được nhớ lại.

Few-shot prompt được sử dụng để kiểm tra xem mô hình có thể tái tạo các giá trị MovieLens-1M cụ thể khi được hỏi với ngữ cảnh tối thiểu.

Để đo lường việc nhớ lại, các nhà nghiên cứu đã định nghĩa ba hình thức nhớ lại: mục, người dùng, và tương tác. Những kiểm tra này đã xem xét liệu một mô hình có thể thu hồi tiêu đề của một bộ phim từ mã ID của nó, tạo ra chi tiết người dùng từ mã ID người dùng, hoặc dự đoán xếp hạng tiếp theo của một người dùng dựa trên các xếp hạng trước đó. Mỗi kiểm tra được tính điểm bằng một chỉ số bao phủ* phản ánh bao nhiêu phần của bộ dữ liệu có thể được tái tạo thông qua việc nhắc nhở.

Các mô hình được kiểm tra là GPT-4o; GPT-4o mini; GPT-3.5 turbo; Llama-3.3 70B; Llama-3.2 3B; Llama-3.2 1B; Llama-3.1 405B; Llama-3.1 70B; và Llama-3.1 8B. Tất cả đều được chạy với nhiệt độ được đặt thành zero, top_p được đặt thành một, và cả tần suất và sự hiện diện bị phạt đã bị tắt. Một hạt giống ngẫu nhiên cố định đảm bảo đầu ra nhất quán trên các lần chạy.

Tỷ lệ mục nhập MovieLens-1M được thu hồi từ movies.dat, users.dat và ratings.dat, với các mô hình được nhóm theo phiên bản và sắp xếp theo số lượng tham số.

Để kiểm tra xem bộ dữ liệu MovieLens-1M đã được hấp thụ sâu đến mức nào, các nhà nghiên cứu đã nhắc nhở từng mô hình về các mục nhập chính xác từ ba tệp (đã đề cập) của bộ dữ liệu: Movies.dat, Users.dat và Ratings.dat.

Kết quả từ các kiểm tra ban đầu, được hiển thị ở trên, cho thấy sự khác biệt rõ ràng không chỉ giữa các gia đình GPT và Llama, mà còn giữa các kích thước mô hình. Trong khi GPT-4o và GPT-3.5 turbo thu hồi các phần lớn của bộ dữ liệu một cách dễ dàng, hầu hết các mô hình mã nguồn mở chỉ nhớ lại một phần nhỏ của cùng một tài liệu, cho thấy sự tiếp xúc không đồng đều với bộ dữ liệu chuẩn này trong quá trình tiền đào tạo.

Đây không phải là những biên độ nhỏ. Trên cả ba tệp, các mô hình mạnh nhất không chỉ vượt trội so với các mô hình yếu hơn, mà còn nhớ lại các phần toàn bộ của MovieLens-1M.

Trong trường hợp của GPT-4o, phạm vi bao phủ đủ cao để cho thấy rằng một phần đáng kể của bộ dữ liệu đã được nhớ lại trực tiếp.

Các tác giả tuyên bố:

‘Chúng tôi quan sát thấy xu hướng tương tự trong việc thu hồi thuộc tính người dùng và lịch sử tương tác.’

Tiếp theo, các tác giả đã kiểm tra tác động của việc nhớ lại đối với các nhiệm vụ gợi ý bằng cách nhắc nhở từng mô hình để hoạt động như một hệ thống gợi ý. Để chuẩn hóa hiệu suất, họ đã so sánh đầu ra với bảy phương pháp chuẩn: UserKNN; ItemKNN; BPRMF; EASE^R; LightGCN; MostPop; và Random.

Bộ dữ liệu MovieLens-1M được chia 80/20 thành tập đào tạo và tập kiểm tra, sử dụng một chiến lược lấy mẫu leave-one-out để mô phỏng việc sử dụng trong thế giới thực. Các chỉ số được sử dụng là Tỷ Lệ Hit (HR@[n]); và nDCG(@[n]):

Độ chính xác của gợi ý trên các phương pháp chuẩn và phương pháp dựa trên LLM. Các mô hình được nhóm theo gia đình và sắp xếp theo số lượng tham số. Các giá trị in đậm chỉ ra điểm số cao nhất trong mỗi nhóm.

Độ chính xác của gợi ý trên các phương pháp chuẩn và phương pháp dựa trên LLM. Các mô hình được nhóm theo gia đình và sắp xếp theo số lượng tham số, với các giá trị in đậm chỉ ra điểm số cao nhất trong mỗi nhóm.

Ở đây, một số mô hình ngôn ngữ lớn đã vượt trội so với các phương pháp chuẩn truyền thống trên tất cả các chỉ số, với GPT-4o thiết lập một lợi thế rộng trên mọi cột, và thậm chí các mô hình cỡ trung như GPT-3.5 turbo và Llama-3.1 405B cũng liên tục vượt qua các phương pháp chuẩn như BPRMF và LightGCN.

Trong số các biến thể Llama nhỏ hơn, hiệu suất thay đổi mạnh, nhưng Llama-3.2 3B nổi bật, với HR@1 cao nhất trong nhóm của nó.

Kết quả, các tác giả cho rằng, cho thấy rằng dữ liệu được nhớ lại có thể chuyển thành lợi thế đo lường được trong việc gợi ý, đặc biệt là đối với các mô hình mạnh nhất.

Trong một quan sát bổ sung, các nhà nghiên cứu tiếp tục:

‘Mặc dù hiệu suất gợi ý có vẻ vượt trội, việc so sánh Bảng 2 với Bảng 1 cho thấy một mẫu thú vị. Trong mỗi nhóm, mô hình có nhớ lại cao hơn cũng thể hiện hiệu suất vượt trội trong nhiệm vụ gợi ý.

‘Ví dụ, GPT-4o vượt trội so với GPT-4o mini, và Llama-3.1 405B vượt qua Llama-3.1 70B và 8B.

‘Những kết quả này cho thấy rằng việc đánh giá LLMs trên các bộ dữ liệu bị rò rỉ trong dữ liệu đào tạo của chúng có thể dẫn đến hiệu suất quá lạc quan, được thúc đẩy bởi việc nhớ lại chứ không phải bởi sự khái quát hóa.’

Về tác động của quy mô mô hình đối với vấn đề này, các tác giả quan sát thấy một mối tương quan rõ ràng giữa kích thước, nhớ lại và hiệu suất gợi ý, với các mô hình lớn hơn không chỉ nhớ lại nhiều hơn bộ dữ liệu MovieLens-1M, mà còn hoạt động mạnh hơn trong các nhiệm vụ hạ nguồn.

Llama-3.1 405B, ví dụ, cho thấy tỷ lệ nhớ lại trung bình là 12,9%, trong khi Llama-3.1 8B chỉ nhớ lại 5,82%. Sự giảm này gần 55% trong việc nhớ lại tương ứng với sự giảm 54,23% trong nDCG và giảm 47,36% trong HR trên các điểm cắt đánh giá.

Mẫu này được giữ trên toàn bộ – nơi nhớ lại giảm, hiệu suất biểu kiến cũng giảm:

‘Những phát hiện này cho thấy rằng việc tăng quy mô mô hình dẫn đến việc nhớ lại nhiều hơn bộ dữ liệu, dẫn đến hiệu suất tốt hơn.

‘Do đó, trong khi các mô hình lớn hơn thể hiện hiệu suất gợi ý tốt hơn, chúng cũng tạo ra rủi ro liên quan đến việc rò rỉ dữ liệu đào tạo.’

Kiểm tra cuối cùng đã xem xét liệu việc nhớ lại có phản ánh sự thiên vị về sự phổ biến được nướng vào MovieLens-1M hay không. Các mục được nhóm theo tần suất tương tác, và biểu đồ dưới đây cho thấy rằng các mô hình lớn hơn nhất quán ủng hộ các mục nhập phổ biến nhất:

Sự bao phủ mục theo mô hình trên ba cấp độ phổ biến: 20% mục phổ biến nhất; 20% mục vừa phải; và 20% mục ít tương tác nhất.

GPT-4o thu hồi 89,06% mục hàng đầu nhưng chỉ 63,97% mục ít phổ biến nhất. GPT-4o mini và các mô hình Llama nhỏ hơn cho thấy sự bao phủ thấp hơn trên tất cả các băng tần. Các nhà nghiên cứu cho rằng xu hướng này cho thấy rằng việc nhớ lại không chỉ tăng theo kích thước mô hình, mà còn khuếch đại sự mất cân bằng đã có trong dữ liệu đào tạo.

Họ tiếp tục:

‘Các phát hiện của chúng tôi cho thấy sự thiên vị về sự phổ biến rõ ràng trong LLMs, với 20% mục phổ biến nhất được dễ dàng thu hồi hơn 20% mục ít tương tác nhất.

‘Xu hướng này cho thấy sự ảnh hưởng của phân bố dữ liệu đào tạo, nơi các bộ phim phổ biến được đại diện quá mức, dẫn đến việc chúng được nhớ lại không cân đối bởi các mô hình.’

Kết Luận

Vấn đề không còn mới: khi các tập dữ liệu đào tạo tăng lên, khả năng kiểm tra chúng giảm xuống theo tỷ lệ nghịch. MovieLens-1M, có thể cùng với nhiều bộ dữ liệu khác, đi vào những tập hợp dữ liệu khổng lồ này mà không có sự giám sát, vô danh giữa khối lượng dữ liệu.

Vấn đề này lặp lại ở mọi quy mô và chống lại việc tự động hóa. Bất kỳ giải pháp nào cũng đòi hỏi không chỉ nỗ lực mà còn đòi hỏi sự phán quyết của con người – loại chậm và dễ sai mà máy móc không thể cung cấp. Trong khía cạnh này, bài báo mới không cung cấp cách tiến bộ.

* Chỉ số bao phủ trong ngữ cảnh này là một tỷ lệ phần trăm cho thấy mô hình ngôn ngữ có thể tái tạo bao nhiêu phần của bộ dữ liệu gốc khi được hỏi một câu hỏi phù hợp. Nếu một mô hình được nhắc với mã ID của một bộ phim và trả lời với tiêu đề và thể loại chính xác, điều đó được tính là một nhớ lại thành công. Tổng số nhớ lại thành công sau đó được chia cho tổng số mục trong bộ dữ liệu để tạo ra một điểm số bao phủ. Ví dụ, nếu một mô hình trả lời chính xác thông tin cho 800 trong số 1.000 mục, điểm số bao phủ của nó sẽ là 80 phần trăm.

Được xuất bản lần đầu vào thứ Sáu, ngày 16 tháng 5 năm 2025

Martin Anderson

Nhà văn về học máy, chuyên gia lĩnh vực tổng hợp hình ảnh con người. Cựu trưởng nhóm nội dung nghiên cứu tại Metaphysic.ai.
Trang cá nhân: martinanderson.ai
Liên hệ: [email protected]

Unite.AI

Các Mô Hình Ngôn Ngữ Lớn Đang Nhớ Các Bộ Dữ Liệu Được Sử Dụng Để Kiểm Tra Chúng

Spoiler Phim

Phương Pháp

Dữ Liệu và Kiểm Tra

Kết Luận

You may like