Góc nhìn Anderson
ChatGPT-5 và Gemini 2.5 tạo ra ảo giác trong 40% số yêu cầu được thử nghiệm trong phòng tin tức

Một nghiên cứu mới cho thấy ChatGPT-5 và Google Gemini tạo ra ảo giác trong 40% số yêu cầu theo kiểu phòng tin tức, thường tạo ra các tuyên bố nghe có vẻ tự tin nhưng không được hỗ trợ bởi các事 thực có thể kiểm chứng. NotebookLM của Google có kết quả tốt hơn với chỉ 13% – một tỷ lệ vẫn đủ để sa thải bất kỳ nhà báo nào trên thế giới. Nghiên cứu cho thấy các mô hình thường xuyên làm sai lệch nguồn thông tin bằng cách biến ý kiến thành事 thực và bằng cách loại bỏ sự quy kết, khiến chúng trở thành các công cụ rủi ro cho báo chí. Các tác giả kêu gọi cần có các công cụ tốt hơn, chuyên dụng cho các nhiệm vụ này.
Các mô hình ngôn ngữ lớn đã được áp dụng nhanh chóng vào báo chí trong thời gian gần đây, trong môi trường làm việc đã cắt giảm chi phí, ngân sách và nhân viên kể từ khi báo chí địa phương sụp đổ hai thế kỷ truyền thống trong một quá trình không thể tránh khỏi bắt đầu từ đầu những năm 2000.
Trên thực tế, địa hình đã sẵn sàng, vì truyền thông đã quen với việc cắt giảm việc làm thông qua ‘đổi mới’ từ ít nhất sự giới thiệu đầy sóng gió của việc sắp chữ kỹ thuật số vào những năm 1980, cũng như những thách thức trước đó từ sự ra đời của radio và truyền hình.
Con đường không ngừng của trí tuệ nhân tạo vào các phòng tin tức và cơ quan truyền thông không phải là không có những bước lùi; trong một bối cảnh mà 55% các công ty hiện nay hối tiếc về việc thay thế con người bằng trí tuệ nhân tạo, và nơi Gartner dự đoán rằng các tổ chức sẽ cắt giảm mạnh kế hoạch áp dụng trí tuệ nhân tạo trong hai năm, một số tổ chức truyền thông đã tái tuyển các nhà báo bị thay thế bằng trí tuệ nhân tạo, vì những điểm yếu và thường xuyên nhục nhã của các giải pháp thay thế học máy trở nên rõ ràng.
Lỗi không chỉ là của con người
Mặc dù ảo giác đã chứng minh là một vấn đề lớn cho các lĩnh vực mà trích dẫn chính xác là thiết yếu (với sự chú ý công khai đáng chú ý cho các trường hợp thất bại của trí tuệ nhân tạo trong lĩnh vực pháp luật, nghiên cứu và báo chí), một nghiên cứu mới của Mỹ cho thấy rằng trí tuệ nhân tạo trong báo chí phải đối mặt với những thách thức rộng lớn hơn dự kiến.
Nghiên cứu của các tác giả đánh giá ChatGPT, Google Gemini và NotebookLM trên một nhiệm vụ báo cáo kiểu: sử dụng một tập hợp tài liệu 300 tài liệu tập trung vào诉訟 và chính sách của TikTok tại Hoa Kỳ.
Các nhà nghiên cứu thay đổi sự cụ thể của lời nhắc và số lượng tài liệu được cung cấp, sau đó phân tích kết quả bằng cách sử dụng một phân loại được thiết kế để bắt giữ loại và mức độ của ảo giác.
Trên tất cả các đầu ra, 30% chứa ít nhất một ảo giác, trong khi ChatGPT và Gemini mỗi loại đều có 40% tỷ lệ ảo giác – cao hơn khoảng ba lần so với tỷ lệ lỗi 13% của NotebookLM.
Thay vì tạo ra các事 thực hoặc thực thể, các nhà nghiên cứu lưu ý, các mô hình thường hiển thị quá tự tin, thêm các đặc điểm không được hỗ trợ và biến các ý kiến được quy kết thành các tuyên bố chung:
‘Chất lượng, hầu hết các lỗi không liên quan đến việc tạo ra các thực thể hoặc số liệu; thay vào đó, chúng tôi quan sát thấy sự quá tự tin – các mô hình thêm các đặc điểm không được hỗ trợ của nguồn và biến các ý kiến được quy kết thành các tuyên bố chung.
‘Những mẫu này tiết lộ một sự không phù hợp cơ bản về mặt nhận thức luận: Trong khi báo chí yêu cầu nguồn rõ ràng cho mọi tuyên bố, các mô hình LLM tạo ra văn bản nghe có vẻ có thẩm quyền bất kể sự hỗ trợ bằng chứng.
‘Chúng tôi đề xuất các tiện ích mở rộng dành riêng cho báo chí cho các phân loại ảo giác hiện có và lập luận rằng các công cụ hiệu quả cho phòng tin tức cần có kiến trúc bắt buộc phải có nguồn chính xác thay vì tối ưu hóa cho tính lưu loát.’
Nghiên cứu mới, một đọc hấp dẫn nhưng ngắn gọn trong năm trang, có tiêu đề Không sai, nhưng không đúng: Sự quá tự tin của LLM trong các truy vấn dựa trên tài liệu, và đến từ ba nhà nghiên cứu tại Đại học Northwestern và Đại học Minnesota.
Lý thuyết và Phương pháp
Nguyên nhân chính xác của ảo giác* vẫn còn được tranh luận tại các thời điểm khác nhau; mặc dù hầu hết các lý thuyết đều đồng ý rằng chất lượng dữ liệu và/hoặc phân phối là một yếu tố góp phần tại thời điểm đào tạo, nó đã được đề xuất rằng 100% đầu ra của LLM cơ bản là ảo giác (trừ khi một số ảo giác đó trùng hợp với thực tế).
Các tác giả quan sát†:
‘Từ góc độ kỹ thuật, ảo giác xuất hiện từ khả năng của các mô hình LLM tạo ra văn bản theo các mẫu chung mà không có hiểu biết về những gì là đúng. Đặc điểm này dẫn đến các phản hồi nghe có vẻ hợp lý nhưng không phản ánh thực tế – ví dụ, các quyết định pháp lý được tạo ra bởi LLM mà xuất hiện trong các lập luận.
‘Và trong khi khả năng của LLM đã tăng lên đáng kể trong năm năm qua, ảo giác vẫn còn là một vấn đề, trong một số trường hợp thậm chí tăng lên khi các mô hình trở nên phức tạp hơn.’
Lĩnh vực nghiên cứu, bài báo lưu ý, đã khám phá nhiều cách để giảm hoặc hiểu rõ hơn về ảo giác của LLM, thường rơi vào ba lĩnh vực chính: đầu tiên, trong kontext, các mô hình có thể được gắn với các nguồn bên ngoài như cơ sở dữ liệu, tập hợp tài liệu hoặc nội dung web để hỗ trợ các tuyên bố của chúng.
Điều này hoạt động tốt khi tài liệu là đáng tin cậy và đầy đủ, nhưng các khoảng trống, thông tin lỗi thời hoặc chất lượng dữ liệu kém vẫn gây ra lỗi; và các mô hình cũng có thói quen tạo ra các tuyên bố tự tin vượt quá những gì nguồn thực sự nói.
Thứ hai, lời nhắc và giải mã đề cập đến việc sử dụng các hướng dẫn cẩn thận để hướng dẫn các mô hình. Điều này có thể liên quan đến việc yêu cầu các mô hình kiểm tra bằng chứng của chúng, chia các nhiệm vụ thành các bước nhỏ hơn hoặc tuân theo các định dạng nghiêm ngặt hơn. Đôi khi các mô hình thậm chí được chỉ đạo để xem xét lại công việc của chúng hoặc so sánh nhiều phản hồi.
Các kỹ thuật này có thể bắt lỗi, nhưng chúng cũng tăng chi phí, và chúng thường không thể phát hiện ra các lỗi tinh vi; do đó, mà không có kiểm tra bằng chứng đáng tin cậy, gánh nặng xác minh vẫn còn trên người dùng.
Thứ ba, mô hình và công cụ đề cập đến việc cung cấp cho LLM quyền truy cập vào các tài nguyên có thể hỗ trợ xác minh, chẳng hạn như công cụ tìm kiếm hoặc máy tính – mặc dù độ chính xác cũng có thể cải thiện khi các mô hình được đào tạo trên dữ liệu có nguồn gốc hoặc khi các tính năng trích dẫn được tích hợp.
Tuy nhiên, những biện pháp này không phải là không có sai sót, và vẫn phụ thuộc vào chất lượng của nguồn, sự rõ ràng của hướng dẫn và giám sát của con người để ngăn chặn thông tin sai lệch lan truyền.
Tik Tok
Để tìm hiểu những cách tiếp cận nào có thể thực sự hữu ích cho các nhà báo, nghiên cứu đã tiến hành các đánh giá được thiết kế để phản ánh các quy trình và tiêu chuẩn của phòng tin tức, với ảo giác được kiểm tra trong bối cảnh các nhiệm vụ báo cáo điển hình.
Các mô hình tiên tiến đã được thử nghiệm bằng cách sử dụng các chiến lược lời nhắc chung và thiết lập gắn tài liệu, để cả tần suất và loại lỗi ảo giác có thể được đo lường – cùng với những gì những lỗi đó thực sự có nghĩa là cho việc tích hợp trí tuệ nhân tạo vào phòng tin tức.
Phân tích tập trung vào loại truy vấn tài liệu điển hình trong báo chí điều tra và nghiên cứu. Các tác giả đã tìm cách tạo ra một tập hợp tài liệu nhằm phản ánh một dự án phòng tin tức nhỏ đến trung bình, nhưng vẫn đủ lớn để bắt giữ sự phức tạp của báo chí thực tế; vì vậy, họ đã chọn nỗ lực pháp lý đang diễn ra để cấm TikTok ở Hoa Kỳ.
Tài liệu đã được thu thập từ Washington Post, New York Times, ProQuest và Westlaw, kết quả là một tập hợp 300 tài liệu bao gồm năm bài báo học thuật, 150 bài báo và 145 hồ sơ pháp lý (với toàn bộ biên dịch có sẵn cho các nhà nghiên cứu học thuật theo yêu cầu thông qua kho lưu trữ của dự án).
Because các phản hồi của LLM phụ thuộc nặng vào cách một lời nhắc được viết, và bao nhiêu bối cảnh được cung cấp, các tác giả đã thiết kế năm truy vấn từ rất rộng đến rất cụ thể – từ các câu hỏi chung về cấm TikTok đến các lời nhắc chi tiết yêu cầu lời chứng từ các vụ án tòa án cụ thể.
Số lượng tài liệu được cung cấp cho mỗi mô hình đã được thay đổi ở 10, 100 – hoặc tất cả 300, từ toàn bộ tập hợp, với hai tài liệu chính được bao gồm trong mỗi mẫu, để đảm bảo tính nhất quán. Mười lăm phản hồi đã được tạo ra cho mỗi mô hình, ngoại trừ ChatGPT, được giới hạn ở mười phản hồi.
Đề xuất
Ba công cụ đã được thử nghiệm, mỗi công cụ phản ánh một cách tiếp cận khác nhau để truy vấn tài liệu: ChatGPT-5 đã được đánh giá bằng cách sử dụng tính năng Dự án, hạn chế tải lên 100 tài liệu; Google Gemini 2.5 Pro có thể xử lý toàn bộ tập hợp 300 tài liệu trong bối cảnh (sử dụng cửa sổ ngữ cảnh một triệu token để tiêu thụ tất cả 923.000 token trực tiếp); Google NotebookLM, cung cấp khả năng truy xuất trích dẫn, đã được thử nghiệm bằng cách sử dụng các sổ tay chuyên dụng cho mỗi mẫu.
Mặc dù các phương pháp xử lý tài liệu khác nhau, nhưng cả ba đều đại diện cho các công cụ thực tế hiện có cho các nhà báo; và trong mọi trường hợp, hiện trạng đang trong giai đoạn thử nghiệm hơn là đồng nhất, với tính năng tương đương và phạm vi khác nhau giữa các dịch vụ hiện có.
Để bắt giữ phạm vi các hành vi ảo giác có thể xảy ra, một phân loại từ một công việc trước đó vào năm 2023 đã được sử dụng, với ảo giác được mã hóa theo hướng (làm sai lệch so với mở rộng); loại (loại lỗi); và mức độ (mức độ nghiêm trọng được đánh giá là nhẹ, trung bình hoặc báo động).
Tất cả các đầu ra của mô hình đã được chú thích bởi một tác giả con người, người đã xem xét mỗi câu và áp dụng các mã này. Các lỗi không được bao phủ bởi phân loại đã được đánh dấu là khác và sau đó được phân tích để phát triển các loại dành riêng cho báo chí.
Dữ liệu và Kiểm tra
Trong thử nghiệm ban đầu cho tần suất ảo giác, 12 trong số 40 phản hồi của mô hình đã được tìm thấy chứa ít nhất một ảo giác, với sự thay đổi đáng chú ý giữa các công cụ. ChatGPT và Gemini mỗi loại đều tạo ra ảo giác trong 40% đầu ra của chúng, trong khi NotebookLM tạo ra ảo giác trong chỉ 13% trường hợp:

Tỷ lệ ảo giác tổng thể cho mỗi công cụ, với Gemini và ChatGPT tạo ra tỷ lệ cao nhất của các phản hồi chứa lỗi. Nguồn: https://arxiv.org/pdf/2509.25498
Về những kết quả này, các tác giả nhận xét:
‘Điều này cho thấy rằng, mặc dù đa số phản hồi trên tất cả các công cụ không chứa ảo giác, việc lựa chọn công cụ thực sự có sự khác biệt cho cùng một tập hợp tài liệu và tập hợp truy vấn.’
Ảo giác hiếm khi xảy ra một mình, bài báo lưu ý; Gemini trung bình bốn ảo giác mỗi phản hồi bị lỗi, NotebookLM ba và ChatGPT 1,5. Hầu hết đều ở mức độ trung bình, nhưng 14% được phân loại là báo động. Trong một trường hợp, ChatGPT đã tạo ra một động cơ trả thù đằng sau việc cấm TikTok không xuất hiện trong nguồn:
‘[Trong] một truy vấn ChatGPT đã mô tả một lệnh cấm TikTok tiềm năng như một biện pháp trả đũa của các nhà lập pháp Hoa Kỳ để đáp lại chính sách Trung Quốc, một tuyên bố hoàn toàn không có trong tài liệu nguồn được trích dẫn.’
Tổng cộng, 64% phản hồi tạo ra ảo giác đã giới thiệu các sai sót thực tế hoặc các yếu tố phụ, có thể đặt ra câu hỏi về việc liệu việc sử dụng LLM thực sự tiết kiệm thời gian trong loại luồng thông tin này, ít nhất là ở trạng thái hiện tại.
Trong thử nghiệm ban đầu này, hầu hết các ảo giác không phù hợp với các loại hiện có, thường liên quan đến các trích dẫn được tạo ra hoặc các mở rộng viết tắt không chính xác, cho thấy rằng các khuôn khổ hiện tại có thể quá hẹp cho các trường hợp sử dụng báo chí.
Tỷ lệ ảo giác thấp hơn của NotebookLM, các tác giả quan sát, cho thấy rằng hệ thống RAG dựa trên trích dẫn của nó cung cấp nền tảng đáng tin cậy hơn so với tính năng Dự án của ChatGPT hoặc xử lý trong bối cảnh của Gemini, đặc biệt là khi các tài liệu cụ thể phải được tham khảo.
Về việc nghiên cứu các đặc điểm định tính của các ảo giác quan sát được trong kết quả thử nghiệm, các nhà nghiên cứu lưu ý rằng ảo giác không bắt nguồn từ việc tạo ra các事 thực, mà từ sự quá tự tin:
‘Các mô hình đã thêm các đặc điểm tự tin về mục đích của tài liệu, khán giả và ý định của người nói mà có vẻ có thẩm quyền nhưng không có cơ sở trong văn bản thực tế. Họ đã biến các tuyên bố tạm thời hoặc được quy kết thành các tuyên bố quyết định.’
Sự quá tự tin có hai hình thức: đầu tiên, các mô hình đã thêm các tuyên bố không được hỗ trợ về khán giả hoặc mục đích của một tài liệu, chẳng hạn như dán nhãn một bài báo là ‘được viết cho công chúng’ hoặc một hồ sơ là ‘nhắm vào các luật sư’.
Thứ hai, họ đã chuyển đổi các ý kiến được quy kết thành các tuyên bố giống như事 thực, che giấu nguồn gốc ban đầu và làm suy yếu việc đánh giá nguồn.
Các hành vi này xuất hiện trên tất cả các công cụ và không giới hạn ở một kiến trúc – và hầu hết các lỗi không phải là các tạo ra, mà là quá giải thích.
Hầu hết các ảo giác được dán nhãn là khác, vì chúng không phù hợp với các loại hiện có, làm mờ đi sự khác biệt chính giữa các loại lỗi. Các vấn đề thường gặp như thiếu quy kết và mô tả nguồn không rõ ràng cho thấy rằng các phân loại hiện tại bỏ qua các loại lỗi quan trọng nhất trong báo chí, nơi nguồn rõ ràng là điều cần thiết.
Các tác giả lưu ý rằng ‘Các mô hình thêm phân tích tự tin mà tài liệu không hỗ trợ và loại bỏ quy kết quan trọng.’
Kết luận
Bất kỳ ai đã thử nghiệm với ba mô hình được nghiên cứu trong bài báo mới sẽ biết rằng mỗi mô hình có điểm mạnh và điểm yếu. Mặc dù NotebookLM hoạt động tốt hơn nhiều so với ChatGPT hoặc Gemini về trích dẫn, người ta có thể cho rằng nó được xây dựng đặc biệt cho chức năng này và vẫn cung cấp một tỷ lệ lỗi sẽ sa thải hầu hết các nhà báo, nhà nghiên cứu hoặc luật sư, với các trường hợp lặp lại.
Ngoài ra, NotebookLM, định vị mình như một khuôn khổ nghiên cứu, thiếu nhiều tính năng UX được tinh chỉnh mà làm cho các nền tảng khác trở thành một trải nghiệm viết dễ dàng hơn.
Tuy nhiên, ít nhất NotebookLM dường như thực sự đọc tài liệu được tải lên thay vì rơi vào thói quen phá hủy của ChatGPT khi suy đoán những gì một tài liệu được tải lên có thể nói, dựa trên những gì nó biết về phân phối chung của các tài liệu tương tự. Đó là một cuộc đấu tranh khó khăn để có được bất kỳ phiên bản ChatGPT nào thực hiện việc đọc toàn bộ tài liệu được tải lên, thay vì dựa vào siêu dữ liệu hoặc các giả định / ảo giác của riêng nó.
Đối với các lĩnh vực mà nguồn gốc và tiêu chuẩn trích dẫn là quan trọng, chẳng hạn như luật, báo chí và nghiên cứu khoa học, dường như không có cơ sở đào tạo bản địa trong các LLM hàng đầu hiện nay có thể cải thiện khả năng hạn chế của chúng trong việc trích xuất và xử lý thông tin mà người dùng chỉ định.
Hiện tại, và trước khi có các hệ thống phụ trợ có thể cung cấp một giao diện tốt hơn cho LLM so với một lời nhắc hệ thống hoặc cài đặt MCP, mọi thứ mà các hệ thống này xuất ra cho các lĩnh vực quan trọng này vẫn cần được kiểm tra bởi những người đắt tiền, khó khăn và thường gây khó chịu cho con người.
* Google Cloud cung cấp một bản tóm tắt thú vị và toàn diện về chủ đề tại đây.
† Sự chuyển đổi của tôi các trích dẫn nội tuyến của tác giả thành siêu liên kết.
Được xuất bản lần đầu vào thứ Tư, ngày 1 tháng 10 năm 2025. Đã được sửa đổi vào thứ Năm, ngày 2 tháng 10, để sửa lỗi trong TL: DR và sửa lỗi phong cách trong đoạn đầu tiên.












