Góc nhìn Anderson
Liệu AI Có Thể Phát Triển Một Khả Năng Ngửi Ngay Tin Tức?

AI đang trở nên tốt hơn trong việc viết các câu chuyện tin tức, nhưng không trở nên tốt hơn trong việc xác định chúng.
Ý Kiến Trong năm năm kể từ khi tôi đã xem xét lần cuối khả năng của AI trong việc tìm kiếm một câu chuyện tin tức nóng, cảnh quan đã thay đổi đáng kể, với mức độ tự động hóa được thúc đẩy bởi AI tăng lên, đi kèm với những vấn đề và tranh cãi không thể tránh khỏi.
Gần đây, một báo cáo của WSJ về một nhà đóng góp Fortune được hỗ trợ bởi AI cho thấy nhà báo của tương lai được giải phóng khỏi công việc nhàm chán như chuyển đổi bản sao báo chí, để lại cho họ phạm vi viết các tính năng và thực hiện công việc đào bới mà chỉ các ấn phẩm lớn hơn thường có ngân sách cho.
Nhưng điều mà chúng ta nghe ít hơn nhiều là khả năng của AI trong việc phát hiện một câu chuyện tin tức.
Giảm Tiếng ồn
Trong bài viết năm 2021, tôi tập trung vào các nhà văn viết về nghiên cứu, vì đó là nơi tôi dành phần lớn thời gian của mình; và có lẽ ảnh hưởng lớn nhất mà cuộc cách mạng AI mới này đã có đối với điều đó là nó đã tạo ra một cơn bão tuyết không thể kiểm soát được của các bài nộp nghiên cứu được hỗ trợ bởi AI, làm tăng tỷ lệ tín hiệu trên tiếng ồn cao đến mức mà ngay cả việc bao quát các lĩnh vực liên quan đến AI trên Arxiv một cách toàn diện cũng đã nằm ngoài khả năng của một người.
Chắc chắn đây là nơi AI vượt trội – trong việc lặp lại qua các lượng dữ liệu khổng lồ mà con người không thể giải quyết, để tìm kiếm ‘dị thể’ (mà chúng ta sẽ đến sớm) trong vài giây mà sẽ mất người vài ngày, nếu họ có thể làm được.
Vậy tại sao AI vẫn còn tồi tệ trong việc xác định một câu chuyện tin tức nóng từ hàng nghìn, thậm chí hàng chục nghìn, ứng viên hàng ngày?
AI Nhìn Hướng Qua Khứ
Sự phổ biến khổng lồ của nội dung được tạo ra bởi AI đang xảy ra ở nhiều lĩnh vực, vượt ra ngoài lĩnh vực học thuật mà tôi đã thảo luận trước đó. Cuối năm ngoái, người ta ước tính rằng một nửa số tất cả các bài viết mới trên web được viết bởi AI, với sự tăng tốc của xu hướng này được cho là sẽ tiếp tục. Do đó, tiếng ồn đang ồn ào mọi nơi, không chỉ trong học thuật.
Mặc dù đã có một số tiến bộ trong việc xác định ‘nóng’ của AI/algoritmic trong vài năm qua, nhưng các hệ thống này thường tập trung vào các nguồn cấp dữ liệu được tổ chức và dự đoán, có nghĩa là chúng chỉ có thể hoạt động trong một bối cảnh khá giòn.
Trong khía cạnh này, nhà nghiên cứu sau tiến sĩ tại Stanford và cựu nhà báo của New York Times Alexander Spangher đã thực hiện một số nỗ lực để định nghĩa ‘tính mới’ trong các điều khoản có thể được áp dụng cho các quá trình học máy và phân tích thống kê; và đã tạo ra bằng chứng về việc tạo lead tự động trong các tập hợp dữ liệu như hồ sơ tòa án, dự luật của bang và các cuộc họp của hội đồng thành phố, cũng như các tài liệu công cộng chung – loại đầu ra được điều khiển bởi lược đồ mà nhà văn AI của Fortune có thể biến thành 6-7 bài báo mỗi ngày:

Nhiệt độ của phân bố từ được thu thập từ các tài liệu công cộng. Trong trường hợp này, chúng ta có thể thấy rằng ‘authorization’ có điểm số cao, có thể vì nó đại diện cho quyết định, thay đổi và tính mới. Nguồn
Tuy nhiên, vấn đề với các cách tiếp cận như đề xuất của Spangher năm 2023 Theo Dõi Tính Mới Của Các Tài Liệu Công Cộng, là rằng chúng tập trung vào xu hướng quan sát trong dữ liệu. Nói cách khác, chúng quan sát những thứ đã từng là tin tức tốt trước đây, và tiếp tục tìm kiếm thêm những thứ tương tự.
Trong thế giới thực, các nguồn không mong đợi gần như luôn luôn trở thành ‘một hit wonder’; và đối với sự mờ ám của chúng, không ai có thể dự đoán được sự nổi bật đột ngột của chúng. Sau đó, sau khi đã mang lại thành quả một lần, và mặc dù có những nỗ lực định kỳ để tận dụng danh tiếng ngắn ngủi, chúng thường sẽ không bao giờ tạo ra bất cứ điều gì hữu ích nào.
Dấu Hiệu Của Thời Đại
Do đó, vì việc theo dõi loại nguồn tin ‘một lần’ này thường chỉ thêm tiếng ồn vào cơn bão chung, liệu AI có thể không xác định được biểu hiện của một nguồn có thể trở nên hữu ích trong tương lai? Nếu một người có thể tìm ra loại nguồn nào có thể cuối cùng mang lại tin tức, một người có thể tập trung vào đặc điểm của nó thay vì bối cảnh hoặc phương pháp của nó.
Bằng cách đó, một người có thể suy luận từ các tiết lộ của Edward Snowden trong những năm 2010 rằng bất kỳ ai gần đây rời khỏi việc làm của CIA (hoặc một tổ chức tương tự) sẽ đáng được theo dõi như một nguồn tiềm năng của một cuộc điều tra trong tương lai.
Tuy nhiên, không có nguồn cấp dữ liệu RSS hoặc API nào có khả năng tự động hóa loại giám sát này, vì LinkedIn và nhiều nguồn dữ liệu mở khác đang rút lui trước những kẻ thu thập dữ liệu web AI tham lam và bất hợp pháp. Ngay cả khi có, tần suất sẽ là một vấn đề, vì bạn không thể thăm dò một API hoặc trang web mỗi năm giây; ngoài chi phí tài nguyên, phản hồi cấm IP từ các nền tảng sẽ khiến hoạt động này không bền vững.
Hơn nữa, rõ ràng có một ‘chiều kích thước con người’ đối với những tiết lộ như vậy mà khó có thể tự động hóa.

Thu thập tin tức với sự chạm nhẹ: chụp từ bản phát hành đĩa của bộ phim ‘All The President’s Men’ năm 1976 của Alan J. Pakula, với người cung cấp thông tin bước ra từ bóng tối. Nguồn
Cũng trong thế giới thực, thật khó để xác định đặc điểm định nghĩa của một nguồn tin tương lai. Có lẽ nó không phải là ‘người rời CIA gần đây’, và nó chắc chắn không được định nghĩa bởi một giao thức: các nền tảng như X hoặc GitHub tạo ra quá nhiều tín hiệu trong chính chúng, và thậm chí thu hẹp xuống các thuật ngữ tìm kiếm hoặc danh mục bài đăng không tạo ra sự khác biệt – chỉ khi bạn tham gia vào vấn đề và tham gia với cộng đồng (hoặc kho, v.v.) thì bạn thực sự có khả năng nhận ra tầm quan trọng của một sự phát triển.
Ngay cả một thuật ngữ như ‘cảnh báo bảo mật’ cũng không thể ngữ cảnh hóa mức độ nghiêm trọng thực sự hoặc tính mới của một sự kiện, vì các tham chiếu như vậy được ném xung quanh hàng ngày, bởi hàng nghìn, trong các cộng đồng như vậy – nhưng không có giá trị tin tức rộng lớn; và ngay cả khi bạn hạn chế loại giám sát này chỉ trong ngôn ngữ tiếng Anh, các biến thể trong thành ngữ, cùng với việc sử dụng ngôn ngữ gián tiếp, sẽ khiến nó rất khó để phân tích một bài đăng ‘trong tự nhiên’ thành một cảnh báo tin tức thực sự.
Con Đường Hẹp
Các hệ thống hiện tại của AI được hỗ trợ bởi hệ thống phát hiện tính mới phụ thuộc vào các cấu trúc dữ liệu được định dạng (như đầu ra JSON, từ một API), hoặc các cấu trúc dữ liệu không chính thức mà các thuật toán được phát triển bởi AI có cơ hội phân tích thành một lược đồ cấu trúc (như báo cáo từ một tổ chức cụ thể):

Một nguồn cấp dữ liệu RSS/XML được phân tích, tiết lộ cấu trúc phân cấp nghiêm ngặt của các thùng chứa dữ liệu. Nguồn
Rõ ràng, các cách tiếp cận như vậy phù hợp với đầu ra chương trình, như công việc nhàm chán mà nhà báo của Fortune tuyên bố AI đã giải phóng anh ta khỏi, bao gồm thời tiết, cổ phiếu và điểm số thể thao, cũng như thông cáo báo chí thường xuyên từ các tổ chức chính phủ và đô thị.
Mặc dù có thể gắn các kích hoạt cảnh báo con người vào các nguồn cấp dữ liệu thống kê như thời tiết (cơn bão đột ngột), cổ phiếu (sự sụp đổ đột ngột) và thể thao (thắng hoặc thua không mong đợi, với một số công việc chuẩn bị), lại cần sự chú ý của con người ngay cả đối với các thông cáo báo chí chính phủ thường xuyên, để đánh giá tính mới.
Mặc dù các thuật ngữ như ‘tử vong’, ‘bệnh tật không mong đợi’, ‘rò rỉ’ và ‘tai nạn’ có thể giúp khoan xuống các sự kiện đáng chú ý, nhưng chúng chỉ giải quyết các sự kiện ‘thường xuyên’, và cũng không thể tính đến ngôn ngữ thay thế (hoặc ngôn ngữ).
Sự Trở Lại Của Các Nhà Văn Elite?
Trong những năm gần đây, báo chí dữ liệu đã trở thành một nền tảng nổi bật trong việc báo cáo tin tức, với các bộ phận biên tập không còn bị giới hạn trong các thỏa thuận ‘scoop’ ngọt ngào cấp cho họ quyền phát hành sớm các báo cáo đặc biệt và sách trắng từ các nhà xuất bản lớn; thay vào đó, họ có thể tự phân tích số liệu.
Tuy nhiên, đây không phải là bữa trưa miễn phí; vì giá trị rõ ràng của việc phân tích dữ liệu công khai với AI theo cách này đã tăng lên, một phản ứng chặn AI / tìm kiếm lợi nhuận đã theo sau – hoặc thậm chí dự đoán – nhu cầu, đẩy các cầu thủ AI lớn dữ dội vào các chiến thuật lén lút.
Ma sát thêm của Sự Rút lui Mới có thể khôi phục một số quyền lực từ ‘nhà báo công dân’ trở lại các phương tiện truyền thông cũ – hoặc ít nhất, các tổ chức tin tức được tài trợ tốt có băng thông để hấp thụ công việc thủ công thêm cần thiết trong việc thu thập, tinh chỉnh và đánh giá dữ liệu, trong một thời đại mà các nhà xuất bản và miền đang ngày càng hạn chế việc truy cập thông thường.
Vậy, theo một cách nào đó, có lẽ trong tinh thần của thời đại, sự thể hiện thực tế của AI trong báo chí, về cách các cầu thủ lớn và thị trường đã phản ứng với sự đổi mới và áp dụng AI, có thể thực sự đang đưa chúng ta trở lại thời gian: phi dân chủ hóa phương tiện sản xuất tin tức, và thêm các chướng ngại vật vào các hệ thống đánh giá tính mới dựa trên dữ liệu có ý nghĩa.
Các Cảm Giác Chung
Những hạn chế này rõ ràng dẫn chúng ta trở lại ‘cảm giác trực giác’ như một thành phần không thể tránh khỏi trong việc đánh giá tính mới của một câu chuyện.
Tự nhiên, đây là điều an ủi cho những người tham gia chuyên nghiệp vào khía cạnh này; nhưng sự tự mãn sẽ là một sai lầm, vì trực giác này có thể, đến một mức độ nhất định, được chiết xuất và hoạt động hóa theo một cách rất chung chung mà không phụ thuộc vào việc nghiên cứu các ám ảnh hoặc sở thích của bất kỳ cá nhân hoặc tổ chức nào: trong một nghiên cứu năm 2022, các nhà nghiên cứu từ Đại học Northwestern đã sử dụng đánh giá của đám đông về các câu chuyện tiềm năng để đào tạo một mô hình dự đoán, đặc biệt quan tâm đến tính mới của các bài nghiên cứu được xuất bản trên Arxiv:

Các câu hỏi khảo sát được đưa ra cho các tham gia nghiên cứu để thu được dữ liệu đào tạo cho một mô hình ‘dự đoán tính mới’ AI. Nguồn
Hệ thống xếp hạng ứng viên khá tốt, với khoảng 80% trong số 10 lựa chọn hàng đầu của nó cũng được đánh giá là đáng chú ý bởi các chuyên gia. Tuy nhiên, sự đồng ý với các chuyên gia chỉ là vừa phải, với kết quả bỏ lỡ các yếu tố như khuôn khổ, hoặc phù hợp với khán giả.
Hệ thống này dựa trên các nguyên tắc được nêu trong bài báo năm 2020 Khám Phá Tin Tức Toán Học: Hướng Đến Các Xem Xét Thiết Kế Cho Các Thuật Toán Định Hướng Biên Tập Trong Báo Chí. Như với hầu hết các dự án tương tự, công việc này giải quyết báo chí khoa học hơn là thu thập tin tức trừu tượng – có lẽ vì văn học khoa học có xu hướng đầu ra được tạo mẫu mà có thể được phân tích thành dữ liệu điểm và dữ liệu có thể giải thích được.
Chà, như tôi đã quan sát lại vào năm 2021, điều này sẽ là trường hợp, ngoại trừ việc các nhà khoa học nghiên cứu thường lạm dụng các quy ước của việc gửi bài nghiên cứu để che giấu hoặc hạ thấp các kết quả không ấn tượng, hoặc thậm chí thất bại hoàn toàn.
Thậm chí còn là một thách thức lớn hơn là sự khó khăn lớn mà các hệ thống AI gặp phải trong việc giải thích các hình và bảng trong các bài báo khoa học, đến mức mà việc theo đuổi này đã trở thành một chủ đề hoạt động trong văn học:

Từ bài báo ‘SciFigDetect: Một Tiêu Chuẩn Cho Phát Hiện Hình Khoa Học Tạo Bởi AI’, cho thấy các hình khoa học thực, các lệnh tạo và các đối tác tổng hợp được tạo bởi Nano Banana và GPT trên ba loại: minh họa, tổng quan và hình thực nghiệm. Nguồn
Đó thường là trường hợp một biểu đồ hoặc bảng sẽ chứa kết quả mà phần chính của bài báo sẽ báo cáo với sự thiên vị chọn lọc, hoặc nơi nó sẽ hoàn toàn bỏ qua bất kỳ hậu quả tiêu cực nào ngụ ý trong kết quả của bảng / biểu đồ.
Đơn獨 Một Lần Nữa, Tự Nhiên
Phương pháp dựa trên đám đông như được mô tả ở trên gợi ý một số sự đồng ý giữa sự đồng thuận chung về các câu chuyện tiềm năng và đánh giá chuyên nghiệp của cùng một câu chuyện. Nhưng không có ngữ cảnh, chỉ có những nét tổng quát nhất của tính mới có thể rõ ràng được xác định.
Sức mạnh của AI nằm ở khả năng của nó, tùy thuộc vào cấu hình, để phân lập dị thể – hoặc để loại bỏ chúng như một ngoại lệ không có ý nghĩa đối với xu hướng trong một tập dữ liệu, hoặc (hơn nữa liên quan đến việc thu thập tin tức) để xác định các trường hợp và sự kiện không phổ biến và có giá trị:

Dị thể (màu đỏ) trong một biểu đồ phân tán. Nguồn
Trên nguyên tắc rằng sét hiếm khi đánh hai lần, gần như tất cả các câu chuyện tin tức nổi bật đều là dị thể. Trong các trường hợp mà chúng phát sinh từ một lĩnh vực hoạt động và dễ thay đổi, như một cuộc chiến đang diễn ra, lĩnh vực đó có thể được quét kỹ với xác suất cao của các câu chuyện đáng chú ý nổi lên – nhưng với chi phí của sự cạnh tranh khổng lồ, vì sự chú ý chung cũng có thể tập trung vào lĩnh vực đó.
Nhiều đầu mối khoa học đáng chú ý, theo định nghĩa, không phải là trung tâm của phân bố ngôn ngữ. Chúng là những kết hợp hiếm gặp của phương pháp, kết quả tiêu cực bất ngờ hoặc sự sao chép dị thường. Nếu năng lực của mô hình suy giảm không cân xứng trên các nhóm thấp tần số như vậy, thì chính khu vực mà một ‘mũi’ biên tập cần phải sắc nét trở thành khu vực mà mô hình ít tin cậy nhất.
Vấn Đề Tin Cậy
Khi tìm kiếm các câu chuyện mới, các nhà báo cân bằng nhiều hạn chế, bao gồm thời gian, truy cập, độ tin cậy, khán giả và các ưu tiên của tổ chức), dẫn đến các lựa chọn không rõ ràng. Một bài đánh giá văn học năm 2022 từ Đan Mạch đã mô tả các nhà báo như cân bằng nhiều mối quan tâm, nhận thức rõ rằng các nguồn có thể có chương trình hoặc bị hiểu lầm; và thường bỏ qua việc kiểm tra trực tiếp để ủng hộ các tín hiệu tin cậy gián tiếp khi hoạt động dưới áp lực.
Những vấn đề ‘tin cậy’ này sẽ là một chướng ngại vật phát triển trong bất kỳ hệ thống xác định tính mới AI nào, vì việc tham gia với nền tảng như vậy đòi hỏi người dùng phải tin rằng bất kỳ bài báo nào bị loại bỏ bởi thuật toán đều không đáng để dành thời gian của nhà văn.
Thử nghiệm beta rộng rãi và huấn luyện lại hoặc tinh chỉnh, với sự giám sát của con người thu thập các mảnh vụn và kẻ lang thang, cuối cùng có thể cải thiện độ tin cậy của cách tiếp cận như vậy; nhưng một sự thay đổi trong văn hóa quốc gia hoặc toàn cầu – như những thay đổi bất ngờ trong phong cảnh chính trị, hoặc sự bùng phát của chiến tranh – có thể lật đổ tất cả các ưu tiên cơ bản của một hệ thống như vậy, để lại cho nhà văn phụ thuộc vào AI việc xây dựng lại ‘mô hình miền nội bộ’ cần thiết gần như từ đầu.
Được xuất bản lần đầu vào Thứ Hai, ngày 20 tháng 4 năm 2026.
Đã sửa đổi vào Thứ Năm, ngày 23 tháng 4 năm 2026 14:13:25, để thay thế ‘Fortune’ cho ‘WSJ’ trong ‘The Narrow Path’, đoạn 2 (cảm ơn Mark Riley của mathison.ai vì đã chỉ ra điều đó).












