Kết nối với chúng tôi

Hướng tới viết khoa học tự động

Trí tuệ nhân tạo

Hướng tới viết khoa học tự động

mm

Sáng nay, khi đang lướt qua phần Khoa học Máy tính của Arxiv, như tôi vẫn làm vào hầu hết các buổi sáng, tôi bắt gặp một giấy từ Đại học Liên bang Ceara ở Brazil, cung cấp khung Xử lý ngôn ngữ tự nhiên mới để tự động hóa việc tóm tắt và trích xuất dữ liệu cốt lõi từ các bài báo khoa học.

Vì đây ít nhiều là những gì tôi làm hàng ngày, nên bài báo này gợi nhớ đến một bình luận trên diễn đàn của các nhà văn Reddit vào đầu năm nay – một dự đoán rằng viết về khoa học sẽ là một trong những công việc báo chí đầu tiên bị máy học thay thế.

Hãy để tôi được rõ ràng - tôi hoàn toàn tin tưởng rằng nhà văn khoa học tự động đang đến và tất cả những thách thức mà tôi vạch ra trong bài viết này hiện có thể giải quyết được hoặc cuối cùng sẽ như vậy. Nếu có thể, tôi đưa ra các ví dụ cho việc này. Ngoài ra, tôi không đề cập đến việc liệu các AI viết khoa học hiện tại hoặc trong tương lai gần có thể viết nghiêm túc; dựa vào mức độ quan tâm hiện tại trong lĩnh vực NLP này, tôi cho rằng thách thức này cuối cùng sẽ được giải quyết.

Thay vào đó, tôi đang hỏi liệu một nhà khoa học AI có thể xác định những câu chuyện khoa học có liên quan phù hợp với kết quả mong muốn (rất đa dạng) của các nhà xuất bản.

Tôi không nghĩ điều đó sẽ xảy ra ngay lập tức; dựa trên việc lướt qua các tiêu đề báo và/hoặc bản sao của khoảng 2000 bài báo khoa học mới về học máy mỗi tuần, tôi có cái nhìn khá hoài nghi về mức độ mà các bài nộp học thuật có thể được phân tích bằng thuật toán, cho mục đích lập chỉ mục học thuật hoặc cho báo chí khoa học. Như thường lệ, chính là những... người đang cản đường.

Yêu cầu đối với Người viết khoa học tự động

Hãy cùng xem xét thách thức của việc tự động hóa việc báo cáo khoa học về các nghiên cứu học thuật mới nhất. Để công bằng, chúng tôi sẽ giới hạn chủ yếu trong các danh mục khoa học máy tính (CS) của các tạp chí không trả phí rất phổ biến. tên miền Arxiv từ Đại học Cornell, nơi ít nhất có một số tính năng theo khuôn mẫu, có hệ thống có thể được cắm vào đường ống trích xuất dữ liệu.

Chúng ta cũng giả sử rằng nhiệm vụ trước mắt, giống như bài báo mới từ Brazil, là lặp lại các tiêu đề, tóm tắt, siêu dữ liệu và (nếu hợp lý) nội dung chính của các bài báo khoa học mới để tìm kiếm hằng số, tham số đáng tin cậy, mã thông báo và thông tin miền có thể thực hiện được, có thể rút gọn.

Xét cho cùng, đây là nguyên tắc mà trên đó rất thành công khuôn khổ mới đang đạt được vị trí trong các lĩnh vực của báo cáo động đất, viết thể thao, báo chí tài chínhbảo hiểm y tế, và một điểm xuất phát hợp lý cho nhà báo khoa học được hỗ trợ bởi AI.

Quy trình làm việc của sản phẩm mới của Brazil. Bài báo khoa học PDF được chuyển đổi thành văn bản thuần túy UTF-8 (mặc dù điều này sẽ loại bỏ các phần nhấn mạnh in nghiêng có thể có ý nghĩa ngữ nghĩa) và các phần bài báo được dán nhãn và trích xuất trước khi được chuyển qua để lọc văn bản. Văn bản giải cấu trúc được chia thành các câu dưới dạng khung dữ liệu và các khung dữ liệu được hợp nhất trước khi nhận dạng mã thông báo và tạo hai ma trận mã thông báo tài liệu Nguồn: https://arxiv.org/ftp/arxiv/papers/2107/2107.14638.pdf

Quy trình làm việc của sản phẩm mới của Brazil. Bài báo khoa học PDF được chuyển đổi thành văn bản thuần túy UTF-8 (mặc dù điều này sẽ loại bỏ các phần nhấn mạnh in nghiêng có thể có ý nghĩa ngữ nghĩa) và các phần bài báo được dán nhãn và trích xuất trước khi được chuyển qua để lọc văn bản. Văn bản giải cấu trúc được chia thành các câu dưới dạng khung dữ liệu và các khung dữ liệu được hợp nhất trước khi nhận dạng mã thông báo và tạo hai ma trận mã thông báo tài liệu   Nguồn: https://arxiv.org/ftp/arxiv/papers/2107/2107.14638.pdf

Làm phức tạp mẫu

Một lớp phù hợp và chính quy hóa đáng khích lệ là Arxiv áp đặt một khuôn mẫu được thi hành khá tốt cho các bài nộp và cung cấp hướng dẫn chi tiết cho các tác giả gửi. Do đó, các bài báo nói chung phù hợp với bất kỳ phần nào của giao thức áp dụng cho công việc được mô tả.

Do đó, hệ thống tiền xử lý AI dành cho người viết khoa học tự động giả định nói chung có thể coi các phần đó là các miền phụ: trừu tượng, giới thiệu, liên quan / công việc trước đây, phương pháp/dữ liệu, kết quả/phát hiện, nghiên cứu cắt bỏ, thảo luận, phần kết luận.

Tuy nhiên, trên thực tế, một số phần này có thể bị thiếu, đổi tên hoặc chứa nội dung, nói một cách chính xác, thuộc về một phần khác. Hơn nữa, tác giả đương nhiên sẽ thêm các tiêu đề và tiêu đề phụ không tuân thủ theo mẫu. Do đó, NLP/NLU sẽ chịu trách nhiệm xác định nội dung liên quan đến phần đó dựa trên ngữ cảnh.

Tiêu đề cho rắc rối

Phân cấp tiêu đề là một cách dễ dàng để các hệ thống NLP phân loại các khối nội dung ban đầu. Rất nhiều bài nộp trên Arxiv được xuất từ ​​Microsoft Word (bằng chứng là các tệp PDF Arxiv bị xử lý sai dẫn đến việc để lại chữ "Microsoft Word" trong tiêu đề - xem hình ảnh bên dưới). Nếu bạn sử dụng đúng tiêu đề phần trong Word, xuất sang PDF sẽ tạo lại chúng dưới dạng tiêu đề phân cấp hữu ích cho quy trình trích xuất dữ liệu của trình báo cáo máy.

Tuy nhiên, điều này giả định rằng các tác giả thực sự đang sử dụng các tính năng như vậy trong Word hoặc các khung tạo tài liệu khác, chẳng hạn như TeX và các dẫn xuất (hiếm khi được cung cấp dưới dạng định dạng thay thế gốc trong các bài nộp của Arxiv, với hầu hết các dịch vụ được giới hạn ở PDF và đôi khi, thậm chí còn mờ đục hơn PostScript).

Dựa trên nhiều năm đọc các bài báo của Arxiv, tôi nhận thấy rằng phần lớn chúng không chứa bất kì siêu dữ liệu cấu trúc có thể hiểu được, với tiêu đề được báo cáo trong trình đọc (tức là trình duyệt web hoặc trình đọc PDF) dưới dạng tiêu đề đầy đủ (bao gồm cả phần mở rộng), của chính tài liệu đó.

Trong trường hợp này, khả năng diễn giải ngữ nghĩa của bài báo bị hạn chế, và một hệ thống viết khoa học dựa trên AI sẽ cần phải liên kết lại bài báo với siêu dữ liệu liên quan trên miền Arxiv. Quy ước của Arxiv quy định rằng siêu dữ liệu cơ bản cũng được chèn ngang bằng chữ màu xám cỡ lớn trên trang 1 của tệp PDF đã nộp (xem hình ảnh bên dưới). Đáng buồn thay – một phần vì đây là nơi duy nhất đáng tin cậy để tìm ngày xuất bản hoặc số phiên bản – thông tin này thường bị loại trừ.

Nhiều tác giả hoàn toàn không sử dụng kiểu nào hoặc chỉ sử dụng kiểu H1 (tiêu đề/tiêu đề cao nhất), khiến NLU phải trích xuất lại tiêu đề một lần nữa từ ngữ cảnh (có lẽ không quá khó) hoặc bằng cách phân tích số tham chiếu bao gồm tiêu đề trong lộ trình tài liệu (ví dụ: https://arxiv.org/pdf/2110.00168.pdf) và tận dụng siêu dữ liệu dựa trên mạng (chứ không phải cục bộ) để gửi.

Mặc dù phần sau sẽ không giải quyết được các tiêu đề vắng mặt, nhưng ít nhất nó sẽ thiết lập phần Khoa học máy tính mà bài gửi áp dụng, đồng thời cung cấp thông tin về ngày và phiên bản.

GluedText tại ParagraphReturns

Với PDF và postscript là những định dạng Arxiv phổ biến nhất do tác giả gửi, hệ thống NLP sẽ cần một quy trình để tách các từ cuối dòng khỏi các từ đầu dòng tiếp theo được "đính kèm" vào chúng theo các phương pháp tối ưu hóa mặc định không may của định dạng PDF.

Khử nối (và khử gạch nối) từ có thể được thực hiện ở Perl và nhiều thủ tục đệ quy đơn giản khác, mặc dù Phương pháp tiếp cận dựa trên Python có thể ít tốn thời gian hơn và phù hợp hơn với khung ML. Adobe, người tạo ra định dạng PDF, cũng đã phát triển một hệ thống chuyển đổi hỗ trợ AI có tên là Chế độ chất lỏng, có khả năng 'chuyển đổi' văn ​​bản đã xử lý sang PDF, mặc dù việc triển khai tính năng này trên thiết bị di động vẫn còn chậm.

kém tiếng anh                                                

Tiếng Anh vẫn là tiêu chuẩn khoa học toàn cầu để gửi các bài báo khoa học, mặc dù đây là gây tranh cãi. Do đó, các bài báo thú vị và đáng chú ý đôi khi chứa tiêu chuẩn kinh khủng của tiếng Anh, từ các nhà nghiên cứu không phải người Anh. Nếu việc sử dụng tiếng Anh khéo léo được đưa vào như một thước đo giá trị khi một hệ thống máy móc đánh giá tác phẩm, thì không chỉ những câu chuyện hay thường bị mất đi, mà sản phẩm có giá trị thấp mang tính mô phạm sẽ được đánh giá cao hơn đơn giản chỉ vì nó nói rất ít hoặc rất hay.

Các hệ thống NLP không linh hoạt về mặt này có khả năng gặp phải một lớp trở ngại bổ sung trong việc trích xuất dữ liệu, ngoại trừ trong các ngành khoa học cứng nhắc và được tham số hóa nhất, chẳng hạn như hóa học và vật lý lý thuyết, nơi các đồ thị và biểu đồ tuân thủ thống nhất hơn trong các cộng đồng khoa học toàn cầu. Mặc dù các bài báo về máy học thường có các công thức, nhưng những công thức này có thể không đại diện cho giá trị xác định của bài nộp nếu không có sự đồng thuận khoa học được thiết lập đầy đủ về phương pháp luận mà các ngành khoa học cũ được hưởng.

Lựa chọn: Xác định yêu cầu đối tượng

Chúng ta sẽ sớm quay lại với nhiều vấn đề trong việc phân tích các bài báo khoa học lập dị thành các điểm dữ liệu rời rạc. Bây giờ, hãy xem xét đối tượng độc giả và mục tiêu của chúng ta, vì những yếu tố này sẽ rất cần thiết để giúp AI (trí tuệ nhân tạo) sàng lọc hàng ngàn bài báo mỗi tuần. Việc dự đoán thành công của các tin tức tiềm năng đã... một khu vực hoạt động trong học máy.

Ví dụ, nếu "lượng truy cập khoa học" lớn là mục tiêu duy nhất tại một trang web nơi viết về khoa học chỉ là một phần trong dịch vụ báo chí rộng hơn (như trường hợp của Vương quốc Anh) Daily Mail phần khoa học), AI có thể được yêu cầu để xác định các chủ đề có tổng lưu lượng truy cập cao nhất và tối ưu hóa lựa chọn của nó theo hướng đó. Quá trình này có thể sẽ ưu tiên (tương đối) các loại trái cây treo thấp như robot, bay không người lái, deepfakes, riêng tưlỗ hổng bảo mật.

Phù hợp với tình trạng hiện tại của nghệ thuật trong các hệ thống tư vấn, việc thu thập cấp độ cao này có khả năng dẫn đến 'bong bóng lọc' các vấn đề đối với nhà văn khoa học AI của chúng tôi, vì thuật toán này chú ý nhiều hơn đến một loạt các bài báo khoa học giả mạo có chứa các từ khóa và cụm từ 'mong muốn' có tần suất cao về các chủ đề này (một lần nữa, vì chúng có thể kiếm tiền, cả về mặt lưu lượng truy cập, cho các kênh tin tức và tài trợ, cho các khoa học thuật), trong khi bỏ qua một số 'Trứng Phục sinh' dễ viết hơn nhiều (xem bên dưới) có thể được tìm thấy ở nhiều góc ít được lui tới của Arxiv.

Một và Xong!

Tin tức khoa học hay có thể đến từ những nơi xa lạ và bất ngờ, và từ những lĩnh vực và chủ đề trước đây chưa mang lại kết quả. Để làm khó thêm người viết khoa học AI của chúng ta, người đang hy vọng tạo ra một danh mục hiệu quả về các nguồn tin tức "hữu ích", nguồn tin tức "độc" (chẳng hạn như máy chủ Discord, phòng nghiên cứu học thuật hoặc công ty khởi nghiệp công nghệ) thường sẽ... không bao giờ sản xuất lại tài liệu có thể hành động, trong khi tiếp tục tạo ra một luồng thông tin đồ sộ và ồn ào có giá trị thấp hơn.

Kiến trúc học máy lặp lại có thể suy ra điều gì từ điều này? Rằng hàng ngàn nguồn tin tức "ngoại lệ" trước đây mà nó từng xác định và loại trừ bỗng nhiên được ưu tiên (mặc dù làm như vậy sẽ tạo ra tỷ lệ tín hiệu trên nhiễu không thể kiểm soát, xét đến khối lượng lớn bài báo được xuất bản mỗi năm)? Rằng bản thân chủ đề xứng đáng được đặt làm lớp kích hoạt hơn nguồn tin mà nó xuất phát (trong trường hợp của một chủ đề phổ biến, đây là một hành động thừa)?

Hữu ích hơn, hệ thống có thể học được rằng nó phải di chuyển lên hoặc xuống hệ thống phân cấp chiều dữ liệu để tìm kiếm các mẫu - nếu thực sự có bất kỳ mẫu nào - tạo nên thứ mà ông nội nhà báo quá cố của tôi gọi là 'khả năng đánh hơi tin tức' và xác định tính năng đáng tin như một phẩm chất trừu tượng và lưu động không thể dự đoán chính xác chỉ dựa trên nguồn gốc và có thể thay đổi hàng ngày.

Xác định giả thuyết thất bại

do áp lực hạn ngạch, các khoa đôi khi sẽ xuất bản các tác phẩm mà giả thuyết trung tâm đã thất bại hoàn toàn (hoặc gần như hoàn toàn) trong quá trình thử nghiệm, ngay cả khi các phương pháp và phát hiện của dự án vẫn đáng được quan tâm.

Những thất vọng như vậy thường không được báo hiệu trong bản tóm tắt; trong những trường hợp xấu nhất, các giả thuyết bị bác bỏ chỉ có thể nhận ra bằng cách đọc các biểu đồ kết quả. Điều này không chỉ đòi hỏi phải suy ra một sự hiểu biết chi tiết về phương pháp luận từ thông tin hạn chế và có chọn lọc cao mà bài báo có thể cung cấp, mà còn yêu cầu các thuật toán diễn giải biểu đồ lão luyện có thể diễn giải một cách có ý nghĩa mọi thứ từ biểu đồ hình tròn đến biểu đồ phân tán, trong ngữ cảnh.

Một hệ thống dựa trên NLP đặt niềm tin vào phần tóm tắt nhưng không thể diễn giải biểu đồ và bảng biểu có thể sẽ khá hào hứng với một bài báo mới ngay từ lần đọc đầu tiên. Thật không may, các ví dụ trước đây về "thất bại tiềm ẩn" trong các bài báo học thuật (vì mục đích đào tạo) rất khó để khái quát thành các mô hình, vì "tội ác học thuật" này chủ yếu là do thiếu sót hoặc không nhấn mạnh, và do đó khó nắm bắt.

Trong một trường hợp cực đoan, người viết AI của chúng tôi có thể cần định vị và kiểm tra dữ liệu kho lưu trữ (tức là từ GitHub) hoặc phân tích cú pháp bất kỳ tài liệu bổ sung có sẵn nào, để hiểu kết quả có ý nghĩa gì về mặt mục tiêu của tác giả. Do đó, một hệ thống máy học sẽ cần duyệt qua nhiều nguồn và định dạng chưa được lập bản đồ có liên quan đến việc này, khiến việc tự động hóa các quy trình xác minh trở thành một thách thức về mặt kiến ​​trúc.

Các kịch bản 'Hộp trắng'

Một số tuyên bố vô lý nhất được đưa ra trong các bài báo về bảo mật tập trung vào AI hóa ra lại đòi hỏi mức độ truy cập cực kỳ cao và rất khó xảy ra vào mã nguồn hoặc cơ sở hạ tầng nguồn – các cuộc tấn công "hộp trắng". Mặc dù điều này hữu ích để ngoại suy các điểm kỳ lạ chưa từng được biết đến trước đây trong kiến ​​trúc của các hệ thống AI, nhưng nó hầu như không bao giờ đại diện cho một bề mặt tấn công có thể khai thác một cách thực tế. Do đó, người viết về khoa học AI sẽ cần một công cụ phát hiện tin đồn khá tốt để phân tích các tuyên bố về bảo mật thành các xác suất để triển khai hiệu quả.

Người viết khoa học tự động sẽ cần một chương trình NLU có khả năng phân lập các đề cập đến "hộp trắng" vào một bối cảnh có ý nghĩa (tức là phân biệt các đề cập với những hàm ý cốt lõi cho bài báo) và khả năng suy ra phương pháp hộp trắng trong trường hợp cụm từ không bao giờ xuất hiện trong bài báo.

Những 'Gotchas' khác

Những nơi khác mà tính không khả thi và giả thuyết thất bại có thể bị chôn vùi hoàn toàn là ở nghiên cứu cắt bỏ, loại bỏ một cách có hệ thống các yếu tố then chốt của một công thức hoặc phương pháp mới để xem liệu kết quả có bị ảnh hưởng tiêu cực hay không, hoặc liệu một khám phá "cốt lõi" có khả năng phục hồi hay không. Trên thực tế, các bài báo có bao gồm các nghiên cứu về sự phá hủy thường khá tự tin vào kết quả của họ, mặc dù việc đọc kỹ đôi khi có thể phát hiện ra một "sự lừa bịp". Trong nghiên cứu AI, sự lừa bịp đó thường tương đương với quá mức, trong đó hệ thống máy học hoạt động tốt trên dữ liệu nghiên cứu ban đầu, nhưng không thể khái quát hóa thành dữ liệu mới hoặc hoạt động theo các ràng buộc không thể tái tạo khác.

Một tiêu đề phần hữu ích khác để trích xuất hệ thống tiềm năng là Hạn chếĐây là phần đầu tiên mà bất kỳ nhà văn khoa học nào (AI hoặc con người) nên bỏ qua, vì nó có thể chứa thông tin phủ nhận toàn bộ giả thuyết của bài báo, và việc nhảy thẳng đến phần này có thể tiết kiệm hàng giờ làm việc (ít nhất là đối với con người). Trường hợp xấu nhất ở đây là một bài báo thực sự có Hạn chế phần, nhưng những sự kiện 'thỏa hiệp' được đưa vào nơi khác trong tác phẩm chứ không phải ở đây (hoặc bị đánh giá thấp ở đây).

Tiếp theo là Công việc trước đó. Điều này xảy ra sớm trong mẫu Arxiv và thường tiết lộ rằng bài báo hiện tại chỉ đại diện cho một tiến bộ nhỏ trong một dự án đổi mới hơn nhiều, thường là từ 12-18 tháng trước. Ở giai đoạn này, người viết AI sẽ cần khả năng xác định xem tác phẩm trước đó có đạt được sức hút hay không; vẫn còn một câu chuyện ở đây? Có phải tác phẩm trước đó đã vô tình lọt qua thông báo công khai tại thời điểm xuất bản? Hay bài báo mới chỉ là một phần tái bút chiếu lệ cho một dự án trước đó được đề cập kỹ lưỡng?

Đánh giá lốp tái tạo và độ 'mới'

Bên cạnh việc sửa lỗi trong phiên bản trước, rất thường xuyên, V.2 của một bài báo chỉ đại diện cho việc các tác giả đang kêu gọi sự chú ý mà họ đã không nhận được khi V.1 được xuất bản. Tuy nhiên, thường thì một bài báo thực sự xứng đáng được "ăn thêm một miếng nữa", vì sự chú ý của giới truyền thông có thể đã bị chuyển hướng vào thời điểm xuất bản ban đầu, hoặc công trình đó bị lu mờ bởi lượng bài nộp quá lớn trong các kỳ "hội thảo" và hội nghị đông đúc (như mùa thu và cuối đông).

Một tính năng hữu ích trên Arxiv để phân biệt bài viết được đăng lại là thẻ [ĐÃ CẬP NHẬT] được thêm vào tiêu đề bài viết. Hệ thống "đề xuất" nội bộ của người viết AI sẽ cần cân nhắc kỹ lưỡng xem có nên đăng lại hay không. [ĐÃ CẬP NHẬT]=='Đã chơi xong', đặc biệt vì nó có thể (có lẽ) đánh giá giấy được làm ấm lại nhanh hơn nhiều hơn là một chuyên gia khoa học được đào sâu nghiên cứu. Về mặt này, nó có một lợi thế đáng kể so với con người, nhờ vào quy ước đặt tên có thể sẽ tồn tại lâu dài, ít nhất là tại Arxiv.

Arxiv cũng cung cấp thông tin trong trang tóm tắt về việc liệu bài báo có được xác định là có 'sự trùng lặp đáng kể' về văn bản với một bài báo khác (thường là của cùng một tác giả) hay không và điều này cũng có khả năng được hệ thống AI phân tích thành trạng thái 'trùng lặp/lặp lại' nếu không có thẻ [ĐÃ CẬP NHẬT].

Xác định sự khuếch tán

Giống như hầu hết các nhà báo, nhà văn khoa học AI dự kiến ​​của chúng tôi đang tìm kiếm những tin tức chưa được báo cáo hoặc chưa được báo cáo để tăng thêm giá trị cho luồng nội dung mà nó hỗ trợ. Trong hầu hết các trường hợp, việc báo cáo lại các đột phá khoa học lần đầu tiên xuất hiện trên các hãng tin lớn như TechCrunch, The Verge và EurekaAlert et al là vô nghĩa, vì các nền tảng lớn như vậy hỗ trợ nội dung của họ bằng các máy công khai toàn diện, hầu như đảm bảo độ bão hòa phương tiện cho bài báo.

Do đó, nhà văn AI của chúng tôi phải xác định xem câu chuyện có đủ mới mẻ để đáng theo đuổi hay không.

Về lý thuyết, cách dễ nhất là xác định các Liên kết trong nước đến các trang nghiên cứu cốt lõi (tóm tắt, PDF, phần tin tức trên trang web của bộ phận học thuật, v.v.). Nói chung, các khung có thể cung cấp thông tin liên kết đến cập nhật không phải là nguồn mở hoặc chi phí thấp, nhưng các nhà xuất bản lớn có lẽ có thể chịu chi phí SaaS như một phần của khung đánh giá mức độ tin cậy.

Giả sử quyền truy cập như vậy, nhà văn khoa học AI của chúng tôi sau đó phải đối mặt với vấn đề mà một số lượng lớn các cửa hàng báo cáo khoa học không trích dẫn các bài báo họ đang viết, ngay cả trong trường hợp thông tin đó được cung cấp miễn phí. Xét cho cùng, một kênh thông tin muốn các bài báo thứ cấp liên kết đến họ, chứ không phải nguồn. Vì trong nhiều trường hợp, họ thực sự đã có được quyền truy cập đặc quyền hoặc bán đặc quyền vào một bài báo nghiên cứu (xem Nhà văn khoa học 'xã hội' bên dưới), họ có một cái cớ không thành thật cho việc này.

Do đó, người viết AI của chúng tôi sẽ cần trích xuất các từ khóa có thể hành động từ một bài báo và thực hiện các tìm kiếm có giới hạn thời gian để xác định vị trí, nếu có, câu chuyện đã bị phá vỡ – và sau đó đánh giá xem liệu có thể chiết khấu bất kỳ sự phổ biến nào trước đó hay liệu câu chuyện đã được diễn ra hay chưa .

Đôi khi, các bài báo cung cấp tài liệu video bổ sung trên YouTube, trong đó "lượt xem" có thể đóng vai trò là chỉ số lan truyền. Ngoài ra, AI của chúng tôi có thể trích xuất hình ảnh từ bài báo và thực hiện tìm kiếm dựa trên hình ảnh một cách có hệ thống, để xác định xem hình ảnh nào đã được đăng lại hay chưa, ở đâu và khi nào.

Trưng Phục Sinh

Đôi khi một bài báo "khô khan" tiết lộ những phát hiện có ý nghĩa sâu sắc và đáng đưa tin, nhưng lại bị các tác giả đánh giá thấp (thậm chí bỏ qua hoặc không tính đến), và chỉ có thể được tiết lộ bằng cách đọc toàn bộ bài báo và tính toán.

Trong những trường hợp hiếm hoi, tôi tin rằng, điều này là do các tác giả quan tâm nhiều hơn đến sự tiếp nhận trong giới học thuật hơn là công chúng nói chung, có lẽ vì họ cảm thấy (không phải lúc nào cũng sai) rằng các khái niệm cốt lõi liên quan không thể được đơn giản hóa đủ để công chúng hiểu, bất chấp những nỗ lực phóng đại của bộ phận quan hệ công chúng tại các tổ chức của họ.

Tuy nhiên, cũng thường xuyên như vậy, các tác giả có thể bỏ qua hoặc không nhìn thấy hoặc không thừa nhận những hàm ý trong công trình của họ, hoạt động chính thức dưới "sự che giấu khoa học". Đôi khi, những "trứng Phục sinh" này không phải là những chỉ báo tích cực cho công trình, như đã đề cập ở trên, và có thể bị che khuất một cách đầy mỉa mai trong các bảng kết quả phức tạp.

Ngoài Arxiv

Cần lưu ý rằng việc tham số hóa các bài báo về khoa học máy tính thành các mã thông báo và thực thể riêng biệt sẽ dễ dàng hơn nhiều trong một miền như Arxiv, nơi cung cấp một số 'móc' nhất quán và có mẫu để phân tích, và không yêu cầu đăng nhập cho hầu hết các chức năng.

Không phải tất cả quyền truy cập vào ấn phẩm khoa học đều là nguồn mở và vẫn còn phải xem liệu (từ quan điểm thực tế hoặc pháp lý) người viết khoa học AI của chúng ta có thể hoặc sẽ sử dụng cách trốn tránh tường phí thông qua Sci-Hub; để sử dụng các trang web lưu trữ để tránh tường phí; và liệu có khả thi hay không khi xây dựng các kiến ​​trúc khai thác miền tương tự cho nhiều nền tảng xuất bản khoa học khác, nhiều nền tảng trong số đó có cấu trúc chống lại việc thăm dò có hệ thống.

Cần phải xem xét thêm rằng ngay cả Arxiv có giới hạn tỷ lệ có khả năng làm chậm quá trình đánh giá tin tức của người viết AI xuống mức "con người" hơn.

Nhà văn khoa học AI 'xã hội'

Ngoài phạm vi mở và dễ tiếp cận của Arxiv và các nền tảng xuất bản khoa học 'mở' tương tự, ngay cả việc tiếp cận một bài báo mới thú vị cũng có thể là một thách thức, bao gồm việc tìm kênh liên hệ với tác giả và tiếp cận họ để yêu cầu đọc tác phẩm, và thậm chí để lấy báo giá (khi áp lực thời gian không phải là yếu tố quyết định - một trường hợp hiếm hoi đối với các phóng viên khoa học hiện nay).

Điều này có thể bao gồm việc tự động duyệt qua các lĩnh vực khoa học và tạo tài khoản (bạn cần phải đăng nhập để hiển thị địa chỉ email của tác giả bài báo, ngay cả trên Arxiv). Hầu hết thời gian, LinkedIn là cách nhanh nhất để nhận được phản hồi, nhưng các hệ thống AI hiện đang cấm liên lạc với thành viên.

Về việc các nhà nghiên cứu sẽ nhận được email chào mời từ một nhà văn khoa học AI như thế nào - cũng như với thế giới viết về khoa học thịt, nó có thể phụ thuộc vào ảnh hưởng của cửa hàng. Nếu một nhà văn dựa trên AI giả định từ Có dây Khi liên lạc với một tác giả mong muốn phổ biến tác phẩm của mình, có thể cho rằng tác phẩm đó có thể không nhận được phản ứng thù địch.

Trong hầu hết các trường hợp, người ta có thể tưởng tượng rằng tác giả hy vọng rằng những cuộc trao đổi bán tự động này cuối cùng có thể triệu tập một con người vào vòng lặp, nhưng không phải là không có khả năng các cuộc phỏng vấn VOIP tiếp theo có thể được tạo điều kiện thuận lợi bởi AI, ít nhất là khi tính khả thi của bài viết được dự đoán là dưới một ngưỡng nhất định và khi ấn phẩm có đủ sức hút để thu hút sự tham gia của con người vào cuộc trò chuyện với một 'nhà nghiên cứu AI'.

Xác định tin tức với AI

Nhiều nguyên tắc và thách thức được nêu ở đây áp dụng cho tiềm năng tự động hóa trong các lĩnh vực báo chí khác, và như trước đây, việc xác định một câu chuyện tiềm năng là thách thức cốt lõi. Hầu hết các nhà báo con người sẽ thừa nhận rằng thực sự viết câu chuyện chỉ là 10% nỗ lực cuối cùng, và khi bàn phím kêu lạch cạch, công việc gần như đã kết thúc.

Do đó, thách thức lớn là phát triển các hệ thống AI có thể phát hiện, điều tra và xác thực một câu chuyện, dựa trên nhiều thăng trầm phức tạp của trò chơi tin tức và vượt qua một loạt các nền tảng đã được củng cố để chống lại việc thăm dò và moi móc, con người hoặc nếu không thì.

Trong trường hợp báo cáo khoa học, các tác giả của các bài báo mới có một chương trình nghị sự tự phục vụ sâu sắc như bất kỳ nguồn chính tiềm năng nào khác của một câu chuyện tin tức, và việc giải cấu trúc đầu ra của họ sẽ đòi hỏi phải nhúng kiến ​​thức trước đó về các động cơ xã hội học, tâm lý và kinh tế. Do đó, một nhà văn khoa học tự động giả định sẽ cần nhiều hơn các thói quen NLP rút gọn để xác định vị trí của tin tức ngày nay, trừ khi lĩnh vực tin tức được phân tầng đặc biệt, như trường hợp của chứng khoán, số liệu đại dịch, kết quả thể thao, hoạt động địa chấn và các nguồn tin tức thống kê thuần túy khác .