Trí tuệ nhân tạo

Hướng tới viết khoa học tự động

cập nhật on 9 Tháng mười hai, 2022

Sáng nay, khi đang lướt qua phần Khoa học Máy tính của Arxiv, như tôi vẫn làm vào hầu hết các buổi sáng, tôi bắt gặp một giấy từ Đại học Liên bang Ceara ở Brazil, cung cấp khung Xử lý ngôn ngữ tự nhiên mới để tự động hóa việc tóm tắt và trích xuất dữ liệu cốt lõi từ các bài báo khoa học.

Vì đây ít nhiều là công việc tôi làm hàng ngày nên bài báo làm tôi nhớ đến một bình luận trên chủ đề của một nhà văn Reddit vào đầu năm nay – một lời tiên đoán cho thấy rằng viết lách khoa học sẽ là một trong những công việc báo chí sớm nhất được máy móc đảm nhiệm. học hỏi.

Hãy để tôi được rõ ràng - tôi hoàn toàn tin tưởng rằng nhà văn khoa học tự động đang đến và tất cả những thách thức mà tôi vạch ra trong bài viết này hiện có thể giải quyết được hoặc cuối cùng sẽ như vậy. Nếu có thể, tôi đưa ra các ví dụ cho việc này. Ngoài ra, tôi không đề cập đến việc liệu các AI viết khoa học hiện tại hoặc trong tương lai gần có thể viết nghiêm túc; dựa vào mức độ quan tâm hiện tại trong lĩnh vực NLP này, tôi cho rằng thách thức này cuối cùng sẽ được giải quyết.

Thay vào đó, tôi đang hỏi liệu một nhà văn khoa học AI có thể xác định những câu chuyện khoa học có liên quan phù hợp với kết quả mong muốn (rất đa dạng) của các nhà xuất bản.

Tôi không nghĩ nó sắp xảy ra; dựa trên việc lướt qua các tiêu đề và/hoặc bản sao của khoảng 2000 bài báo khoa học mới về máy học mỗi tuần, tôi có một quan điểm khá hoài nghi hơn về mức độ mà các bài nộp học thuật có thể được chia nhỏ theo thuật toán, cho mục đích lập chỉ mục học thuật hoặc cho báo chí khoa học. Như thường lệ, đó là những thứ đáng nguyền rủa nhân dân đang cản đường.

Yêu cầu đối với Người viết khoa học tự động

Hãy xem xét thách thức của việc tự động hóa báo cáo khoa học về nghiên cứu học thuật mới nhất. Để đảm bảo công bằng, chúng tôi sẽ giới hạn chủ yếu ở các danh mục CS của dịch vụ không có tường phí rất phổ biến tên miền Arxiv từ Đại học Cornell, nơi ít nhất có một số tính năng theo khuôn mẫu, có hệ thống có thể được cắm vào đường ống trích xuất dữ liệu.

Cũng giả sử rằng nhiệm vụ hiện tại, như với bài báo mới từ Brazil, là lặp lại các tiêu đề, tóm tắt, siêu dữ liệu và (nếu hợp lý) nội dung cơ bản của các bài báo khoa học mới để tìm kiếm các hằng số, tham số đáng tin cậy, mã thông báo và hành động , thông tin miền rút gọn.

Xét cho cùng, đây là nguyên tắc mà trên đó rất thành công khuôn khổ mới đang đạt được vị trí trong các lĩnh vực của báo cáo động đất, viết thể thao, báo chí tài chính và bảo hiểm y tế, và một điểm xuất phát hợp lý cho nhà báo khoa học được hỗ trợ bởi AI.

Quy trình làm việc của sản phẩm mới của Brazil. Bài báo khoa học PDF được chuyển đổi thành văn bản thuần túy UTF-8 (mặc dù điều này sẽ loại bỏ các phần nhấn mạnh in nghiêng có thể có ý nghĩa ngữ nghĩa) và các phần bài báo được dán nhãn và trích xuất trước khi được chuyển qua để lọc văn bản. Văn bản giải cấu trúc được chia thành các câu dưới dạng khung dữ liệu và các khung dữ liệu được hợp nhất trước khi nhận dạng mã thông báo và tạo hai ma trận mã thông báo tài liệu Nguồn: https://arxiv.org/ftp/arxiv/papers/2107/2107.14638.pdf

Làm phức tạp mẫu

Một lớp phù hợp và chính quy hóa đáng khích lệ là Arxiv áp đặt một khuôn mẫu được thi hành khá tốt cho các bài nộp và cung cấp hướng dẫn chi tiết cho các tác giả gửi. Do đó, các bài báo nói chung phù hợp với bất kỳ phần nào của giao thức áp dụng cho công việc được mô tả.

Do đó, hệ thống tiền xử lý AI dành cho người viết khoa học tự động giả định nói chung có thể coi các phần đó là các miền phụ: trừu tượng, giới thiệu, liên quan / công việc trước đây, phương pháp/dữ liệu, kết quả/phát hiện, nghiên cứu cắt bỏ, thảo luận, phần kết luận.

Tuy nhiên, trên thực tế, một số phần này có thể bị thiếu, đổi tên hoặc chứa nội dung mà nói đúng ra là thuộc về một phần khác. Hơn nữa, các tác giả sẽ tự nhiên bao gồm các tiêu đề và tiêu đề phụ không phù hợp với mẫu. Do đó, nó sẽ thuộc về NLP/NLU để xác định nội dung liên quan đến phần thích hợp từ ngữ cảnh.

Tiêu đề cho rắc rối

Hệ thống phân cấp tiêu đề là một cách dễ dàng để các hệ thống NLP ban đầu phân loại các khối nội dung. Rất nhiều nội dung đệ trình của Arxiv được xuất từ Microsoft Word (bằng chứng là các tệp PDF Arxiv bị xử lý sai để lại 'Microsoft Word' trong tiêu đề – xem hình ảnh bên dưới). Nếu bạn sử dụng thích hợp tiêu đề phần trong Word, xuất sang PDF sẽ tạo lại chúng dưới dạng tiêu đề phân cấp hữu ích cho quy trình trích xuất dữ liệu của trình báo cáo máy.

Tuy nhiên, điều này giả định rằng các tác giả thực sự đang sử dụng các tính năng như vậy trong Word hoặc các khung tạo tài liệu khác, chẳng hạn như TeX và các dẫn xuất (hiếm khi được cung cấp dưới dạng định dạng thay thế gốc trong các bài nộp của Arxiv, với hầu hết các dịch vụ được giới hạn ở PDF và đôi khi, thậm chí còn mờ đục hơn PostScript).

Dựa trên nhiều năm đọc các bài báo của Arxiv, tôi đã lưu ý rằng phần lớn trong số chúng không chứa bất kì siêu dữ liệu cấu trúc có thể hiểu được, với tiêu đề được báo cáo trong trình đọc (tức là trình duyệt web hoặc trình đọc PDF) dưới dạng tiêu đề đầy đủ (bao gồm cả phần mở rộng), của chính tài liệu đó.

Trong trường hợp này, khả năng diễn giải ngữ nghĩa của bài báo bị hạn chế và hệ thống người viết khoa học dựa trên AI sẽ cần liên kết lại theo chương trình với siêu dữ liệu được liên kết của nó tại miền Arxiv. Quy ước của Arxiv quy định rằng siêu dữ liệu cơ bản cũng được chèn ngang bằng loại lớn màu xám trên trang 1 của tệp PDF đã gửi (xem hình ảnh bên dưới). Đáng buồn thay – nhất là vì đây là nơi đáng tin cậy duy nhất mà bạn có thể tìm thấy ngày xuất bản hoặc số phiên bản – nó thường bị loại trừ.

Nhiều tác giả hoàn toàn không sử dụng kiểu nào hoặc chỉ sử dụng kiểu H1 (tiêu đề/tiêu đề cao nhất), khiến NLU phải trích xuất lại tiêu đề một lần nữa từ ngữ cảnh (có lẽ không quá khó) hoặc bằng cách phân tích số tham chiếu bao gồm tiêu đề trong lộ trình tài liệu (ví dụ: https://arxiv.org/pdf/2110.00168.pdf) và tận dụng siêu dữ liệu dựa trên mạng (chứ không phải cục bộ) để gửi.

Mặc dù phần sau sẽ không giải quyết được các tiêu đề vắng mặt, nhưng ít nhất nó sẽ thiết lập phần Khoa học máy tính mà bài gửi áp dụng, đồng thời cung cấp thông tin về ngày và phiên bản.

GluedText tại ParagraphReturns

Với PDF và phần tái bút, các định dạng Arxiv có sẵn phổ biến nhất được gửi bởi các tác giả, hệ thống NLP sẽ cần một quy trình để tách các từ cuối dòng khỏi các từ bắt đầu của dòng tiếp theo được 'đính kèm' với chúng theo định dạng PDF không may phương pháp tối ưu hóa mặc định.

Khử nối (và khử gạch nối) từ có thể được thực hiện ở Perl và nhiều thủ tục đệ quy đơn giản khác, mặc dù Phương pháp tiếp cận dựa trên Python có thể ít tốn thời gian hơn và phù hợp hơn với khung ML. Adobe, người tạo ra định dạng PDF, cũng đã phát triển một hệ thống chuyển đổi hỗ trợ AI có tên là Chế độ chất lỏng, có khả năng 'chỉnh lại' văn bản đã chỉnh sửa trong tệp PDF, mặc dù việc triển khai nó ra ngoài không gian di động tỏ ra chậm.

kém tiếng anh

Tiếng Anh vẫn là tiêu chuẩn khoa học toàn cầu để gửi các bài báo khoa học, mặc dù đây là gây tranh cãi. Do đó, các bài báo thú vị và đáng chú ý đôi khi chứa tiêu chuẩn kinh khủng của tiếng Anh, từ các nhà nghiên cứu không phải người Anh. Nếu việc sử dụng tiếng Anh khéo léo được đưa vào như một thước đo giá trị khi một hệ thống máy móc đánh giá tác phẩm, thì không chỉ những câu chuyện hay thường bị mất đi, mà sản phẩm có giá trị thấp mang tính mô phạm sẽ được đánh giá cao hơn đơn giản chỉ vì nó nói rất ít hoặc rất hay.

Các hệ thống NLP không linh hoạt về mặt này có khả năng gặp phải một lớp trở ngại bổ sung trong việc trích xuất dữ liệu, ngoại trừ trong các ngành khoa học cứng nhắc và được tham số hóa nhất, chẳng hạn như hóa học và vật lý lý thuyết, nơi các đồ thị và biểu đồ tuân thủ thống nhất hơn trong các cộng đồng khoa học toàn cầu. Mặc dù các bài báo về máy học thường có các công thức, nhưng những công thức này có thể không đại diện cho giá trị xác định của bài nộp nếu không có sự đồng thuận khoa học được thiết lập đầy đủ về phương pháp luận mà các ngành khoa học cũ được hưởng.

Lựa chọn: Xác định yêu cầu đối tượng

Chúng ta sẽ sớm quay lại nhiều vấn đề về việc phân tách các bài báo khoa học lập dị thành các điểm dữ liệu rời rạc. Bây giờ, hãy xem xét đối tượng và mục tiêu của chúng ta, vì những điều này sẽ rất cần thiết để giúp nhà văn khoa học AI sàng lọc hàng nghìn bài báo mỗi tuần. Dự đoán sự thành công của những câu chuyện tin tức tiềm năng đã được một khu vực hoạt động trong học máy.

Ví dụ: nếu 'lưu lượng truy cập khoa học' với số lượng lớn là mục tiêu duy nhất tại một trang web mà bài viết về khoa học chỉ là một phần của dịch vụ báo chí rộng lớn hơn (như trường hợp của Vương quốc Anh Daily Mail phần khoa học), AI có thể được yêu cầu để xác định các chủ đề có tổng lưu lượng truy cập cao nhất và tối ưu hóa lựa chọn của nó theo hướng đó. Quá trình này có thể sẽ ưu tiên (tương đối) các loại trái cây treo thấp như robot, bay không người lái, deepfakes, riêng tư và lỗ hổng bảo mật.

Phù hợp với tình trạng hiện tại của nghệ thuật trong các hệ thống tư vấn, việc thu thập cấp độ cao này có khả năng dẫn đến 'bộ lọc bong bóng' các vấn đề đối với nhà văn khoa học AI của chúng tôi, vì thuật toán tăng sự chú ý đến hàng loạt bài báo khoa học giả mạo hơn có các từ khóa và cụm từ tần suất cao 'được mong muốn' về các chủ đề này (một lần nữa, bởi vì có tiền để có được chúng, cả về lưu lượng truy cập, cho các cửa hàng tin tức và tài trợ cho các khoa học thuật), trong khi bỏ qua một số 'trứng Phục sinh' dễ viết hơn nhiều (xem bên dưới) có thể được tìm thấy ở nhiều góc ít người lui tới của Arxiv.

Một và Xong!

Những tin tức khoa học tốt có thể đến từ những nơi xa lạ và bất ngờ, và từ những lĩnh vực và chủ đề không hiệu quả trước đây. Để gây bối rối hơn nữa cho nhà văn khoa học AI của chúng tôi, người đang hy vọng tạo ra một chỉ mục hiệu quả về các nguồn tin tức 'hiệu quả', thì nguồn tin 'hit' lạc nhịp (chẳng hạn như máy chủ Discord, bộ phận nghiên cứu học thuật hoặc công ty khởi nghiệp công nghệ) sẽ thường không bao giờ sản xuất lại tài liệu có thể hành động, trong khi tiếp tục tạo ra một luồng thông tin đồ sộ và ồn ào có giá trị thấp hơn.

Kiến trúc máy học lặp đi lặp lại có thể suy ra điều gì từ điều này? Rằng hàng nghìn nguồn tin tức 'ngoại lệ' trước đây mà nó từng xác định và loại trừ đột nhiên được ưu tiên (mặc dù làm như vậy sẽ tạo ra tỷ lệ tín hiệu trên tạp âm không thể kiểm soát được, xét đến khối lượng lớn các bài báo được phát hành hàng năm)? Bản thân chủ đề đó xứng đáng với một lớp kích hoạt hơn so với nguồn tin tức mà chủ đề đó đến (trong trường hợp chủ đề phổ biến, đây là một hành động dư thừa)...?

Hữu ích hơn, hệ thống có thể biết rằng nó phải di chuyển lên hoặc xuống trong hệ thống phân cấp chiều dữ liệu để tìm kiếm các mẫu – nếu thực sự có bất kỳ mẫu nào – cấu thành cái mà ông nội nhà báo quá cố của tôi gọi là 'cái mũi biết tin tức' và xác định tính năng đáng tin như một chất lượng lưu động và trừu tượng không thể dự đoán chính xác chỉ dựa trên nguồn gốc xuất xứ và có thể thay đổi hàng ngày.

Xác định giả thuyết thất bại

do áp lực hạn ngạch, các khoa học thuật đôi khi sẽ xuất bản các công trình mà giả thuyết trung tâm đã thất bại hoàn toàn (hoặc gần như hoàn toàn) trong thử nghiệm, ngay cả khi các phương pháp và phát hiện của dự án dù sao cũng đáng được quan tâm một chút theo đúng nghĩa của chúng.

Những thất vọng như vậy thường không được báo hiệu trong bản tóm tắt; trong những trường hợp xấu nhất, các giả thuyết bị bác bỏ chỉ có thể nhận ra bằng cách đọc các biểu đồ kết quả. Điều này không chỉ đòi hỏi phải suy ra một sự hiểu biết chi tiết về phương pháp luận từ thông tin hạn chế và có chọn lọc cao mà bài báo có thể cung cấp, mà còn yêu cầu các thuật toán diễn giải biểu đồ lão luyện có thể diễn giải một cách có ý nghĩa mọi thứ từ biểu đồ hình tròn đến biểu đồ phân tán, trong ngữ cảnh.

Một hệ thống dựa trên NLP đặt niềm tin vào các bản tóm tắt nhưng không thể diễn giải các biểu đồ và bảng biểu có thể khiến bạn khá hào hứng với một bài báo mới ngay từ lần đọc đầu tiên. Thật không may, các ví dụ trước đây về 'thất bại tiềm ẩn' trong các bài báo học thuật (vì mục đích đào tạo) rất khó khái quát thành các mẫu, vì 'tội phạm học thuật' này chủ yếu là một trong những thiếu sót hoặc không được nhấn mạnh, và do đó khó nắm bắt.

Trong một trường hợp cực đoan, người viết AI của chúng tôi có thể cần định vị và kiểm tra dữ liệu kho lưu trữ (tức là từ GitHub) hoặc phân tích cú pháp bất kỳ tài liệu bổ sung có sẵn nào, để hiểu kết quả có ý nghĩa gì về mặt mục tiêu của tác giả. Do đó, một hệ thống máy học sẽ cần duyệt qua nhiều nguồn và định dạng chưa được lập bản đồ có liên quan đến việc này, khiến việc tự động hóa các quy trình xác minh trở thành một thách thức về mặt kiến trúc.

Kịch bản 'Hộp trắng'

Một số tuyên bố thái quá nhất được đưa ra trong các tài liệu bảo mật tập trung vào AI hóa ra lại yêu cầu mức độ truy cập đặc biệt và rất khó xảy ra đối với mã nguồn hoặc cơ sở hạ tầng nguồn – các cuộc tấn công 'hộp trắng'. Mặc dù điều này hữu ích cho việc ngoại suy những điều kỳ quặc chưa biết trước đây trong kiến trúc của các hệ thống AI, nhưng nó hầu như không bao giờ đại diện cho một bề mặt tấn công có thể khai thác thực tế. Do đó, người viết về khoa học AI sẽ cần một công cụ phát hiện khá tốt để phân tách các tuyên bố xung quanh bảo mật thành các xác suất để triển khai hiệu quả.

Người viết khoa học tự động sẽ cần một quy trình NLU có khả năng để cô lập các đề cập 'hộp trắng' thành một ngữ cảnh có ý nghĩa (tức là để phân biệt các đề cập với hàm ý cốt lõi cho bài báo) và khả năng suy luận phương pháp hộp trắng trong trường hợp cụm từ không bao giờ xuất hiện trong giấy.

'Gotcha' khác

Những nơi khác mà tính không khả thi và giả thuyết thất bại có thể bị chôn vùi hoàn toàn là ở nghiên cứu cắt bỏ, loại bỏ một cách có hệ thống các yếu tố chính của một công thức hoặc phương pháp mới để xem liệu kết quả có bị ảnh hưởng tiêu cực hay liệu khám phá 'cốt lõi' có khả năng phục hồi hay không. Trong thực tế, các bài báo bao gồm các nghiên cứu về cắt bỏ thường khá tự tin về những phát hiện của họ, mặc dù đọc kỹ thường có thể phát hiện ra một 'sự vô tội vạ'. Trong nghiên cứu AI, trò lừa bịp đó thường dẫn đến quá mức, trong đó hệ thống máy học hoạt động tốt trên dữ liệu nghiên cứu ban đầu, nhưng không thể khái quát hóa thành dữ liệu mới hoặc hoạt động theo các ràng buộc không thể tái tạo khác.

Một tiêu đề phần hữu ích khác để trích xuất hệ thống tiềm năng là Hạn chế. Đây là phần đầu tiên mà bất kỳ người viết khoa học nào (AI hoặc con người) nên bỏ qua, vì nó có thể chứa thông tin bác bỏ toàn bộ giả thuyết của bài báo và chuyển sang phần đó có thể tiết kiệm được số giờ làm việc đã mất (ít nhất là đối với con người) . Một trường hợp xấu hơn ở đây là một bài báo thực sự có một Hạn chế phần, nhưng các sự kiện 'thỏa hiệp' được bao gồm nơi khác trong tác phẩm chứ không phải ở đây (hoặc bị đánh giá thấp ở đây).

Tiếp theo là Công việc trước đó. Điều này xảy ra sớm trong mẫu Arxiv và thường tiết lộ rằng bài báo hiện tại chỉ đại diện cho một tiến bộ nhỏ trong một dự án đổi mới hơn nhiều, thường là từ 12-18 tháng trước. Ở giai đoạn này, người viết AI sẽ cần khả năng xác định xem tác phẩm trước đó có đạt được sức hút hay không; vẫn còn một câu chuyện ở đây? Có phải tác phẩm trước đó đã vô tình lọt qua thông báo công khai tại thời điểm xuất bản? Hay bài báo mới chỉ là một phần tái bút chiếu lệ cho một dự án trước đó được đề cập kỹ lưỡng?

Đánh giá Re-Treads và 'Độ tươi'

Bên cạnh việc sửa lỗi sai trong phiên bản cũ hơn, rất thường V.2 của một bài báo đại diện cho ít hơn các tác giả kêu gọi sự chú ý mà họ đã không nhận được khi V.1 được xuất bản. Tuy nhiên, thông thường, một bài báo thực sự xứng đáng được cắn quả anh đào lần thứ hai, vì sự chú ý của giới truyền thông có thể đã bị chuyển hướng sang nơi khác vào thời điểm xuất bản ban đầu, hoặc tác phẩm bị che khuất bởi lượng bài nộp cao trong các kỳ 'hội nghị chuyên đề' và hội nghị quá đông (chẳng hạn như thu và cuối đông).

Một tính năng hữu ích tại Arxiv để phân biệt lần chạy lại là thẻ [CẬP NHẬT] được thêm vào tiêu đề bài nộp. 'Hệ thống đề xuất' nội bộ của người viết AI của chúng tôi sẽ cần xem xét cẩn thận liệu có hay không [CẬP NHẬT]=='Đã chơi hết', đặc biệt vì nó có thể (có lẽ) đánh giá giấy được làm ấm lại nhanh hơn nhiều hơn là một hack khoa học khó khăn. Về mặt này, nó có một lợi thế đáng chú ý so với con người, nhờ vào quy ước đặt tên có khả năng tồn tại lâu dài, ít nhất là ở Arxiv.

Arxiv cũng cung cấp thông tin trong trang tóm tắt về việc liệu bài báo đó có được xác định là có 'sự giao thoa đáng kể' giữa văn bản với một bài báo khác (thường của cùng một tác giả hay không) và điều này cũng có khả năng được phân tích thành 'bản sao/đọc lại' trạng thái bởi hệ thống ghi AI trong trường hợp không có thẻ [CẬP NHẬT].

Xác định sự khuếch tán

Giống như hầu hết các nhà báo, nhà văn khoa học AI dự kiến của chúng tôi đang tìm kiếm những tin tức chưa được báo cáo hoặc chưa được báo cáo để tăng thêm giá trị cho luồng nội dung mà nó hỗ trợ. Trong hầu hết các trường hợp, việc báo cáo lại các đột phá khoa học lần đầu tiên xuất hiện trên các hãng tin lớn như TechCrunch, The Verge và EurekaAlert et al là vô nghĩa, vì các nền tảng lớn như vậy hỗ trợ nội dung của họ bằng các máy công khai toàn diện, hầu như đảm bảo độ bão hòa phương tiện cho bài báo.

Do đó, nhà văn AI của chúng tôi phải xác định xem câu chuyện có đủ mới mẻ để đáng theo đuổi hay không.

Về lý thuyết, cách dễ nhất là xác định các Liên kết trong nước đến các trang nghiên cứu cốt lõi (tóm tắt, PDF, phần tin tức trên trang web của bộ phận học thuật, v.v.). Nói chung, các khung có thể cung cấp thông tin liên kết đến cập nhật không phải là nguồn mở hoặc chi phí thấp, nhưng các nhà xuất bản lớn có lẽ có thể chịu chi phí SaaS như một phần của khung đánh giá mức độ tin cậy.

Giả sử quyền truy cập như vậy, nhà văn khoa học AI của chúng tôi sau đó phải đối mặt với vấn đề mà một số lượng lớn các cửa hàng báo cáo khoa học không trích dẫn các bài báo họ đang viết, ngay cả trong trường hợp thông tin đó được cung cấp miễn phí. Xét cho cùng, một cửa hàng muốn báo cáo thứ cấp liên kết với họ chứ không phải nguồn. Bởi vì, trong nhiều trường hợp, họ thực sự có được quyền truy cập đặc quyền hoặc bán đặc quyền vào một bài báo nghiên cứu (xem Nhà văn Khoa học 'Xã hội' bên dưới), họ có một cái cớ không thành thật cho việc này.

Do đó, người viết AI của chúng tôi sẽ cần trích xuất các từ khóa có thể hành động từ một bài báo và thực hiện các tìm kiếm có giới hạn thời gian để xác định vị trí, nếu có, câu chuyện đã bị phá vỡ – và sau đó đánh giá xem liệu có thể chiết khấu bất kỳ sự phổ biến nào trước đó hay liệu câu chuyện đã được diễn ra hay chưa .

Đôi khi các bài báo cung cấp tài liệu video bổ sung trên YouTube, trong đó 'số lượt xem' có thể đóng vai trò là chỉ số phổ biến. Ngoài ra, AI của chúng tôi có thể trích xuất hình ảnh từ bài báo và thực hiện tìm kiếm dựa trên hình ảnh có hệ thống, để xác định xem, ở đâu và khi nào bất kỳ hình ảnh nào đã được xuất bản lại.

Trưng Phục Sinh

Đôi khi một bài báo 'khô khan' tiết lộ những phát hiện có ý nghĩa sâu sắc và đáng tin cậy, nhưng lại bị các tác giả đánh giá thấp (hoặc thậm chí bỏ qua hoặc giảm giá trị) và sẽ chỉ được tiết lộ bằng cách đọc toàn bộ bài báo và làm phép tính.

Tôi tin rằng trong một số ít trường hợp, điều này là do các tác giả quan tâm nhiều đến sự tiếp nhận trong giới học thuật hơn là công chúng nói chung, có lẽ vì họ cảm thấy (không phải lúc nào cũng sai) rằng các khái niệm cốt lõi liên quan đơn giản là không thể được đơn giản hóa đủ để sử dụng chung, mặc dù thường là những nỗ lực khoa trương của bộ phận PR của tổ chức của họ.

Nhưng hầu như thường xuyên, các tác giả có thể giảm giá trị hoặc không nhìn thấy hoặc thừa nhận ý nghĩa của công việc của họ, hoạt động chính thức theo 'loại bỏ khoa học'. Đôi khi những 'quả trứng Phục sinh' này không phải là chỉ số tích cực cho công việc, như đã đề cập ở trên, và có thể bị che khuất một cách hoài nghi trong các bảng kết quả phức tạp.

Ngoài Arxiv

Cần cân nhắc rằng việc tham số hóa các bài báo về khoa học máy tính thành các mã thông báo và thực thể riêng biệt sẽ dễ dàng hơn nhiều ở một miền như Arxiv, miền này cung cấp một số 'móc nối' nhất quán và theo khuôn mẫu để phân tích và không yêu cầu đăng nhập đối với hầu hết các chức năng .

Không phải tất cả quyền truy cập vào ấn phẩm khoa học đều là nguồn mở và vẫn còn phải xem liệu (từ quan điểm thực tế hoặc pháp lý) người viết khoa học AI của chúng ta có thể hoặc sẽ sử dụng cách trốn tránh tường phí thông qua Sci-Hub; để sử dụng các trang web lưu trữ để tránh tường phí; và liệu có khả thi hay không khi xây dựng các kiến trúc khai thác miền tương tự cho nhiều nền tảng xuất bản khoa học khác, nhiều nền tảng trong số đó có cấu trúc chống lại việc thăm dò có hệ thống.

Cần phải xem xét thêm rằng ngay cả Arxiv có giới hạn tỷ lệ có khả năng làm chậm thói quen đánh giá tin tức của người viết AI xuống tốc độ 'con người' hơn.

Nhà văn Khoa học AI 'Xã hội'

Ngoài lĩnh vực mở và dễ tiếp cận của Arxiv và các nền tảng xuất bản khoa học 'mở' tương tự, ngay cả việc có được quyền truy cập vào một bài báo mới thú vị cũng có thể là một thách thức, liên quan đến việc tìm kênh liên hệ cho tác giả và tiếp cận họ để yêu cầu đọc tác phẩm, và thậm chí để có được báo giá (trong đó áp lực về thời gian không phải là yếu tố quan trọng nhất - một trường hợp hiếm gặp đối với các phóng viên khoa học con người ngày nay).

Điều này có thể dẫn đến việc duyệt tự động các lĩnh vực khoa học và tạo tài khoản (bạn cần phải đăng nhập để tiết lộ địa chỉ email của tác giả bài báo, ngay cả trên Arxiv). Hầu hết thời gian, LinkedIn là cách nhanh nhất để nhận được phản hồi, nhưng các hệ thống AI hiện đang cấm liên lạc với thành viên.

Về việc các nhà nghiên cứu sẽ nhận được email chào mời từ một nhà văn khoa học AI như thế nào - cũng như với thế giới viết về khoa học thịt, nó có thể phụ thuộc vào ảnh hưởng của cửa hàng. Nếu một nhà văn dựa trên AI giả định từ Có dây đã liên hệ với một tác giả mong muốn phổ biến tác phẩm của họ, thật hợp lý khi cho rằng tác phẩm đó có thể không gặp phải phản ứng thù địch.

Trong hầu hết các trường hợp, người ta có thể tưởng tượng rằng tác giả sẽ hy vọng rằng những trao đổi bán tự động này cuối cùng có thể triệu tập một con người vào vòng lặp, nhưng không nằm ngoài khả năng các cuộc phỏng vấn VOIP tiếp theo có thể được hỗ trợ bởi AI, tại ít nhất là khi khả năng tồn tại của bài báo được dự đoán là dưới một ngưỡng nhất định và khi ấn phẩm có đủ sức hút để thu hút sự tham gia của con người vào cuộc trò chuyện với một 'nhà nghiên cứu AI'.

Xác định tin tức với AI

Nhiều nguyên tắc và thách thức được nêu ở đây áp dụng cho tiềm năng tự động hóa trong các lĩnh vực báo chí khác, và như trước đây, việc xác định một câu chuyện tiềm năng là thách thức cốt lõi. Hầu hết các nhà báo con người sẽ thừa nhận rằng thực sự viết câu chuyện chỉ là 10% nỗ lực cuối cùng, và khi bàn phím kêu lạch cạch, công việc gần như đã kết thúc.

Do đó, thách thức lớn là phát triển các hệ thống AI có thể phát hiện, điều tra và xác thực một câu chuyện, dựa trên nhiều thăng trầm phức tạp của trò chơi tin tức và vượt qua một loạt các nền tảng đã được củng cố để chống lại việc thăm dò và moi móc, con người hoặc nếu không thì.

Trong trường hợp báo cáo khoa học, các tác giả của các bài báo mới có một chương trình nghị sự tự phục vụ sâu sắc như bất kỳ nguồn chính tiềm năng nào khác của một câu chuyện tin tức, và việc giải cấu trúc đầu ra của họ sẽ đòi hỏi phải nhúng kiến thức trước đó về các động cơ xã hội học, tâm lý và kinh tế. Do đó, một nhà văn khoa học tự động giả định sẽ cần nhiều hơn các thói quen NLP rút gọn để xác định vị trí của tin tức ngày nay, trừ khi lĩnh vực tin tức được phân tầng đặc biệt, như trường hợp của chứng khoán, số liệu đại dịch, kết quả thể thao, hoạt động địa chấn và các nguồn tin tức thống kê thuần túy khác .