Trí tuệ nhân tạo

Tiền hóa Nghiên cứu cho Đào tạo Trí tuệ Nhân tạo: Rủi ro và Thực tiễn Tốt nhất

Published December 20, 2024

Updated April 3, 2026

Dr. Tehseen Zia

Khi nhu cầu về trí tuệ nhân tạo tạo ra tăng, sự thèm khát về dữ liệu chất lượng cao để đào tạo những hệ thống này cũng tăng. Các nhà xuất bản học thuật đã bắt đầu tiền hóa nội dung nghiên cứu của họ để cung cấp dữ liệu đào tạo cho các mô hình ngôn ngữ lớn (LLMs). Mặc dù sự phát triển này tạo ra một dòng doanh thu mới cho các nhà xuất bản và trao quyền cho trí tuệ nhân tạo tạo ra để khám phá khoa học, nó cũng đặt ra những câu hỏi quan trọng về tính toàn vẹn và độ tin cậy của nghiên cứu được sử dụng. Điều này đặt ra một câu hỏi quan trọng: Liệu các tập dữ liệu được bán có đáng tin cậy, và thực tiễn này có những ý nghĩa gì đối với cộng đồng khoa học và mô hình trí tuệ nhân tạo?

Sự trỗi dậy của Các Thỏa thuận Nghiên cứu Tiền hóa

Các nhà xuất bản học thuật lớn, bao gồm Wiley, Taylor & Francis, và các nhà khác, đã báo cáo doanh thu đáng kể từ việc cấp phép nội dung của họ cho các công ty công nghệ đang phát triển mô hình trí tuệ nhân tạo tạo ra. Ví dụ, Wiley đã tiết lộ hơn 40 triệu đô la thu nhập từ những thỏa thuận này trong năm nay alone. Những thỏa thuận này cho phép các công ty trí tuệ nhân tạo truy cập vào các tập dữ liệu khoa học đa dạng và rộng lớn, giả sử cải thiện chất lượng của các công cụ trí tuệ nhân tạo của họ.
Đề xuất từ các nhà xuất bản là thẳng thắn: cấp phép đảm bảo các mô hình trí tuệ nhân tạo tốt hơn, mang lại lợi ích cho xã hội đồng thời thưởng cho các tác giả với tiền bản quyền. Mô hình kinh doanh này mang lại lợi ích cho cả công ty công nghệ và nhà xuất bản. Tuy nhiên, xu hướng ngày càng tăng để tiền hóa kiến thức khoa học có những rủi ro, chủ yếu khi nghiên cứu đáng ngờ xâm nhập vào các tập dữ liệu đào tạo trí tuệ nhân tạo.

Bóng tối của Nghiên cứu Giả

Cộng đồng học thuật không xa lạ với các vấn đề về nghiên cứu gian lận. Các nghiên cứu cho thấy nhiều phát hiện được công bố là có khuyết điểm, thiên vị hoặc chỉ không đáng tin cậy. Một cuộc khảo sát năm 2020 cho thấy gần một nửa số nhà nghiên cứu đã báo cáo các vấn đề như báo cáo dữ liệu chọn lọc hoặc nghiên cứu lĩnh vực thiết kế kém. Vào năm 2023, hơn 10.000 bài báo đã bị thu hồi do kết quả bị giả mạo hoặc không đáng tin cậy, một con số tiếp tục tăng hàng năm. Các chuyên gia tin rằng con số này chỉ là phần nổi của tảng băng, với vô số nghiên cứu đáng ngờ đang lưu hành trong các cơ sở dữ liệu khoa học.
Crisis này chủ yếu được thúc đẩy bởi “paper mills,” các tổ chức bóng tối sản xuất các nghiên cứu giả tạo, thường là để đáp ứng áp lực học thuật ở các khu vực như Trung Quốc, Ấn Độ và Đông Âu. Người ta ước tính rằng khoảng 2% số bài báo gửi đến các tạp chí trên toàn cầu đến từ các nhà máy giấy. Những bài báo giả này có thể trông giống như nghiên cứu hợp pháp nhưng bị riddled với dữ liệu giả và kết luận không có căn cứ. Điều đáng lo ngại là những bài báo như vậy có thể lọt qua quá trình đánh giá đồng nghiệp và kết thúc trong các tạp chí được tôn trọng, làm tổn hại đến độ tin cậy của các thông tin khoa học. Ví dụ, trong đại dịch COVID-19, các nghiên cứu có khuyết điểm về ivermectin đã gợi ý sai lầm về hiệu quả của nó như một phương pháp điều trị, gây ra sự nhầm lẫn và trì hoãn phản ứng y tế công cộng hiệu quả. Ví dụ này nhấn mạnh tác hại tiềm ẩn của việc phổ biến nghiên cứu không đáng tin cậy, nơi kết quả sai lầm có thể có tác động đáng kể.

Hậu quả đối với Đào tạo Trí tuệ Nhân tạo và Sự Tin tưởng

Những ý nghĩa là sâu sắc khi các mô hình LLM đào tạo trên các cơ sở dữ liệu chứa nghiên cứu gian lận hoặc nghiên cứu chất lượng thấp. Các mô hình trí tuệ nhân tạo sử dụng các mẫu và mối quan hệ trong dữ liệu đào tạo của chúng để tạo ra đầu ra. Nếu dữ liệu đầu vào bị hư hỏng, đầu ra có thể tiếp tục sai lầm hoặc thậm chí tăng cường chúng. Rủi ro này đặc biệt cao trong các lĩnh vực như y học, nơi các thông tin trí tuệ nhân tạo tạo ra không chính xác có thể có hậu quả nguy hiểm đến tính mạng.
Hơn nữa, vấn đề này đe dọa sự tin tưởng của công chúng vào học thuật và trí tuệ nhân tạo. Khi các nhà xuất bản tiếp tục ký kết các thỏa thuận, họ phải giải quyết các lo ngại về chất lượng của dữ liệu được bán. Việc không làm như vậy có thể làm tổn hại đến danh tiếng của cộng đồng khoa học và làm suy yếu lợi ích tiềm năng của trí tuệ nhân tạo.

Đảm bảo Dữ liệu Tin cậy cho Trí tuệ Nhân tạo

Giảm thiểu rủi ro của nghiên cứu có khuyết điểm làm gián đoạn đào tạo trí tuệ nhân tạo đòi hỏi sự hợp tác chung từ các nhà xuất bản, công ty trí tuệ nhân tạo, nhà phát triển, nhà nghiên cứu và cộng đồng rộng lớn hơn. Các nhà xuất bản phải cải thiện quá trình đánh giá đồng nghiệp của họ để bắt được các nghiên cứu không đáng tin cậy trước khi chúng vào các tập dữ liệu đào tạo. Cung cấp phần thưởng tốt hơn cho các nhà đánh giá và đặt ra các tiêu chuẩn cao hơn có thể giúp. Một quá trình đánh giá mở là rất quan trọng ở đây. Nó mang lại sự minh bạch và trách nhiệm, giúp xây dựng sự tin tưởng vào nghiên cứu.
Các công ty trí tuệ nhân tạo phải cẩn thận hơn khi hợp tác với các nhà xuất bản và tạp chí có uy tín về nghiên cứu chất lượng cao, được đánh giá tốt. Trong bối cảnh này, việc xem xét kỹ lưỡng hồ sơ theo dõi của một nhà xuất bản — như tần suất họ thu hồi bài báo hoặc mức độ minh bạch của quá trình đánh giá — là rất quan trọng. Việc chọn lọc cải thiện độ tin cậy của dữ liệu và xây dựng sự tin tưởng trên cả cộng đồng trí tuệ nhân tạo và nghiên cứu.
Các nhà phát triển trí tuệ nhân tạo cần phải chịu trách nhiệm về dữ liệu họ sử dụng. Điều này có nghĩa là làm việc với các chuyên gia, kiểm tra cẩn thận nghiên cứu và so sánh kết quả từ nhiều nghiên cứu. Các công cụ trí tuệ nhân tạo cũng có thể được thiết kế để xác định dữ liệu đáng ngờ và giảm thiểu rủi ro của nghiên cứu đáng ngờ lan rộng hơn.
Minh bạch cũng là một yếu tố quan trọng. Các nhà xuất bản và công ty trí tuệ nhân tạo nên chia sẻ công khai chi tiết về cách nghiên cứu được sử dụng và nơi tiền bản quyền đi. Các công cụ như Generative AI Licensing Agreement Tracker cho thấy tiềm năng nhưng cần được áp dụng rộng rãi hơn. Các nhà nghiên cứu cũng nên có tiếng nói trong cách công việc của họ được sử dụng. Chính sách opt-in, như những chính sách từ Cambridge University Press, cung cấp cho các tác giả quyền kiểm soát đóng góp của họ. Điều này xây dựng sự tin tưởng, đảm bảo sự công bằng và khiến các tác giả tham gia tích cực vào quá trình này.
Hơn nữa, việc tiếp cận mở với nghiên cứu chất lượng cao nên được khuyến khích để đảm bảo sự hòa nhập và công bằng trong phát triển trí tuệ nhân tạo. Các chính phủ, tổ chức phi lợi nhuận và các bên tham gia ngành công nghiệp có thể tài trợ cho các sáng kiến mở, giảm sự phụ thuộc vào các nhà xuất bản thương mại cho các tập dữ liệu đào tạo quan trọng. Trên hết, ngành công nghiệp trí tuệ nhân tạo cần có các quy tắc rõ ràng về việc thu thập dữ liệu một cách đạo đức. Bằng cách tập trung vào nghiên cứu đáng tin cậy, được đánh giá tốt, chúng ta có thể xây dựng các công cụ trí tuệ nhân tạo tốt hơn, bảo vệ tính toàn vẹn của khoa học và duy trì sự tin tưởng của công chúng vào khoa học và công nghệ.

Kết luận

Tiền hóa nghiên cứu cho đào tạo trí tuệ nhân tạo mang lại cả cơ hội và thách thức. Mặc dù việc cấp phép nội dung học thuật cho phép phát triển các mô hình trí tuệ nhân tạo mạnh mẽ hơn, nó cũng đặt ra những lo ngại về tính toàn vẹn và độ tin cậy của dữ liệu được sử dụng. Nghiên cứu có khuyết điểm, bao gồm cả nghiên cứu từ “nhà máy giấy”, có thể làm hỏng các tập dữ liệu đào tạo trí tuệ nhân tạo, dẫn đến sự không chính xác có thể làm suy yếu sự tin tưởng của công chúng và lợi ích tiềm năng của trí tuệ nhân tạo. Để đảm bảo các mô hình trí tuệ nhân tạo được xây dựng trên dữ liệu đáng tin cậy, các nhà xuất bản, công ty trí tuệ nhân tạo và nhà phát triển phải làm việc cùng nhau để cải thiện quá trình đánh giá đồng nghiệp, tăng cường minh bạch và ưu tiên nghiên cứu chất lượng cao, được đánh giá tốt. Bằng cách làm như vậy, chúng ta có thể bảo vệ tương lai của trí tuệ nhân tạo và duy trì tính toàn vẹn của cộng đồng khoa học.

Dr. Tehseen Zia

Tiến sĩ Tehseen Zia là Giáo sư Liên kết có thời hạn tại Đại học COMSATS Islamabad, nắm giữ bằng Tiến sĩ về Trí tuệ Nhân tạo từ Đại học Công nghệ Vienna, Áo. Chuyên về Trí tuệ Nhân tạo, Học máy, Khoa học Dữ liệu và Thị giác Máy tính, ông đã có những đóng góp đáng kể với các ấn phẩm trên các tạp chí khoa học uy tín. Tiến sĩ Tehseen cũng đã dẫn dắt các dự án công nghiệp khác nhau với tư cách là Điều tra viên Chính và từng là Tư vấn viên Trí tuệ Nhân tạo.