Trí tuệ nhân tạo

Quantum Stat phát hành “Cơ sở dữ liệu NLP xấu lớn”

Được phát hành 21 Tháng một, 2020

cập nhật 9 Tháng mười hai, 2022

Alex McFarland

Quantum Stat đã phát hành “Cơ sở dữ liệu NLP xấu lớn” là một bước tiến lớn trong xử lý ngôn ngữ tự nhiên (NLP). Cơ sở dữ liệu chứa hàng trăm bộ dữ liệu khác nhau để các nhà phát triển máy học sử dụng.

Theo công ty, họ cung cấp giải pháp cho các sáng kiến NLP và AI. Họ thực hiện điều này thông qua các dịch vụ như tiền xử lý để phát triển ứng dụng web, phương pháp tiếp cận nhiều mặt bao gồm học máy và mạng lưới thần kinh sâu, chatbot và quản lý đối thoại cũng như cơ sở dữ liệu NLP mới của họ.

Công ty cũng tiến hành nghiên cứu sơ cấp và thứ cấp để giúp các cá nhân phân tích sự phát triển trong các ngành.

Trung tâm dữ liệu NLP trung tâm

Quyết định tạo cơ sở dữ liệu, thư viện dữ liệu lớn nhất thế giới về xử lý ngôn ngữ tự nhiên, xuất phát từ nhu cầu về một trung tâm trung tâm để chứa dữ liệu NLP. Công ty nhằm mục đích làm cho nó dễ truy cập và tìm kiếm hơn so với giải pháp thay thế, vốn thường yêu cầu các nhà nghiên cứu tìm kiếm qua nhiều thư viện của bên thứ ba.

Công ty đã phát triển cơ sở dữ liệu trong một số tuần; họ hiện có khoảng 200 bộ dữ liệu. Có rất nhiều bộ dữ liệu khác nhau, không chỉ các bộ dữ liệu cổ điển. Công ty đã bao gồm những thứ như CommonCrawl và Penn Treebank.

Cùng với một loạt các cơ sở dữ liệu khác nhau, các nhiệm vụ NLP khác nhau cũng xuất hiện. Có những bộ tập trung vào phân loại và trả lời câu hỏi, nhưng cũng có những bộ dữ liệu dành cho chuyển văn bản thành SQL, nhận dạng giọng nói và đa phương thức.

Quantum Stat muốn cơ sở dữ liệu được định hướng bởi cộng đồng với sự đóng góp của người dùng. Công ty đã mở cửa cho bất kỳ ai gửi tập dữ liệu mới hoặc đề xuất các thay đổi.

Một trọng tâm khác là thêm các bộ dữ liệu đa dạng hóa ngôn ngữ, tránh xa tiếng Anh hoàn toàn. Mục tiêu của họ là làm cho thư viện trở nên toàn cầu hơn và dễ tiếp cận hơn đối với những người khác.

Khi vào “Cơ sở dữ liệu NLP Big Bad”, người dùng sẽ phải đối mặt với một bố cục rõ ràng và có tổ chức. Tên của tập dữ liệu được liệt kê, theo sau là ngôn ngữ và mô tả chi tiết. Nó cũng liệt kê các phiên bản, định dạng, tác vụ, năm tạo và người tạo. Mỗi cơ sở dữ liệu có một liên kết tải xuống để theo dõi.

Cơ sở dữ liệu khác nhau

Người ta sẽ bắt gặp các cơ sở dữ liệu như bộ dữ liệu Chuỗi thời gian hàng ngày của các tờ báo lịch sử, chứa nội dung hàng ngày của các tờ báo ở Hoa Kỳ và Vương quốc Anh từ năm 1836 đến năm 1922; Bộ dữ liệu SciQ, chứa 13,679 câu hỏi thi khoa học được cộng đồng cung cấp trong các lĩnh vực Vật lý, Sinh học và Hóa học; CommonCrawl, chứa dữ liệu từ 25 tỷ trang web; và MovieLens, một bộ dữ liệu chứa 22,000,000 xếp hạng và 580,000 thẻ cho 33,000 phim của 240,000 người dùng.

Cơ sở dữ liệu ấn tượng của Quantum Stat xuất hiện vào thời điểm các nhà nghiên cứu yêu cầu các bộ dữ liệu lớn hơn và đa dạng hơn do những tiến bộ trong học sâu. Do lượng dữ liệu khổng lồ chứa trong ngôn ngữ của con người, mỗi bộ dữ liệu duy nhất giúp xử lý dễ dàng hơn một chút. Sự tiến bộ của NLP phụ thuộc vào các cơ sở dữ liệu này và Quantum Stat đã góp phần đẩy nhanh sự tiến bộ đó bằng cách thu thập rất nhiều bộ dữ liệu trong một không gian.

NLP sẽ quan trọng trong nhiều khía cạnh của xã hội. Nó có thể giúp dự đoán các bệnh dựa trên hồ sơ sức khỏe điện tử và lời nói của bệnh nhân, giúp các công ty tìm hiểu xem khách hàng đang nói gì về sản phẩm và xác định tin giả trong một thế giới tràn lan tin giả.

Công nghệ đang phát triển cực kỳ nhanh chóng và sẽ không lâu nữa nó sẽ có khả năng giải quyết các ứng dụng phức tạp này.

Chủ đề liên quan:trí tuệ nhân tạo Cơ sở dữ liệu xử lý ngôn ngữ tự nhiên

Ricky Costa, Giám đốc điều hành của Quantum Stat – Loạt bài phỏng vấn

Đừng bỏ lỡ

Thuật toán máy tính có thể xác định các đặc điểm khiêu vũ độc đáo

Alex McFarland

Alex McFarland là một nhà báo và nhà văn về AI đang khám phá những phát triển mới nhất về trí tuệ nhân tạo. Anh ấy đã cộng tác với nhiều công ty khởi nghiệp và ấn phẩm về AI trên toàn thế giới.

đoàn kết.AI

Quantum Stat phát hành “Cơ sở dữ liệu NLP xấu lớn”

Trung tâm dữ liệu NLP trung tâm

Cơ sở dữ liệu khác nhau

Bạn có thể thích