sơ khai Bộ dữ liệu có sẵn (OTS) mới từ Appen Tăng tốc triển khai AI - Unite.AI
Kết nối với chúng tôi

Trí tuệ nhân tạo

Bộ dữ liệu có sẵn (OTS) mới từ Appen Tăng tốc triển khai AI

mm
cập nhật on

ứng dụng hạn chế (ASX:APX), nhà cung cấp dữ liệu đào tạo chất lượng cao hàng đầu cho các tổ chức xây dựng hệ thống AI hiệu quả trên quy mô lớn, hôm nay đã công bố thông tin mới bộ dữ liệu có sẵn (OTS). Các bộ dữ liệu này được thiết kế để giúp các doanh nghiệp có được dữ liệu đào tạo chất lượng cao cần thiết để tăng tốc các dự án trí tuệ nhân tạo (AI) và máy học (ML) của họ dễ dàng và nhanh chóng hơn. Bộ dữ liệu OTS mới bao gồm chuyển động của cơ thể con người và âm thanh tiếng khóc cải tiến của trẻ sơ sinh, cũng như lời nói và hình ảnh theo kịch bản với văn bản phù hợp để nhận dạng ký tự quang học (OCR) cho các ngôn ngữ có nhu cầu cao nhưng khó tiếp thu, chẳng hạn như tiếng Ả Rập, tiếng Croatia, tiếng Hy Lạp. , tiếng Hungary, tiếng Thái và hơn thế nữa. Với các bộ dữ liệu được mở rộng, tổng số OTS mà Appen cung cấp bao gồm hơn 250 bộ dữ liệu, bao gồm hơn 11,000 giờ âm thanh, hơn 25,000 hình ảnh và hơn 8.7 triệu từ trên 80 ngôn ngữ và nhiều phương ngữ.

Bộ dữ liệu OTS của Appen là một công cụ nhanh chóng, tiết kiệm chi phí để bắt đầu một dự án AI hoặc ML với dữ liệu đào tạo chất lượng cao nhất quán. Các nhóm mở rộng khả năng AI của họ cũng có thể tận dụng bộ dữ liệu OTS để cải thiện hiệu quả độ chính xác, phát triển các kỹ năng mô hình mới và kết hợp các cải tiến khác vào mô hình AI của họ. Ví dụ, một tập dữ liệu OTS thường được gửi trong một tuần, so với tám đến mười hai tuần cho một dự án thu thập và chú thích tập dữ liệu mới – hoặc thậm chí lâu hơn, tùy thuộc vào độ phức tạp. Tất cả các bộ dữ liệu của Appen đều được phát triển bằng phương pháp chọn tham gia hoàn toàn minh bạch, vì vậy các chuyên gia AI có thể yên tâm rằng dữ liệu của họ sạch sẽ và tuân thủ, loại bỏ nguy cơ tiềm ẩn về phản ứng dữ dội và tổn hại danh tiếng.

Wilson Pang, CTO của Appen cho biết: “Các nhóm AI trên khắp thế giới đang làm việc trong các dự án có thời hạn chặt chẽ và yêu cầu dữ liệu linh hoạt có thể hưởng lợi từ việc sử dụng các bộ dữ liệu có sẵn. “Bộ dữ liệu OTS rút ngắn thời gian định giá và cung cấp quyền truy cập vào dữ liệu chất lượng cao với tổng chi phí thấp hơn so với sử dụng các phương pháp truyền thống. Tại Appen, chúng tôi thực hiện các bước cần thiết để đảm bảo rằng tất cả các bộ dữ liệu của chúng tôi đều có nguồn gốc hợp đạo đức và cân bằng về nhân khẩu học, cho phép các công ty duy trì các hoạt động AI có trách nhiệm bằng cách giảm thiểu sai lệch trong mô hình của họ và đảm bảo đối xử công bằng với người chú thích dữ liệu. Bạn luôn biết chất lượng chính xác của bộ dữ liệu OTS, giúp xây dựng AI tốt hơn hoạt động trong thế giới thực.”

MediaInterface đã cung cấp các giải pháp công nghệ ngôn ngữ cho các tổ chức liên quan đến chăm sóc sức khỏe ở Đức và các khu vực khác của Châu Âu trong hơn 20 năm. Khi công ty mở rộng sang Pháp, nó đã có phần mềm được bản địa hóa hoàn toàn nhưng thiếu dữ liệu từ vựng tiếng Pháp, đặc biệt là tên và địa điểm bằng tiếng Pháp, thường được nhắc đến trong thông tin sức khỏe của bệnh nhân. Sử dụng bộ dữ liệu Appen OTS, MediaInterface mua lại khoảng 21,000 tên tiếng Pháp và 14,000 địa danh. Ines Wendler, giám đốc sản phẩm cho biết: “Dữ liệu quan trọng từ Appen đã được tích hợp vào từ vựng cơ bản của chúng tôi để ra mắt thành công ở một thị trường mới và điều này giúp chúng tôi xây dựng vốn từ vựng mới cho khách hàng của mình cũng như củng cố cách tiếp cận của chúng tôi cho các lần ra mắt thị trường trong tương lai”. tại MediaInterface.

Các chuyên gia AI giàu kinh nghiệm nhất kết hợp bộ dữ liệu OTS với các dự án chú thích và thu thập dữ liệu theo yêu cầu để đáp ứng nhu cầu dữ liệu đào tạo mô hình AI phức tạp của họ. Appen là công ty hàng đầu trong việc cung cấp hỗ trợ liên tục thông qua một loạt dịch vụ thu thập dữ liệu cụ thể, chẳng hạn như chú thích dữ liệu liên tục và ghi nhãn thông minh, thông qua các công cụ do AI cung cấp và quy trình làm việc tự động để tối đa hóa hiệu quả.

Judith Bishop, giám đốc cấp cao về AI của Appen cho biết: “Chúng ta tương tác với AI từ khi thức dậy cho đến khi đi ngủ – thông qua trợ lý ảo, chatbot, công cụ tìm kiếm, mạng xã hội, thiết bị y tế, ô tô thông minh và các ứng dụng khác”. các chuyên gia, người lãnh đạo một nhóm gồm 100 nhà ngôn ngữ học AI và chuyên gia ngôn ngữ. “Ngôn ngữ thường là giao diện chính cho nhiều trường hợp sử dụng AI hấp dẫn này, vì vậy để đảm bảo trải nghiệm tuyệt vời, mô hình cần được đào tạo để hoạt động cho mọi người. Cam kết của Appen đối với dữ liệu chất lượng cao và sự phát triển AI có trách nhiệm, có đạo đức cho phép các công ty mua bộ dữ liệu có sẵn của chúng tôi để đẩy nhanh các dự án AI của họ với sự tin tưởng hoàn toàn vào dữ liệu của họ.”

Tham gia hàng trăm bộ dữ liệu hiện có đã tồn tại appen.com, danh sách các bộ dữ liệu Appen OTS mới hiện có bao gồm:

  • Bài phát biểu viết sẵn cho tiếng Ả Rập (Ai Cập), tiếng Ả Rập (Ả Rập Saudi), tiếng Ả Rập (Các Tiểu vương quốc Ả Rập Thống nhất), tiếng Khmer Trung (Campuchia), tiếng Croatia, tiếng Hy Lạp, tiếng Hungary, tiếng Ba Lan, tiếng Tây Ban Nha (Tây Ban Nha) và tiếng Thổ Nhĩ Kỳ
  • Hình ảnh OCR dành cho văn bản in bằng tiếng Trung giản thể, văn bản in bằng tiếng Thái và văn bản in bằng tiếng Phần Lan – Bao gồm các bảng quảng cáo được ghi sẵn, bao bì bên ngoài, bảng hiệu, tạp chí và menu để đào tạo và cập nhật các mô hình OCR thị giác máy tính
  • Chuyển động của cơ thể người (Trung Quốc) – Bao gồm các video có chú thích về những người đang chuyển động, được theo dõi ở cấp độ pixel, phù hợp để phát triển trò chơi, ứng dụng thể dục, v.v.
  • Âm thanh em bé khóc (Trung Quốc) – Bao gồm các âm thanh em bé được ghi trước và có chú thích có thể được sử dụng để huấn luyện các mô hình AI nhận biết các âm thanh khóc khác nhau và cảnh báo cho cha mẹ

Để biết thêm thông tin và yêu cầu mẫu bộ dữ liệu Appen OTS, nhấn vào đây .

Daniel là người ủng hộ mạnh mẽ việc AI cuối cùng sẽ phá vỡ mọi thứ như thế nào. Anh ấy hít thở công nghệ và sống để thử những tiện ích mới.