Trí tuệ nhân tạo

DataGen Secures 18 Triệu Đô La Trong Đầu Tư Để Tạo Dữ Liệu Tổng Hợp Cho Trí Tuệ Nhân Tạo

Đã xuất bản 19 tháng 3, 2021

Đã cập nhật 25 tháng 5, 2026

Daniel Nelson

Công ty khởi nghiệp Israel DataGen đã gần đây huy động được 18,5 triệu đô la để tài trợ cho việc tạo ra một nền tảng dành riêng cho việc sản xuất dữ liệu tổng hợp cho các công ty trí tuệ nhân tạo.

Bất kỳ công ty trí tuệ nhân tạo nào cũng đối mặt với thách thức cốt lõi, thu thập dữ liệu cần thiết để đào tạo mô hình trí tuệ nhân tạo của họ. Việc cần dữ liệu đào tạo chất lượng cao là rất lớn đến mức nó đã dẫn đến một ngành công nghiệp phụ chuyên cung cấp dữ liệu cho các công ty trí tuệ nhân tạo để đào tạo mô hình của họ. Các công ty trí tuệ nhân tạo và các công ty liên quan đến trí tuệ nhân tạo luôn tìm kiếm các cách mới để có được dữ liệu họ cần. Một cách để có được dữ liệu đào tạo này là tạo ra hoặc tạo dữ liệu.

Como Fortune đã báo cáo, DataGen chuyên sử dụng mô hình học máy của riêng họ để tạo ra dữ liệu tổng hợp cho các công ty khác để đào tạo mô hình của họ, đặc biệt là dữ liệu hình ảnh và video. Dữ liệu được tạo ra bởi công ty này sau đó được sử dụng bởi khách hàng của họ để đào tạo mô hình trí tuệ nhân tạo của riêng họ. Theo CEO và người sáng lập của DataGen, Ofir Chakon, công ty có thể tạo ra một tập dữ liệu tổng hợp hoàn toàn cho một công ty khách hàng chỉ trong vài giờ. Điều này nhanh hơn nhiều so với thời gian thường mất để chuẩn bị một tập dữ liệu để sử dụng, thường là vài tuần hoặc thậm chí vài tháng để gắn nhãn dữ liệu.

Có những lý do khác mà dữ liệu tổng hợp hấp dẫn đối với các công ty, ngoài tốc độ tương đối mà nó có thể được chuẩn bị. Dữ liệu tổng hợp không đi kèm với các vấn đề về quyền riêng tư như dữ liệu thực. Khi nhiều luật được tạo ra để bảo vệ quyền riêng tư của dữ liệu, thì việc có dữ liệu đào tạo tổng hợp trở nên hấp dẫn hơn. Một ước tính của công ty phân tích công nghệ Gartner dự đoán rằng vào năm 2023, khoảng 65% dân số thế giới sẽ có dữ liệu của họ được bảo vệ bởi một số loại luật về quyền riêng tư của dữ liệu.

Mặc dù dữ liệu tổng hợp không dựa trên người thực, nhưng nó vẫn có thể bị thiên vị. Dữ liệu được tạo ra bởi một mô hình dữ liệu tổng hợp sẽ có cùng mẫu mà dữ liệu đào tạo ban đầu có, nghĩa là nếu một tập dữ liệu bị thiên vị, thì những thiên vị đó sẽ tồn tại trong dữ liệu mới được tạo ra. DataGen có chiến lược để giảm thiên vị trong dữ liệu được tạo ra. Một phương pháp để giảm thiên vị trong dữ liệu tổng hợp là tăng tốc độ xảy ra của các sự kiện hiếm, nghĩa là nếu một lớp trong tập dữ liệu bị dưới đại diện, thì tốc độ xảy ra của nó có thể được tăng lên để trở nên bình đẳng hơn.

Kỹ thuật tăng tốc độ xảy ra của các sự kiện hiếm là rất quan trọng khi tạo ra các tập dữ liệu liên quan đến các kịch bản nguy hiểm. Hãy xem xét một tập dữ liệu được sử dụng để đào tạo một chiếc xe tự hành. Xe phải phản ứng đáng tin cậy với các sự kiện hiếm, chẳng hạn như một hố sụt mở ra trên đường. Tuy nhiên, những sự kiện này rất hiếm, và việc có được dữ liệu đào tạo cho những sự kiện này là khó khăn. Vì lý do này, dữ liệu đào tạo cho những sự kiện hiếm này thường cần được tạo ra.

Como Chakon đã giải thích qua Fortune:

“Khách hàng của chúng tôi có quyền kiểm soát hoàn toàn tất cả các tham số đi vào dữ liệu họ tạo. Ý nghĩa thực tế là, một khi được triển khai, bạn có thể chắc chắn rằng nó sẽ hoạt động tốt trong các lĩnh vực khác nhau, với các dân tộc khác nhau, ở các vị trí địa lý khác nhau hoặc bất kỳ môi trường nào bạn có thể tưởng tượng.”

DataGen sử dụng Mạng Đối Thủ Generative (GANs) để tạo ra các mô phỏng thực tế của các vật thể và sự kiện trong thế giới thực. Chakon giải thích rằng công ty có thể tạo ra các ví dụ thực tế về bất cứ thứ gì liên quan đến môi trường trong nhà hoặc nhận thức của con người. Ví dụ, một tập dữ liệu hình ảnh được tạo ra bởi DataGen có thể bao gồm các ví dụ về các vật thể được sử dụng để đào tạo một cánh tay robot dùng cho hậu cần kho hàng, với các hình ảnh được tạo ra trông không thể phân biệt được với thực tế. Phần mềm của DataGen có thể tạo ra các vật thể 3D bằng cách kết hợp một mạng lưới hình ảnh với một hệ thống mô phỏng vật lý.

Những người đầu tư vào DataGen bao gồm một loạt các cá nhân và công ty có uy tín. Những người đầu tư bao gồm các giám đốc của bộ phận nghiên cứu trí tuệ nhân tạo của Nvidia và Viện Hệ thống Thông minh Max Plank, cũng như Anthony Goldbloom, CEO của Kaggle.

Daniel Nelson

Blogger và lập trình viên với chuyên môn về Machine Learning và Deep Learning topics. Daniel hy vọng giúp đỡ người khác sử dụng sức mạnh của AI cho lợi ích xã hội.

Unite.AI

DataGen Secures 18 Triệu Đô La Trong Đầu Tư Để Tạo Dữ Liệu Tổng Hợp Cho Trí Tuệ Nhân Tạo

You may like