Connect with us

Kecerdasan buatan

DataGen Mengamankan $18 Juta dalam Investasi untuk Membuat Data Sintetis untuk AI

mm

Perusahaan startup Israel DataGen telah baru-baru ini mengumpulkan $18,5 juta dolar untuk mendanai pembuatan platform yang didedikasikan untuk menghasilkan data sintetis untuk perusahaan AI.

Setiap perusahaan kecerdasan buatan menghadapi tantangan inti yang sama, yaitu mengumpulkan data yang diperlukan untuk melatih model AI mereka. Kebutuhan akan data pelatihan berkualitas tinggi sangat besar sehingga telah memunculkan sub-industri yang didedikasikan untuk menyediakan perusahaan AI dengan data yang mereka butuhkan untuk melatih model mereka. Perusahaan AI dan perusahaan yang terkait dengan AI selalu mencari cara baru untuk mendapatkan data yang mereka butuhkan. Salah satu cara untuk mendapatkan data pelatihan ini adalah dengan membuat atau menghasilkan data.

Seperti yang dilaporkan oleh Fortune, DataGen berspesialisasi dalam menggunakan model pembelajaran mesin mereka sendiri untuk membuat data sintetis untuk perusahaan lain untuk melatih model mereka, terutama data gambar dan video. Data yang dihasilkan oleh perusahaan kemudian digunakan oleh pelanggan mereka untuk melatih model AI mereka. Menurut CEO dan pendiri DataGen, Ofir Chakon, perusahaan dapat membuat dataset sintetis lengkap untuk perusahaan klien dalam beberapa jam. Ini jauh lebih cepat daripada waktu yang biasanya dibutuhkan untuk mempersiapkan dataset, yang seringkali membutuhkan minggu atau bahkan bulan untuk melabeli data.

Ada alasan lain mengapa data sintetis menarik bagi perusahaan, selain kecepatan relatif dengan yang dapat disiapkan. Data sintetis tidak memiliki masalah privasi yang sama seperti data nyata. Ketika lebih banyak hukum dibuat untuk melindungi privasi data orang, maka menjadi lebih menarik untuk memiliki data pelatihan sintetis. Salah satu perkiraan yang diberikan oleh perusahaan analitik teknologi Gartner memprediksi bahwa pada tahun 2023 sekitar 65% dari populasi dunia akan memiliki data mereka dilindungi oleh beberapa jenis hukum privasi data.

Meskipun data sintetis tidak berdasarkan orang nyata, masih dapat memiliki bias. Data yang dihasilkan oleh model data sintetis akan memiliki pola yang sama seperti data pelatihan asli, yang berarti bahwa jika dataset memiliki bias, maka bias tersebut akan ada dalam data yang dihasilkan. DataGen memiliki strategi untuk mengurangi bias data dalam data yang dihasilkan. Salah satu metode untuk mengurangi bias dalam data sintetis adalah dengan meningkatkan tingkat kejadian peristiwa yang relatif jarang, yang berarti bahwa jika satu kelas dalam dataset under-represented, maka tingkat kejadiannya dapat ditingkatkan hingga menjadi lebih setara.

Teknik meningkatkan kejadian peristiwa yang jarang sangat penting ketika membuat dataset yang melibatkan skenario berbahaya. Pertimbangkan dataset yang digunakan untuk melatih kendaraan otonom. Kendaraan harus merespons dengan andal terhadap peristiwa yang jarang, seperti lubang yang terbuka di jalan. Namun, peristiwa ini sangat jarang, dan mendapatkan data pelatihan untuk peristiwa ini sangat sulit. Oleh karena itu, data pelatihan untuk peristiwa ini seringkali perlu dihasilkan.

Seperti yang dijelaskan oleh Chakon melalui Fortune:

“Pelanggan kami memiliki kontrol penuh atas semua parameter yang masuk ke dalam data yang mereka buat. Implikasi nyata adalah bahwa, sekali diterapkan, Anda dapat yakin bahwa itu akan bekerja dengan baik dalam domain yang berbeda, dengan etnis yang berbeda, di lokasi geografis yang berbeda atau lingkungan apa pun yang Anda bayangkan.”

DataGen menggunakan Generative Adversarial Networks (GANs) untuk menghasilkan simulasi realistis dari item dan peristiwa dunia nyata. Chakon menjelaskan bahwa perusahaan dapat menghasilkan contoh realistis dari apa pun yang melibatkan lingkungan indoor atau persepsi manusia. Sebagai contoh, dataset gambar yang dihasilkan oleh DataGen dapat berisi contoh objek yang digunakan untuk melatih lengan pemilih robotik yang digunakan untuk logistik gudang, dengan gambar yang dihasilkan terlihat tidak dapat dibedakan dari yang asli. Perangkat lunak DataGen dapat menghasilkan objek 3D dengan menggabungkan meshwork visual dengan sistem simulasi fisika.

Investor di DataGen termasuk berbagai individu dan perusahaan dengan profil tinggi. Investor termasuk direktur divisi penelitian AI Nvidia dan Max Plank Institute for Intelligent Systems, serta Anthony Goldbloom, CEO Kaggle.

Blogger dan programmer dengan spesialisasi di Machine Learning dan Deep Learning topik. Daniel berharap untuk membantu orang lain menggunakan kekuatan AI untuk kebaikan sosial.