saplama DataGen, Yapay Zekalar İçin Sentetik Veri Oluşturmak İçin 18 Milyon Dolarlık Yatırım Sağladı - Unite.AI
Bizimle iletişime geçin

Yapay Zeka

DataGen, Yapay Zekalar İçin Sentetik Veri Oluşturmak İçin 18 Milyon Dolarlık Yatırım Sağladı

mm
Güncellenmiş on

İsrailli başlangıç ​​şirketi Veri Oluşturma vardır yakın zamanda 18.5 milyon dolar topladı Yapay zeka şirketleri için sentetik veri üretmeye adanmış bir platformun oluşturulmasını finanse etmek.

Herhangi bir yapay zeka şirketi, yapay zeka modellerini eğitmek için gerekli verileri toplarken aynı temel zorlukla karşı karşıyadır. Yüksek kaliteli eğitim verilerine duyulan ihtiyaç o kadar fazladır ki, yapay zeka şirketlerine modellerini eğitmek için ihtiyaç duydukları verileri sağlamaya adanmış bütün bir yan sanayiye yol açmıştır. Yapay zeka ve yapay zekaya komşu şirketler her zaman ihtiyaç duydukları verileri elde etmenin yeni yollarını ararlar. Bu eğitim verilerini almanın bir yolu, verileri yalnızca üretmek veya üretmektir.

Fortune'un bildirdiği gibi DataGen, diğer şirketlerin modellerini, özellikle de görüntü ve video verilerini eğitmeleri için sentetik veriler oluşturmak amacıyla kendi makine öğrenimi modellerini kullanma konusunda uzmanlaşmıştır. Şirket tarafından oluşturulan veriler daha sonra müşterileri tarafından kendi yapay zeka modellerini eğitmek için kullanılıyor. DataGen'in CEO'su ve kurucusu Ofir Chakon'a göre şirket, bir müşteri şirketi için yalnızca birkaç saat içinde tamamen sentetik bir veri seti oluşturabiliyor. Bu, bir veri kümesini kullanıma hazırlamak için genellikle haftalarca, hatta aylarca süren etiketleme verilerinin hazırlanması için gereken sürenin uzunluğundan önemli ölçüde daha hızlıdır.

Hazırlanabilme hızı dışında, sentetik verilerin şirketler için çekici olmasının başka nedenleri de var. Sentetik veriler, gerçek verilerin sahip olduğu türden gizlilik endişeleriyle birlikte gelmez. İnsanların veri gizliliğini korumak için daha fazla yasa çıkarıldığında, sentetik eğitim verilerine sahip olmak daha çekici hale geliyor. Teknoloji analitiği firması tarafından verilen bir tahmin Gartner 2023 yılına kadar dünya nüfusunun yaklaşık %65'inin verilerinin bir tür veri gizliliği yasasıyla korunacağını öngörüyor.

Sentetik veriler gerçek insanlara dayanmasa da yine de önyargılı olabilir. Bir sentetik veri modeli tarafından üretilen veriler, orijinal eğitim verilerinin sahip olduğu modellerin aynısına sahip olacaktır; bu, bir veri kümesi önyargılıysa, bu önyargıların yeni oluşturulan verilerde bulunacağı anlamına gelir. DataGen, oluşturulan verilerde veri yanlılığını azaltmak için stratejilere sahiptir. Sentetik verilerde yanlılığı azaltmanın bir yöntemi, nispeten nadir olayların meydana gelme oranını arttırmaktır; bu, veri setindeki bir sınıfın yeterince temsil edilmemesi durumunda, meydana gelme oranının daha eşit bir düzeye yükseltilebileceği anlamına gelir.

Potansiyel olarak tehlikeli senaryolar içeren veri kümeleri oluştururken nadir olayların oluşumunu artırma tekniği inanılmaz derecede önemlidir. Otonom bir aracı eğitmek için kullanılan bir veri kümesini düşünün. Araç, yolda bir obruk açılması gibi nadir olaylara güvenilir bir şekilde yanıt vermelidir. Ancak bu olaylar çok nadirdir ve bu olaylar için eğitim verilerini almak zordur. Bu nedenle, bu nadir olaylar için eğitim verilerinin genellikle oluşturulması gerekir.

Chakon'un açıkladığı gibi Fortune aracılığıyla:

"Müşterilerimiz, oluşturdukları verilere giren tüm parametreler üzerinde tam kontrole sahip. Gerçek dünyadaki anlamı, konuşlandırıldıktan sonra farklı alanlarda, farklı etnik kökenlere sahip, farklı coğrafi konumlarda veya hayal edebileceğiniz herhangi bir ortamda iyi çalışacağından emin olabilirsiniz.

DataGen, gerçek dünya öğelerinin ve olaylarının gerçekçi simülasyonlarını oluşturmak için Generative Adversarial Networks (GAN'lar) kullanır. Chakon, şirketin iç mekan ortamlarını veya insan algısını içeren her şeyin gerçekçi örneklerini güvenilir bir şekilde üretebileceğini açıkladı. Örneğin, DataGen tarafından oluşturulan bir görüntü veri seti, depo lojistiği için kullanılan bir robot toplama kolunu eğitmek için kullanılan nesnelerin örneklerini içerebilir ve oluşturulan görüntüler gerçek olandan ayırt edilemez görünür. DataGen'in yazılımı, görsel bir ağ örgüsünü bir fizik simülasyon sistemiyle birleştirerek 3B nesneler oluşturabilir.

DataGen'deki yatırımcılar arasında çeşitli yüksek profilli bireyler ve şirketler yer alır. Yatırımcılar arasında Nvidia'nın AI araştırma bölümü ve Max Plank Akıllı Sistemler Enstitüsü yöneticileri ile Kaggle CEO'su Anthony Goldbloom yer alıyor.

Uzmanlık alanlarına sahip blogcu ve programcı Makine öğrenme ve Derin Öğrenme konular. Daniel, başkalarının yapay zekanın gücünü toplumsal fayda için kullanmasına yardım etmeyi umuyor.