Sztuczna inteligencja

DataGen Zabezpiecza 18 Mln Dolarów Inwestycji w Celu Utworzenia Sztucznych Danych dla Sztucznych Intelektów

Published March 19, 2021

Updated April 28, 2026

Daniel Nelson

Izraelska firma startupowa DataGen niedawno zebrała 18,5 miliona dolarów, aby sfinansować utworzenie platformy poświęconej produkcji sztucznych danych dla firm sztucznej inteligencji.

Każda firma sztucznej inteligencji stoi przed tym samym podstawowym wyzwaniem, jakim jest zebranie danych niezbędnych do szkolenia modeli sztucznej inteligencji. Potrzeba wysokiej jakości danych szkoleniowych jest tak wielka, że doprowadziła do powstania całej podbranży poświęconej dostarczaniu firmom sztucznej inteligencji danych, których potrzebują do szkolenia swoich modeli. Firmy sztucznej inteligencji i pokrewne są zawsze w poszukiwaniu nowych sposobów uzyskania niezbędnych danych. Jednym ze sposobów uzyskania tych danych szkoleniowych jest po prostu sfabrykowanie lub wygenerowanie danych.

Jak donosi Fortune, DataGen specjalizuje się w wykorzystywaniu własnych modeli szkoleniowych do tworzenia sztucznych danych dla innych firm w celu szkolenia ich modeli, szczególnie danych obrazów i wideo. Dane generowane przez firmę są następnie wykorzystywane przez ich klientów do szkolenia własnych modeli sztucznej inteligencji. Zgodnie z oświadczeniem CEO i założyciela DataGen, Ofira Chakona, firma może utworzyć cały syntetyczny zestaw danych dla klienta w zaledwie kilka godzin. Jest to znacznie szybciej niż czas, jaki zwykle zajmuje przygotowanie zestawu danych do użycia, który często trwa tygodnie lub nawet miesiące oznaczania danych.

Istnieją inne powody, dla których sztuczne dane są atrakcyjne dla firm, poza relatywnie szybkim czasem, w jakim mogą być przygotowane. Sztuczne dane nie wiążą się z rodzajem problemów z ochroną prywatności, jaki występuje w przypadku danych rzeczywistych. Im więcej praw jest tworzonych w celu ochrony prywatności danych, tym bardziej atrakcyjne staje się posiadanie sztucznych danych szkoleniowych. Jedna z szacunków podanych przez firmę analityczną Gartner przewiduje, że do 2023 roku około 65% światowej populacji będzie miało swoje dane chronione przez jakiś rodzaj prawa o ochronie danych.

Pomimo faktu, że sztuczne dane nie opierają się na danych rzeczywistych, mogą one nadal być tendencyjne. Dane wygenerowane przez model sztucznych danych będą miały te same wzorce, co oryginalne dane szkoleniowe, co oznacza, że jeśli zestaw danych jest tendencyjny, te tendencyjności będą istniały w nowo wygenerowanych danych. DataGen ma strategie redukowania tendencyjności danych w wygenerowanych danych. Jedną z metod redukowania tendencyjności w sztucznych danych jest zwiększanie częstotliwości występowania rzadkich zdarzeń, co oznacza, że jeśli jeden klas w zestawie danych jest niedoreprezentowany, jego częstotliwość może być zwiększona do czegoś bardziej równego.

Technika zwiększania częstotliwości występowania rzadkich zdarzeń jest niezwykle ważna podczas tworzenia zestawów danych, które obejmują potencjalnie niebezpieczne sytuacje. Rozważmy zestaw danych wykorzystywany do szkolenia samochodu autonomicznego. Samochód musi niezawodnie reagować na rzadkie zdarzenia, takie jak otwarcie się leja na drodze. Jednak te zdarzenia są bardzo rzadkie, a uzyskanie danych szkoleniowych dla tych zdarzeń jest trudne. Z tego powodu dane szkoleniowe dla tych rzadkich zdarzeń często muszą być generowane.

Jak wyjaśnił Chakon za pośrednictwem Fortune:

“Nasi klienci mają pełną kontrolę nad wszystkimi parametrami, które wpływają na dane, które tworzą. Rzeczywiste implikacje są takie, że raz wdrożone, można być pewnym, że będzie działać dobrze w różnych domenach, z różnymi etnicznościami, w różnych lokalizacjach geograficznych lub w jakimkolwiek środowisku, które można sobie wyobrazić.”

DataGen wykorzystuje Sieci Przeciwnicze Generatywne (GAN) do generowania realistycznych symulacji rzeczywistych przedmiotów i zdarzeń. Chakon wyjaśnił, że firma może niezawodnie generować realistyczne przykłady wszystkiego, co dotyczy środowisk wewnętrznych lub percepcji ludzkiej. Na przykład, zestaw danych obrazów wygenerowanych przez DataGen mógłby zawierać przykłady obiektów wykorzystywanych do szkolenia ramienia robota wykorzystywanego do logistyki magazynowej, z wygenerowanymi obrazami, które wyglądają nieodróżnialnie od rzeczywistych. Oprogramowanie DataGen może generować obiekty 3D, łącząc siatkę wizualną z systemem symulacji fizycznej.

Inwestorami DataGen są różni znani indywidualni inwestorzy i firmy. Inwestorami są dyrektorzy działu badań sztucznej inteligencji Nvidia oraz Max Planck Institute for Intelligent Systems, a także Anthony Goldbloom, CEO Kaggle.

Related Topics:data generation synthetic data

Daniel Nelson

Blogger i programista ze specjalnościami w Machine Learning i Deep Learning tematy. Daniel liczy, że pomoże innym wykorzystać moc sztucznej inteligencji dla dobra społecznego.

Unite.AI

DataGen Zabezpiecza 18 Mln Dolarów Inwestycji w Celu Utworzenia Sztucznych Danych dla Sztucznych Intelektów

You may like