Umělá inteligence
DataGen zajišťuje 18 milionů dolarů v investicích na vytvoření syntetických dat pro AI

Izraelská startup společnost DataGen nedávno získala 18,5 milionu dolarů na financování vytvoření platformy věnované produkci syntetických dat pro společnosti AI.
Každá společnost s umělou inteligencí čelí stejné základní výzvě, a to shromažďování dat nezbytných pro výcvik svých modelů AI. Potřeba vysoce kvalitních trénovacích dat je tak velká, že vedla k vytvoření celé sub-průmyslu, který se věnuje poskytování společnostem AI dat, která potřebují k výcviku svých modelů. Společnosti AI a společnosti související s AI vždy hledají nové způsoby, jak získat potřebná data. Jedním ze způsobů, jak získat tato trénovací data, je prostě vytvořit nebo vygenerovat data.
Jak uvedl Fortune, DataGen se specializuje na používání vlastních modelů strojového učení k vytváření syntetických dat pro ostatní společnosti k výcviku svých modelů, zejména obrazových a videodat. Data generovaná touto společností jsou poté využívána jejich zákazníky k výcviku svých vlastních modelů AI. Podle CEO a zakladatele DataGen, Ofira Chakona, může společnost vytvořit kompletní syntetický dataset pro klienta během několika hodin. To je podstatně rychlejší než doba, kterou obvykle trvá příprava datasetu pro použití, která je často týdny nebo dokonce měsíce označování dat.
Existují i další důvody, proč jsou syntetická data atraktivní pro společnosti, kromě relativní rychlosti, s níž lze data připravit. Syntetická data nejsou spojená s těmi samými problémy s ochranou soukromí, jako jsou skutečná data. Jak jsou vytvářeny více zákony na ochranu soukromí lidí, stává se atraktivnějším mít syntetická trénovací data. Jedna odhadovaná hodnota od technologické analytické firmy Gartner předpovídá, že do roku 2023 bude kolem 65 % světové populace mít svá data chráněna nějakým typem zákona o ochraně soukromí.
Navzdory skutečnosti, že syntetická data nejsou založena na skutečných lidech, mohou být stále zkreslena. Data generovaná syntetickým modelem budou mít stejné vzorce, jako původní trénovací data, což znamená, že pokud je dataset zkreslen, tyto zkreslení budou existovat v nově generovaných datech. DataGen má strategie pro snížení zkreslení dat v generovaných datech. Jedním ze způsobů, jak snížit zkreslení syntetických dat, je zvýšení frekvence vzácných událostí, což znamená, že pokud je jedna třída v datasetu podreprezentována, její frekvence se může zvýšit na něco více rovnocenného.
Technika zvyšování frekvence vzácných událostí je nesmírně důležitá při vytváření datasetů, které zahrnují potenciálně nebezpečné scénáře. Zvažte dataset používaný k výcviku autonomního vozidla. Vozidlo musí spolehlivě reagovat na vzácné události, jako je otevření se sinkhole na silnici. Tyto události jsou však velmi vzácné a získání trénovacích dat pro tyto události je obtížné. Z tohoto důvodu se často vyžaduje generování trénovacích dat pro tyto vzácné události.
Jak vysvětlil Chakon prostřednictvím Fortune:
“Naši zákazníci mají plnou kontrolu nad všemi parametry, které vstupují do dat, která vytvářejí. Skutečným důsledkem je, že jednou nasazeným, můžete být jistí, že bude fungovat dobře v různých doménách, s různými etnickými skupinami, v různých geografických lokalitách nebo v jakémkoli prostředí, které můžete představit.”
DataGen používá Generative Adversarial Networks (GANs) k vytváření realistických simulací skutečných předmětů a událostí. Chakon vysvětlil, že společnost může spolehlivě generovat realistické příklady čehokoli, co se týká vnitřních prostředí nebo lidského vnímání. Například dataset obrazů vygenerovaný DataGen by mohl zahrnovat příklady objektů používaných k výcviku robotického ramene pro logistiku ve skladu, s vygenerovanými obrázky, které vypadají nerozlišitelně od skutečných. Software DataGen může generovat 3D objekty kombinací vizuální mřížkové struktury s fyzickým simulačním systémem.
Investory DataGen zahrnují řadu prominentních jednotlivců a společností. Investory zahrnují ředitele výzkumného oddělení AI společnosti Nvidia a Max Planck Institute for Intelligent Systems, jakož i Anthonyho Goldbloom, CEO společnosti Kaggle.












