škrbina DataGen zagotavlja 18 milijonov dolarjev naložb v ustvarjanje sintetičnih podatkov za umetno inteligenco - Unite.AI
Povežite se z nami

Umetna inteligenca

DataGen zagotavlja 18 milijonov dolarjev naložb v ustvarjanje sintetičnih podatkov za AI

mm
Posodobljeno on

Izraelsko startup podjetje DataGen je pred kratkim zbral 18.5 milijona dolarjev za financiranje oblikovanja platforme, namenjene izdelavi sintetičnih podatkov za podjetja z umetno inteligenco.

Vsako podjetje za umetno inteligenco se sooča z istim temeljnim izzivom, zbiranjem podatkov, potrebnih za usposabljanje svojih modelov AI. Potreba po visokokakovostnih podatkih za usposabljanje je tako velika, da je privedla do celotne podpanoge, ki je podjetjem z umetno inteligenco namenjena zagotavljanju podatkov, ki jih potrebujejo za usposabljanje svojih modelov. Umetna inteligenca in podjetja, ki so povezana z umetno inteligenco, vedno iščejo nove načine za pridobivanje podatkov, ki jih potrebujejo. Eden od načinov za pridobivanje teh podatkov o usposabljanju je preprosto izdelava ali ustvarjanje podatkov.

Kot poroča Fortune, je DataGen specializiran za uporabo lastnih modelov strojnega učenja za ustvarjanje sintetičnih podatkov za druga podjetja za usposabljanje njihovih modelov, zlasti slikovnih in video podatkov. Podatke, ki jih ustvari podjetje, nato uporabijo njihove stranke za usposabljanje lastnih modelov AI. Po besedah ​​izvršnega direktorja in ustanovitelja DataGen, Ofirja Chakona, lahko podjetje ustvari celoten sintetični nabor podatkov za stranko v samo nekaj urah. To je bistveno hitreje od časa, ki je običajno potreben za pripravo nabora podatkov za uporabo, kar so pogosto tedni ali celo meseci označevanja podatkov.

Obstajajo tudi drugi razlogi, da so sintetični podatki privlačni za podjetja, poleg relativne hitrosti, s katero jih je mogoče pripraviti. Sintetični podatki ne povzročajo takšnih pomislekov glede zasebnosti kot pravi podatki. Ker je ustvarjenih več zakonov za zaščito zasebnosti podatkov ljudi, postane bolj privlačno imeti sintetične podatke o usposabljanju. Ena ocena podjetja za tehnološko analitiko Gartner napoveduje, da bo do leta 2023 približno 65 % svetovnega prebivalstva imelo svoje podatke zaščitene z neko vrsto zakona o zasebnosti podatkov.

Kljub dejstvu, da sintetični podatki ne temeljijo na resničnih ljudeh, so lahko še vedno pristranski. Podatki, ustvarjeni s sintetičnim podatkovnim modelom, bodo imeli enake vzorce kot prvotni podatki o usposabljanju, kar pomeni, da če je nabor podatkov pristranski, bodo te pristranskosti obstajale v na novo ustvarjenih podatkih. DataGen ima strategije za zmanjšanje pristranskosti podatkov v ustvarjenih podatkih. Ena od metod za zmanjšanje pristranskosti v sintetičnih podatkih je povečanje stopnje pojavljanja razmeroma redkih dogodkov, kar pomeni, da če je en razred v naboru podatkov premalo zastopan, se lahko njegova stopnja pojavljanja poveča na nekaj bolj enakega.

Tehnika povečanja pojavljanja redkih dogodkov je izjemno pomembna pri ustvarjanju nizov podatkov, ki vključujejo potencialno nevarne scenarije. Razmislite o naboru podatkov, ki se uporablja za usposabljanje avtonomnega vozila. Vozilo se mora zanesljivo odzvati na redke dogodke, kot je vrtača, ki se odpre na cesti. Vendar so ti dogodki zelo redki in težko je pridobiti podatke o usposabljanju za te dogodke. Zaradi tega je pogosto treba ustvariti podatke o usposabljanju za te redke dogodke.

Kot je pojasnil Chakon preko Fortune:

»Naše stranke imajo popoln nadzor nad vsemi parametri, ki gredo v podatke, ki jih ustvarijo. Posledica resničnega sveta je, da ste lahko prepričani, da bo po uvedbi dobro deloval na različnih področjih, z različnimi etničnimi pripadnostmi, na različnih geografskih lokacijah ali katerem koli okolju, ki si ga lahko predstavljate.«

DataGen uporablja Generative Adversarial Networks (GAN) za ustvarjanje realističnih simulacij elementov in dogodkov iz resničnega sveta. Chakon je pojasnil, da lahko podjetje zanesljivo ustvari realistične primere vsega, kar vključuje notranja okolja ali človeško zaznavanje. Na primer, nabor slikovnih podatkov, ki ga ustvari DataGen, bi lahko vključeval primere predmetov, ki se uporabljajo za usposabljanje robotske nabiralne roke, ki se uporablja za logistiko skladišča, pri čemer se ustvarjene slike ne morejo razlikovati od resničnih. Programska oprema podjetja DataGen lahko ustvari 3D objekte s kombinacijo vizualne mreže s sistemom fizikalne simulacije.

Med vlagatelji v DataGen so številni ugledni posamezniki in podjetja. Med vlagatelji so direktorji Nvidiinega oddelka za raziskave AI in Inštituta Max Plank za inteligentne sisteme ter Anthony Goldbloom, izvršni direktor Kaggle.