Stumm DataGen séchert $ 18 Milliounen an Investitiounen fir synthetesch Donnéeën fir AIs ze kreéieren - Unite.AI
Connect mat eis

Kënschtlech Intelligenz

DataGen séchert $ 18 Milliounen an Investitiounen fir synthetesch Donnéeën fir AIs ze kreéieren

mm
aktualiséiert on

Déi israelesch Startup Firma DataGen huet kuerzem opgewuess $ 18.5 Milliounen Dollar fir d'Schafung vun enger Plattform ze finanzéieren, gewidmet fir synthetesch Donnéeën fir AI Firmen ze produzéieren.

All kënschtlech Intelligenzfirma steet mat der selwechter Kär Erausfuerderung, déi néideg Donnéeën ze sammelen fir seng AI Modeller ze trainéieren. De Besoin fir qualitativ héichwäerteg Trainingsdaten ass sou grouss datt et zu enger ganzer Ënnerindustrie gefouert huet fir AI Firmen d'Donnéeën ze liwweren déi se brauchen fir hir Modeller ze trainéieren. AI an AI-angrenzend Firmen sichen ëmmer no neie Weeër fir d'Donnéeën ze kréien déi se brauchen. Ee Wee fir dës Trainingsdaten ze kréien ass just d'Donnéeën ze fabrizéieren oder ze generéieren.

Wéi Fortune gemellt huet, ass DataGen spezialiséiert fir hir eege Maschinnléiermodeller ze benotzen fir synthetesch Donnéeën fir aner Firmen ze kreéieren fir hir Modeller ze trainéieren, besonnesch Bild- a Videodaten. D'Daten generéiert vun der Firma ginn dann vun hire Clienten benotzt fir hir eege AI Modeller ze trainéieren. Nom DataGen CEO a Grënner, Ofir Chakon, kann d'Firma e ganz syntheteschen Dataset fir eng Clientsfirma an nëmmen e puer Stonnen erstellen. Dëst ass wesentlech méi séier wéi d'Längt vun der Zäit déi et normalerweis hëlt fir en Dataset fir d'Benotzung virzebereeden, wat dacks Wochen oder souguer Méint Labeldaten ass.

Et ginn aner Grënn datt synthetesch Donnéeën attraktiv fir Firmen sinn, ausser der relativer Geschwindegkeet mat där se virbereet kënne ginn. Synthetesch Donnéeën kommen net mat den Aarte vu Privatsphär Bedenken déi richteg Donnéeën maachen. Wéi méi Gesetzer geschaf ginn fir d'Privatsphär vun de Leit ze schützen, gëtt et méi attraktiv fir synthetesch Trainingsdaten ze hunn. Eng Schätzung gëtt vun der Technologieanalysefirma Gartner virausgesot datt bis 2023 ongeféier 65% vun der Weltbevëlkerung hir Donnéeën duerch eng Zort Dateschutzgesetz geschützt hunn.

Trotz der Tatsaach, datt synthetesch Donnéeën net op richtege Leit baséieren, kënnen se nach ëmmer partiell sinn. D'Daten, déi vun engem syntheteschen Datemodell generéiert ginn, hunn déiselwecht Mustere wéi déi ursprénglech Trainingsdaten haten, dat heescht datt wann en Dataset partiell ass, dës Biases an den nei generéierten Donnéeën existéieren. DataGen huet Strategien fir Datebias an de generéierten Donnéeën ze reduzéieren. Eng Method fir Bias an syntheteschen Donnéeën ze reduzéieren ass d'Erhéijung vun der Optriederate vu relativ seltenen Eventer, dat heescht datt wann eng Klass am Dataset ënnerrepresentéiert ass seng Optriederate bis zu eppes méi gläichberechtegt kënne ginn.

D'Technik fir d'Optriede vu seltenen Eventer ze stimuléieren ass onheemlech wichteg wann Dir Datensätz erstellt déi potenziell geféierlech Szenarie involvéieren. Betruecht en Dataset benotzt fir en autonomt Gefier ze trainéieren. D'Gefier muss zouverlässeg op selten Evenementer reagéieren, wéi zum Beispill e Sinkhole op der Strooss. Wéi och ëmmer, dës Eventer si ganz seelen, an Trainingsdaten fir dës Eventer ze kréien ass schwéier. Aus dësem Grond mussen Trainingsdaten fir dës rare Evenementer dacks generéiert ginn.

Wéi Chakon erkläert iwwer Fortune:

"Eis Clienten hunn voll Kontroll iwwer all d'Parameteren, déi an d'Donnéeën erstallt ginn, déi se erstellen. Déi real Welt Implikatioun ass datt, eemol ofgebaut, kënnt Dir sécher sinn datt et gutt a verschiddenen Domainen funktionnéiert, mat verschiddenen Ethnien, a verschiddene geographesche Plazen oder all Ëmfeld, deen Dir Iech virstellen kënnt.

DataGen benotzt Generative Adversarial Networks (GANs) fir realistesch Simulatioune vun realisteschen Artikelen an Eventer ze generéieren. Chakon huet erkläert datt d'Firma zouverlässeg realistesch Beispiller vun alles generéiere kann, wat Indoor-Ëmfeld oder mënschlech Perceptioun involvéiert. Zum Beispill, e Bilddataset generéiert vun DataGen kéint Beispiller vun Objekter enthalen déi benotzt gi fir e Roboter Picking Arm ze trainéieren deen fir Lagerlogistik benotzt gëtt, mat de generéierte Biller déi net z'ënnerscheeden vun der realer Saach. D'Software vun DataGen kann 3D Objekter generéieren andeems se e visuellt Meshwork mat engem Physik Simulatiounssystem kombinéiert.

Investisseuren an DataGen enthalen eng Vielfalt vun héichprofiléierten Individuen a Firmen. Investisseuren enthalen d'Direktere vun der Nvidia AI Fuerschungsdivisioun an dem Max Plank Institut fir Intelligent Systemer, souwéi den Anthony Goldbloom, CEO vu Kaggle.

Blogger a Programméierer mat Spezialitéiten am Machine Learning an Deep Learning Themen. Den Daniel hofft anerer ze hëllefen d'Kraaft vun der AI fir sozial Gutt ze benotzen.