Inteligență artificială
DataGen Obține 18 Milioane de Dolari în Investiții pentru a Crea Date Sintetice pentru IA

Compania israeliană de startup DataGen a strâns recent 18,5 milioane de dolari pentru a finanța crearea unei platforme dedicate producerii de date sintetice pentru companiile de inteligență artificială.
Orice companie de inteligență artificială se confruntă cu aceeași provocare de bază, colectarea datelor necesare pentru a antrena modelele sale de IA. Nevoia de date de antrenament de înaltă calitate este atât de mare încât a condus la o întreagă sub-industrie dedicată furnizării de date companiilor de IA pentru a-și antrena modelele. Companiile de IA și cele conexe sunt întotdeauna în căutarea de noi modalități de a obține datele de care au nevoie. O modalitate de a obține aceste date de antrenament este să le fabrice sau să le genereze.
După cum a raportat Fortune, DataGen se specializează în utilizarea propriilor modele de învățare automată pentru a crea date sintetice pentru alte companii pentru a-și antrena modelele, în special date de imagine și video. Datele generate de companie sunt apoi utilizate de clienții săi pentru a-și antrena propriile modele de IA. Conform CEO-ului și fondatorului DataGen, Ofir Chakon, compania poate crea un întreg set de date sintetice pentru o companie client în doar câteva ore. Acest lucru este semnificativ mai rapid decât timpul necesar pentru a pregăti un set de date pentru utilizare, care este adesea de săptămâni sau chiar luni de etichetare a datelor.
Există și alte motive pentru care datele sintetice sunt atractive pentru companii, în afara vitezei relative cu care pot fi pregătite. Datele sintetice nu vin cu tipurile de preocupări privind confidențialitatea pe care le au datele reale. Pe măsură ce se creează mai multe legi pentru a proteja confidențialitatea datelor persoanelor, devine mai atractiv să se utilizeze date de antrenament sintetice. O estimare dată de firma de analize tehnologice Gartner prezice că, până în 2023, aproximativ 65% din populația lumii va avea datele sale protejate de un fel de lege privind confidențialitatea datelor.
În ciuda faptului că datele sintetice nu se bazează pe persoane reale, ele pot totuși fi biasate. Datele generate de un model de date sintetice vor avea aceleași tipare pe care le-a avut datele de antrenament originale, ceea ce înseamnă că, dacă un set de date este biasat, aceste biasări vor exista în datele nou generate. DataGen are strategii pentru reducerea biasului în datele generate. O metodă pentru reducerea biasului în datele sintetice constă în creșterea ratei de apariție a evenimentelor rare, ceea ce înseamnă că, dacă o clasă din setul de date este sub-reprezentată, rata sa de apariție poate fi mărită până la ceva mai egal.
Tehnica de creștere a ratei de apariție a evenimentelor rare este incredibil de importantă atunci când se creează seturi de date care implică scenarii potențial periculoase. Luați în considerare un set de date utilizat pentru a antrena un vehicul autonom. Vehiculul trebuie să răspundă în mod fiabil la evenimente rare, cum ar fi deschiderea unei gropi în drum. Cu toate acestea, aceste evenimente sunt foarte rare, iar obținerea de date de antrenament pentru aceste evenimente este dificilă. Din acest motiv, datele de antrenament pentru aceste evenimente rare trebuie adesea să fie generate.
Așa cum a explicat Chakon prin Fortune:
“Clienții noștri au control deplin asupra tuturor parametrilor care intră în datele pe care le creează. Implicația reală este că, odată implementate, puteți fi siguri că vor funcționa bine în diferite domenii, cu diferite etnii, în diferite locații geografice sau în orice mediu pe care îl puteți imagina.”
DataGen utilizează Rețele Adversative Generative (GAN) pentru a genera simulări realiste ale articolelor și evenimentelor din lumea reală. Chakon a explicat că compania poate genera în mod fiabil exemple realiste ale oricărui lucru care implică medii interioare sau percepție umană. De exemplu, un set de date de imagini generate de DataGen ar putea include exemple de obiecte utilizate pentru a antrena un braț de ridicare robotic utilizat pentru logistică de depozit, cu imaginile generate arătând indistinguizabile de cele reale. Software-ul DataGen poate genera obiecte 3D prin combinarea unei rețele vizuale cu un sistem de simulare fizică.
Investitorii în DataGen includ o varietate de persoane și companii de înaltă profil. Investitorii includ directorii diviziei de cercetare a inteligenței artificiale a Nvidia și Institutul Max Plank pentru Sisteme Inteligente, precum și Anthony Goldbloom, CEO al Kaggle.












