škrbina Kaj so sintetični podatki? - Združi se.AI
Povežite se z nami

AI 101

Kaj so sintetični podatki?

mm
Posodobljeno on

Kaj so sintetični podatki?

Sintetični podatki so hitro rastoč trend in nastajajoče orodje na področju podatkovne znanosti. Kaj točno so sintetični podatki? Kratek odgovor je, da so sintetični podatki sestavljeni iz podatki, ki ne temeljijo na nobenih pojavih ali dogodkih iz resničnega sveta, temveč je ustvarjen z računalniškim programom. Toda zakaj sintetični podatki postajajo tako pomembni za podatkovno znanost? Kako nastanejo sintetični podatki? Raziščimo odgovore na ta vprašanja.

Kaj je sintetični nabor podatkov?

Kot pove izraz "sintetični", so sintetični nabori podatkov ustvarjeni z računalniškimi programi, namesto da bi bili sestavljeni z dokumentacijo dogodkov iz resničnega sveta. Glavni namen sintetičnega nabora podatkov je, da je vsestranski in dovolj robusten, da je uporaben za usposabljanje modelov strojnega učenja.

Sintetični podatki so uporabni za klasifikator strojnega učenja mora imeti določene lastnosti. Medtem ko so podatki lahko kategorični, binarni ali numerični, mora biti dolžina nabora podatkov poljubna in podatki morajo biti naključno ustvarjeni. Naključni procesi, ki se uporabljajo za ustvarjanje podatkov, bi morali biti nadzorovani in temeljiti na različnih statističnih porazdelitvah. V nabor podatkov se lahko umesti tudi naključni šum.

Če se sintetični podatki uporabljajo za algoritem za klasifikacijo, mora biti količina ločevanja razredov prilagodljiva, da se lahko težava s klasifikacijo olajša ali oteži glede na zahteve problema. Medtem se lahko za regresijsko nalogo za generiranje podatkov uporabijo nelinearni generativni procesi.

Zakaj uporabljati sintetične podatke?

Ker postajajo ogrodja za strojno učenje, kot sta TensorfFlow in PyTorch, enostavnejša za uporabo in vnaprej zasnovani modeli za računalniški vid in obdelavo naravnega jezika postajajo bolj vseprisotni in zmogljivi, je primarna težava, s katero se morajo soočiti podatkovni znanstveniki, zbiranje in ravnanje s podatki. Podjetja imajo pogosto težave pri pridobivanju velikih količin podatkov za usposabljanje natančnega modela v danem časovnem okviru. Ročno označevanje podatkov je drag in počasen način pridobivanja podatkov. Vendar lahko ustvarjanje in uporaba sintetičnih podatkov pomaga podatkovnim znanstvenikom in podjetjem premagati te ovire in hitreje razviti zanesljive modele strojnega učenja.

Uporaba sintetičnih podatkov ima številne prednosti. Najbolj očiten način, kako uporaba sintetičnih podatkov koristi znanosti o podatkih, je ta, da zmanjša potrebo po zajemanju podatkov iz dogodkov v resničnem svetu, zaradi česar je mogoče ustvariti podatke in sestaviti nabor podatkov veliko hitreje kot nabor podatkov, odvisen od dogodki iz resničnega sveta. To pomeni, da je mogoče v kratkem času proizvesti velike količine podatkov. To še posebej velja za dogodke, ki se redko zgodijo, saj če se dogodek redko zgodi v naravi, je mogoče več podatkov ponarejati iz nekaterih pristnih vzorcev podatkov. Poleg tega je mogoče podatke samodejno označiti, ko so ustvarjeni, kar drastično skrajša čas, potreben za označevanje podatkov.

Sintetični podatki so lahko koristni tudi za pridobivanje podatkov o usposabljanju za robne primere, ki so primeri, ki se lahko pojavljajo redko, vendar so ključni za uspeh vaše umetne inteligence. Robni primeri so dogodki, ki so zelo podobni primarni tarči umetne inteligence, vendar se razlikujejo v pomembnih pogledih. Na primer, objekte, ki so samo delno vidni, bi lahko pri načrtovanju slikovnega klasifikatorja obravnavali kot robne primere.

Končno sintetični nabori podatkov lahko zmanjša pomisleke glede zasebnosti. Poskusi anonimiziranja podatkov so lahko neučinkoviti, saj lahko druge spremenljivke, tudi če so občutljive/identifikacijske spremenljivke odstranjene iz nabora podatkov, delujejo kot identifikatorji, ko so združene. To ni težava s sintetičnimi podatki, saj nikoli niso temeljili na resnični osebi ali resničnem dogodku.

Uporablja primere za sintetične podatke

Sintetični podatki imajo široko paleto uporablja, saj ga je mogoče uporabiti za skoraj vsako nalogo strojnega učenja. Pogosti primeri uporabe za sintetične podatke vključujejo samovozeča vozila, varnost, robotiko, zaščito pred goljufijami in zdravstveno varstvo.

Eden od začetnih primerov uporabe sintetičnih podatkov so bili samovozeči avtomobili, saj se sintetični podatki uporabljajo za ustvarjanje podatkov o usposabljanju za avtomobile v pogojih, kjer je pridobivanje resničnih podatkov o usposabljanju na cesti težko ali nevarno. Sintetični podatki so uporabni tudi za ustvarjanje podatkov, ki se uporabljajo za usposabljanje sistemov za prepoznavanje slik, kot so sistemi za nadzor, veliko bolj učinkovito kot ročno zbiranje in označevanje množice podatkov za usposabljanje. Robotski sistemi se lahko počasi usposabljajo in razvijajo s tradicionalnimi metodami zbiranja podatkov in usposabljanja. Sintetični podatki robotskim podjetjem omogočajo testiranje in načrtovanje robotskih sistemov s pomočjo simulacij. Sistemom za zaščito pred goljufijami lahko koristijo sintetični podatki, nove metode odkrivanja goljufij pa je mogoče usposobiti in preizkusiti s podatki, ki so vedno novi, ko se uporabljajo sintetični podatki. Na področju zdravstva je mogoče sintetične podatke uporabiti za oblikovanje zdravstvenih klasifikatorjev, ki so natančni, vendar ohranjajo zasebnost ljudi, saj podatki ne bodo temeljili na resničnih ljudeh.

Izzivi sintetičnih podatkov

Medtem ko uporaba sintetičnih podatkov prinaša številne prednosti, prinaša tudi številne izzive.

Ko so ustvarjeni sintetični podatki, pogosto nimajo izstopajočih vrednosti. Izstopajoči podatki se pojavljajo v podatkih naravno in čeprav so pogosto izpuščeni iz naborov podatkov za usposabljanje, je njihov obstoj morda potreben za usposabljanje resnično zanesljivih modelov strojnega učenja. Poleg tega je lahko kakovost sintetičnih podatkov zelo različna. Sintetični podatki so pogosto ustvarjeni z vhodnimi ali začetnimi podatki, zato je kakovost podatkov lahko odvisna od kakovosti vhodnih podatkov. Če so podatki, uporabljeni za ustvarjanje sintetičnih podatkov, pristranski, lahko ustvarjeni podatki ohranjajo to pristranskost. Sintetični podatki zahtevajo tudi neko obliko nadzora izhoda/kakovosti. Preveriti ga je treba glede na podatke, označene s človekom, ali pa so verodostojni podatki neke oblike.

Kako nastanejo sintetični podatki?

Sintetični podatki so ustvarjeni programsko s tehnikami strojnega učenja. Uporabljajo se lahko klasične tehnike strojnega učenja, kot so odločitvena drevesa, kot tudi tehnike globokega učenja. Zahteve za sintetične podatke bodo vplivale na vrsto algoritma, uporabljenega za generiranje podatkov. Odločitvena drevesa in podobni modeli strojnega učenja omogočajo podjetjem, da ustvarijo neklasične, večmodalne distribucije podatkov, usposobljene na primerih podatkov iz resničnega sveta. Ustvarjanje podatkov s temi algoritmi bo zagotovilo podatke, ki so zelo povezani z izvirnimi podatki o usposabljanju. Na primer, kjer je tipična porazdelitev podatkov znana, lahko podjetje ustvari sintetične podatke z uporabo metode Monte Carlo.

Metode ustvarjanja sintetičnih podatkov, ki temeljijo na poglobljenem učenju, običajno uporabljajo oboje variacijski samodejni kodirnik (VAE) or generativno kontradiktorno omrežje (GAN). VAE so nenadzorovani modeli strojnega učenja, ki uporabljajo kodirnike in dekodirnike. Kodirni del VAE je odgovoren za stiskanje podatkov v enostavnejšo, kompaktno različico izvirnega nabora podatkov, ki jo dekoder nato analizira in uporabi za ustvarjanje predstavitve osnovnih podatkov. VAE se usposablja s ciljem doseči optimalno razmerje med vhodnimi in izhodnimi podatki, kjer so vhodni in izhodni podatki zelo podobni.

Ko gre za modele GAN, jih imenujemo »adversarial« omrežja zaradi dejstva, da sta GAN dejansko dve omrežji, ki tekmujeta med seboj. Generator je odgovoren za generiranje sintetičnih podatkov, medtem ko drugo omrežje (diskriminator) deluje tako, da primerja generirane podatke z resničnim naborom podatkov in poskuša ugotoviti, kateri podatki so lažni. Ko diskriminator zajame ponarejene podatke, je generator o tem obveščen in izvede spremembe, da poskusi pridobiti novo serijo podatkov s strani diskriminatorja. Po drugi strani postaja diskriminator vedno boljši pri odkrivanju ponaredkov. Obe omrežji se usmerjata eno proti drugemu, pri čemer ponaredki vedno bolj postajajo realistični.