AI 101
Å to su sintetiÄki podaci?
Å to su sintetiÄki podaci?
SintetiÄki podaci su trend koji se brzo Å”iri i alat u nastajanju u podruÄju znanosti o podacima. Å to su toÄno sintetiÄki podaci? Kratak odgovor je da se sintetiÄki podaci sastoje od podatke koji se ne temelje na pojavama ili dogaÄajima iz stvarnog svijeta, nego se generira pomoÄu raÄunalnog programa. Ipak, zaÅ”to sintetiÄki podaci postaju toliko važni za podatkovnu znanost? Kako nastaju sintetiÄki podaci? Istražimo odgovore na ova pitanja.
Å to je sintetiÄki skup podataka?
Kao Å”to izraz "sintetski" sugerira, sintetiÄki skupovi podataka generiraju se pomoÄu raÄunalnih programa, umjesto da se sastavljaju kroz dokumentaciju dogaÄaja iz stvarnog svijeta. Primarna svrha sintetiÄkog skupa podataka je da bude svestran i dovoljno robustan da bude koristan za obuku modela strojnog uÄenja.
Kako bi bili korisni za klasifikator strojnog uÄenja, sintetiÄki podaci trebaju imati odreÄena svojstva. Iako podaci mogu biti kategoriÄki, binarni ili numeriÄki, duljina skupa podataka trebala bi biti proizvoljna, a podaci bi trebali biti generirani nasumiÄno. NasumiÄni procesi koji se koriste za generiranje podataka trebali bi se moÄi kontrolirati i temeljiti na razliÄitim statistiÄkim distribucijama. NasumiÄni Å”um takoÄer se može smjestiti u skup podataka.
Ako se sintetiÄki podaci koriste za algoritam klasifikacije, koliÄina razdvajanja klasa treba biti prilagodljiva, kako bi se problem klasifikacije mogao olakÅ”ati ili otežati u skladu sa zahtjevima problema. U meÄuvremenu, za zadatak regresije, nelinearni generativni procesi mogu se koristiti za generiranje podataka.
ZaÅ”to koristiti sintetiÄke podatke?
Kako okviri strojnog uÄenja kao Å”to su TensorfFlow i PyTorch postaju lakÅ”i za koriÅ”tenje, a unaprijed dizajnirani modeli za raÄunalni vid i obradu prirodnog jezika postaju sveprisutniji i moÄniji, primarni problem s kojim se znanstvenici moraju suoÄiti jest prikupljanje i rukovanje podacima. Tvrtke Äesto imaju poteÅ”koÄa s prikupljanjem velikih koliÄina podataka za obuku preciznog modela unutar zadanog vremenskog okvira. RuÄno oznaÄavanje podataka je skup i spor naÄin prikupljanja podataka. MeÄutim, generiranje i koriÅ”tenje sintetiÄkih podataka može pomoÄi znanstvenicima i tvrtkama da prevladaju te prepreke i brže razviju pouzdane modele strojnog uÄenja.
Postoje brojne prednosti koriÅ”tenja sintetiÄkih podataka. NajoÄitiji naÄin na koji upotreba sintetiÄkih podataka koristi znanosti o podacima je taj Å”to smanjuje potrebu za hvatanjem podataka iz dogaÄaja u stvarnom svijetu, i iz tog razloga postaje moguÄe generirati podatke i konstruirati skup podataka mnogo brže od skupa podataka koji ovisi o dogaÄaji iz stvarnog svijeta. To znaÄi da se velike koliÄine podataka mogu proizvesti u kratkom vremenskom roku. To posebno vrijedi za dogaÄaje koji se rijetko dogaÄaju, jer ako se dogaÄaj rijetko dogaÄa u divljini, viÅ”e podataka može se lažirati iz nekih pravih uzoraka podataka. Osim toga, podaci se mogu automatski oznaÄavati kako se generiraju, Äime se drastiÄno smanjuje vrijeme potrebno za oznaÄavanje podataka.
SintetiÄki podaci takoÄer mogu biti korisni za dobivanje podataka o obuci za rubne sluÄajeve, Å”to su sluÄajevi koji se mogu dogoditi rijetko, ali su kljuÄni za uspjeh vaÅ”e umjetne inteligencije. Rubni sluÄajevi su dogaÄaji koji su vrlo sliÄni primarnoj meti umjetne inteligencije, ali se razlikuju na važne naÄine. Na primjer, objekti koji su samo djelomiÄno vidljivi mogu se smatrati rubnim sluÄajevima kada se dizajnira klasifikator slike.
KonaÄno, sintetiÄki skupovi podataka može umanjiti brigu o privatnosti. PokuÅ”aji anonimiziranja podataka mogu biti neuÄinkoviti, jer Äak i ako se osjetljive/identifikacijske varijable uklone iz skupa podataka, druge varijable mogu djelovati kao identifikatori kada se kombiniraju. Ovo nije problem sa sintetiÄkim podacima, jer se nikad nisu temeljili na stvarnoj osobi ili stvarnom dogaÄaju.
Koristi sluÄajeve za sintetiÄke podatke
SintetiÄki podaci imaju Å”irok izbor namjene, jer se može primijeniti na bilo koji zadatak strojnog uÄenja. SluÄajevi uobiÄajene upotrebe za sintetiÄke podatke ukljuÄuju samovozeÄa vozila, sigurnost, robotiku, zaÅ”titu od prijevara i zdravstvenu skrb.
Jedan od poÄetnih sluÄajeva upotrebe sintetiÄkih podataka bili su samovozeÄi automobili, jer se sintetiÄki podaci koriste za stvaranje podataka o obuci za automobile u uvjetima u kojima je dobivanje stvarnih podataka o obuci na cesti teÅ”ko ili opasno. SintetiÄki podaci takoÄer su korisni za stvaranje podataka koji se koriste za obuku sustava za prepoznavanje slika, kao Å”to su sustavi nadzora, mnogo uÄinkovitije od ruÄnog prikupljanja i oznaÄavanja hrpe podataka za obuku. Robotski sustavi mogu se sporo obuÄavati i razvijati s tradicionalnim metodama prikupljanja podataka i obuke. SintetiÄki podaci omoguÄuju tvrtkama koje se bave robotikom testiranje i projektiranje robotskih sustava putem simulacija. Sustavi za zaÅ”titu od prijevara mogu imati koristi od sintetiÄkih podataka, a nove metode otkrivanja prijevara mogu se uvježbati i testirati s podacima koji su stalno novi kada se koriste sintetiÄki podaci. U podruÄju zdravstva, sintetiÄki podaci mogu se koristiti za dizajniranje zdravstvenih klasifikatora koji su toÄni, ali Äuvaju privatnost ljudi, jer se podaci neÄe temeljiti na stvarnim ljudima.
Izazovi sintetiÄkih podataka
Iako upotreba sintetiÄkih podataka sa sobom donosi mnoge prednosti, ona donosi i mnoge izazove.
Kada se stvaraju sintetiÄki podaci, Äesto im nedostaju odstupanja. Outlieri se pojavljuju u podacima prirodno, i iako se Äesto ispuÅ”taju iz skupova podataka za obuku, njihovo postojanje može biti neophodno za obuku istinski pouzdanih modela strojnog uÄenja. Osim toga, kvaliteta sintetiÄkih podataka može biti vrlo promjenjiva. SintetiÄki podaci Äesto se generiraju s ulaznim ili poÄetnim podacima, pa stoga kvaliteta podataka može ovisiti o kvaliteti ulaznih podataka. Ako su podaci koriÅ”teni za generiranje sintetiÄkih podataka pristrani, generirani podaci mogu ovjekovjeÄiti tu pristranost. SintetiÄki podaci takoÄer zahtijevaju neki oblik izlaza/kontrole kvalitete. Potrebno ga je provjeriti s podacima koje su oznaÄili ljudi ili su u suprotnom autentiÄni podaci neki oblik.
Kako se stvaraju sintetiÄki podaci?
SintetiÄki podaci izraÄuju se programski tehnikama strojnog uÄenja. Mogu se koristiti klasiÄne tehnike strojnog uÄenja poput stabala odluÄivanja, kao Å”to mogu i tehnike dubokog uÄenja. Zahtjevi za sintetiÄke podatke utjecat Äe na vrstu algoritma koji se koristi za generiranje podataka. Stabla odluÄivanja i sliÄni modeli strojnog uÄenja omoguÄuju tvrtkama stvaranje neklasiÄnih, multimodalnih distribucija podataka, obuÄenih na primjerima podataka iz stvarnog svijeta. Generiranje podataka pomoÄu ovih algoritama pružit Äe podatke koji su u visokoj korelaciji s izvornim podacima o obuci. Na primjer, gdje je poznata tipiÄna distribucija podataka, tvrtka može generirati sintetiÄke podatke koriÅ”tenjem Monte Carlo metode.
Metode temeljene na dubokom uÄenju za generiranje sintetiÄkih podataka obiÄno koriste ili varijacijski autokoder (VAE) ili generativna protivniÄka mreža (GAN). VAE su modeli strojnog uÄenja bez nadzora koji koriste kodere i dekodere. Koderski dio VAE-a odgovoran je za komprimiranje podataka u jednostavniju, kompaktnu verziju izvornog skupa podataka, koju dekoder zatim analizira i koristi za generiranje prikaza osnovnih podataka. VAE se obuÄava s ciljem postizanja optimalnog odnosa izmeÄu ulaznih i izlaznih podataka, odnosa u kojem su i ulazni i izlazni podaci iznimno sliÄni.
Kada je rijeÄ o GAN modelima, oni se nazivaju "adversarial" mrežama zbog Äinjenice da su GAN zapravo dvije mreže koje se meÄusobno natjeÄu. Generator je odgovoran za generiranje sintetiÄkih podataka, dok druga mreža (diskriminator) radi usporeÄujuÄi generirane podatke sa stvarnim skupom podataka i pokuÅ”ava utvrditi koji su podaci lažni. Kada diskriminator uhvati lažne podatke, generator je obavijeÅ”ten o tome i on vrÅ”i promjene kako bi pokuÅ”ao dobiti novu grupu podataka od diskriminatora. Zauzvrat, diskriminator postaje sve bolji i bolji u otkrivanju krivotvorina. Dvije su mreže uvježbane jedna protiv druge, a krivotvorine sve viÅ”e postaju realistiÄne.