стуб Шта су синтетички подаци? - Уните.АИ
Повежите се са нама

АИ 101

Шта су синтетички подаци?

mm
Ажурирано on

Шта су синтетички подаци?

Синтетички подаци су тренд који се брзо шири и алат у настајању у области науке о подацима. Шта су тачно синтетички подаци? Кратак одговор је да се синтетички подаци састоје од податке који се не заснивају ни на каквим појавама или догађајима из стварног света, него се генерише преко компјутерског програма. Ипак, зашто синтетички подаци постају толико важни за науку о подацима? Како се стварају синтетички подаци? Хајде да истражимо одговоре на ова питања.

Шта је синтетички скуп података?

Као што термин „синтетички“ сугерише, синтетички скупови података се генеришу преко компјутерских програма, уместо да се састављају кроз документацију о догађајима у стварном свету. Примарна сврха синтетичког скупа података је да буде довољно разноврстан и робустан да буде користан за обуку модела машинског учења.

Да би били корисни за класификатор машинског учења, синтетички подаци треба да има одређена својства. Док подаци могу бити категорички, бинарни или нумерички, дужина скупа података треба да буде произвољна и подаци би требало да се генеришу насумично. Насумични процеси који се користе за генерисање података треба да буду контролисани и засновани на различитим статистичким дистрибуцијама. Случајни шум се такође може поставити у скуп података.

Ако се синтетички подаци користе за класификациони алгоритам, количина раздвајања класа треба да буде прилагодљива, како би се проблем класификације могао олакшати или отежати у складу са захтевима проблема. У међувремену, за задатак регресије, нелинеарни генеративни процеси се могу користити за генерисање података.

Зашто користити синтетичке податке?

Како оквири за машинско учење као што су ТенсорфФлов и ПиТорцх постају лакши за коришћење, а унапред дизајнирани модели за компјутерски вид и обраду природног језика постају свеприсутнији и моћнији, примарни проблем са којим се научници података морају суочити је прикупљање и руковање подацима. Компаније често имају потешкоћа да прибаве велике количине података како би обучиле тачан модел у датом временском оквиру. Ручно означавање података је скуп и спор начин за прикупљање података. Међутим, генерисање и коришћење синтетичких података може помоћи научницима за податке и компанијама да превазиђу ове препреке и брже развију поуздане моделе машинског учења.

Постоји низ предности коришћења синтетичких података. Најочигледнији начин на који коришћење синтетичких података користи науци о подацима је тај што смањује потребу за прикупљањем података из догађаја у стварном свету, и из тог разлога постаје могуће генерисати податке и конструисати скуп података много брже од скупа података који зависи од догађаји из стварног света. То значи да се велике количине података могу произвести у кратком временском периоду. Ово посебно важи за догађаје који се ретко дешавају, као да се догађај ретко дешава у дивљини, више података се може извући из неких оригиналних узорака података. Осим тога, подаци могу бити аутоматски означени како се генеришу, драстично смањујући време потребно за означавање података.

Синтетички подаци такође могу бити корисни за добијање података о обуци за крајње случајеве, који се могу појавити ретко, али су критични за успех ваше вештачке интелигенције. Рубни случајеви су догађаји који су веома слични примарној мети АИ, али се разликују на важне начине. На пример, објекти који су само делимично видљиви могу се сматрати рубним случајевима када се дизајнира класификатор слика.

Коначно, синтетички скупови података може минимизирати забринутост за приватност. Покушаји анонимизације података могу бити неефикасни, јер чак и ако се осетљиве/идентификационе варијабле уклоне из скупа података, друге варијабле могу деловати као идентификатори када се комбинују. Ово није проблем са синтетичким подацима, јер они никада нису били засновани на стварној особи или стварном догађају.

Користи случајеве за синтетичке податке

Синтетички подаци имају широк спектар користи, јер се може применити на било који задатак машинског учења. Случајеви уобичајене употребе за синтетичке податке спадају самовозећа возила, безбедност, роботика, заштита од превара и здравствена заштита.

Један од почетних случајева употребе синтетичких података били су аутомобили који се сами возе, јер се синтетички подаци користе за креирање података о обуци за аутомобиле у условима када је добијање стварних података о обуци на путу тешко или опасно. Синтетички подаци су такође корисни за креирање података који се користе за обуку система за препознавање слика, као што су системи за надзор, много ефикасније него ручно прикупљање и означавање гомиле података за обуку. Роботски системи могу бити спори за обуку и развој са традиционалним методама прикупљања података и обуке. Синтетички подаци омогућавају роботским компанијама да тестирају и конструишу роботске системе путем симулација. Системи за заштиту од превара могу имати користи од синтетичких података, а нове методе откривања превара могу бити обучене и тестиране са подацима који су стално нови када се користе синтетички подаци. У области здравства, синтетички подаци се могу користити за дизајнирање здравствених класификатора који су тачни, али истовремено чувају приватност људи, јер подаци неће бити засновани на стварним људима.

Изазови синтетичких података

Иако употреба синтетичких података са собом доноси многе предности, она такође доноси многе изазове.

Када се креирају синтетички подаци, често им недостају изванредни подаци. Оутлиерс се јављају у подацима природно, и иако се често избацују из скупова података за обуку, њихово постојање може бити неопходно за обуку заиста поузданих модела машинског учења. Осим тога, квалитет синтетичких података може бити веома променљив. Синтетички подаци се често генеришу са улазним или почетним подацима, па стога квалитет података може зависити од квалитета улазних података. Ако су подаци који се користе за генерисање синтетичких података пристрасни, генерисани подаци могу да продуже ту пристрасност. Синтетички подаци такође захтевају неки облик контроле квалитета. Треба га проверити у односу на податке које су написали људи, или су аутентични подаци неки облик.

Како се стварају синтетички подаци?

Синтетички подаци се креирају програмски помоћу техника машинског учења. Могу се користити класичне технике машинског учења као што су стабла одлучивања, као и технике дубоког учења. Захтеви за синтетичке податке ће утицати на то који се тип алгоритма користи за генерисање података. Стабла одлучивања и слични модели машинског учења омогућавају компанијама да креирају некласичне, мултимодалне дистрибуције података, обучене на примерима података из стварног света. Генерисање података помоћу ових алгоритама ће обезбедити податке који су у великој корелацији са оригиналним подацима о обуци. На пример, где је позната типична дистрибуција података, компанија може да генерише синтетичке податке коришћењем Монте Карло методе.

Методе генерисања синтетичких података засноване на дубоком учењу обично користе оба варијациони аутоенкодер (ВАЕ) or генеративна супарничка мрежа (ГАН). ВАЕ су модели машинског учења без надзора који користе енкодере и декодере. Део енкодера ВАЕ је одговоран за компресију података у једноставнију, компактну верзију оригиналног скупа података, који декодер затим анализира и користи да генерише репрезентацију основних података. ВАЕ је обучен са циљем да има оптималан однос између улазних података и излаза, онај где су и улазни и излазни подаци изузетно слични.

Када је реч о ГАН моделима, они се називају „адверсариалним“ мрежама због чињенице да су ГАН заправо две мреже које се међусобно такмиче. Генератор је одговоран за генерисање синтетичких података, док друга мрежа (дискриминатор) ради тако што упоређује генерисане податке са стварним скупом података и покушава да утврди који су подаци лажни. Када дискриминатор ухвати лажне податке, генератор се обавештава о томе и прави промене како би покушао да добије нову групу података од дискриминатора. Заузврат, дискриминатор постаје све бољи у откривању лажњака. Две мреже су обучене једна против друге, а лажне све време постају све реалније.