AI 101

Čo sú syntetické údaje?

Aktualizované on Decembra 9, 2022

Čo sú to syntetické údaje?

Syntetické údaje sú rýchlo sa rozvíjajúcim trendom a novým nástrojom v oblasti vedy o údajoch. Čo presne sú syntetické údaje? Krátka odpoveď je, že syntetické údaje sa skladajú z údaje, ktoré nie sú založené na žiadnych skutočných javoch alebo udalostiach, skôr sa generuje prostredníctvom počítačového programu. Prečo sa však syntetické údaje stávajú pre vedu o údajoch také dôležité? Ako vznikajú syntetické dáta? Poďme preskúmať odpovede na tieto otázky.

Čo je to množina syntetických údajov?

Ako naznačuje výraz „syntetický“, syntetické súbory údajov sa generujú prostredníctvom počítačových programov, namiesto toho, aby sa skladali prostredníctvom dokumentácie udalostí v reálnom svete. Primárnym účelom syntetického súboru údajov je byť všestranný a dostatočne robustný, aby bol užitočný na trénovanie modelov strojového učenia.

Aby boli syntetické údaje užitočné pre klasifikátor strojového učenia by mal mať určité vlastnosti. Zatiaľ čo údaje môžu byť kategorické, binárne alebo numerické, dĺžka súboru údajov by mala byť ľubovoľná a údaje by mali byť generované náhodne. Náhodné procesy používané na generovanie údajov by mali byť kontrolovateľné a založené na rôznych štatistických rozdeleniach. Do súboru údajov môže byť umiestnený aj náhodný šum.

Ak sa syntetické údaje používajú pre klasifikačný algoritmus, veľkosť separácie tried by mala byť prispôsobiteľná, aby sa problém klasifikácie mohol zjednodušiť alebo sťažiť podľa požiadaviek problému. Medzitým sa pre regresnú úlohu môžu na generovanie údajov použiť nelineárne generatívne procesy.

Prečo používať syntetické údaje?

Keďže rámce strojového učenia, ako sú TensorfFlow a PyTorch, sa ľahšie používajú a vopred navrhnuté modely pre počítačové videnie a spracovanie prirodzeného jazyka sú všadeprítomnejšie a výkonnejšie, primárnym problémom, ktorému musia vedci údajov čeliť, je zber a manipulácia s údajmi. Spoločnosti majú často problémy so získavaním veľkého množstva údajov na prípravu presného modelu v danom časovom rámci. Ručné označovanie údajov je nákladný a pomalý spôsob získavania údajov. Generovanie a používanie syntetických údajov však môže pomôcť vedcom a spoločnostiam v oblasti údajov prekonať tieto prekážky a rýchlejšie vyvinúť spoľahlivé modely strojového učenia.

Používanie syntetických údajov má množstvo výhod. Najzrejmejším spôsobom, akým využitie syntetických údajov prospieva dátovej vede, je to, že znižuje potrebu zachytávania údajov z udalostí v reálnom svete, a preto je možné generovať údaje a zostavovať súbor údajov oveľa rýchlejšie ako súbor údajov závislý od udalosti z reálneho sveta. To znamená, že je možné vyprodukovať veľké objemy údajov v krátkom časovom rámci. Platí to najmä pre udalosti, ktoré sa vyskytujú zriedkavo, ako keby sa udalosť zriedkavo stala vo voľnej prírode, z niektorých skutočných vzoriek údajov sa dá zosmiešniť viac údajov. Okrem toho môžu byť údaje automaticky označované pri ich generovaní, čím sa výrazne skráti čas potrebný na označenie údajov.

Syntetické údaje môžu byť tiež užitočné na získanie trénovacích údajov pre okrajové prípady, čo sú prípady, ktoré sa môžu vyskytnúť zriedkavo, ale sú rozhodujúce pre úspech vašej AI. Okrajové prípady sú udalosti, ktoré sú veľmi podobné primárnemu cieľu AI, ale líšia sa dôležitými spôsobmi. Napríklad objekty, ktoré sú len čiastočne viditeľné, by sa mohli považovať za okrajové prípady pri navrhovaní klasifikátora obrázkov.

Nakoniec syntetické súbory údajov môže minimalizovať obavy o súkromie. Pokusy o anonymizáciu údajov môžu byť neúčinné, pretože aj keď sa citlivé/identifikujúce premenné odstránia zo súboru údajov, iné premenné môžu pri ich kombinácii pôsobiť ako identifikátory. Toto nie je problém so syntetickými údajmi, pretože v prvom rade nikdy neboli založené na skutočnej osobe alebo skutočnej udalosti.

Používa prípady pre syntetické dáta

Syntetické údaje majú širokú škálu používa, pretože sa dá použiť takmer na akúkoľvek úlohu strojového učenia. Bežné prípady použitia syntetické údaje zahŕňajú samojazdiace vozidlá, bezpečnosť, robotiku, ochranu pred podvodmi a zdravotnú starostlivosť.

Jedným z počiatočných prípadov použitia syntetických údajov boli autá s vlastným pohonom, pretože syntetické údaje sa používajú na vytváranie tréningových údajov pre automobily v podmienkach, kde je získanie skutočných údajov o tréningu na ceste ťažké alebo nebezpečné. Syntetické údaje sú tiež užitočné na vytváranie údajov používaných na trénovanie systémov rozpoznávania obrazu, ako sú sledovacie systémy, oveľa efektívnejšie ako manuálne zhromažďovanie a označovanie množstva trénovacích údajov. Robotické systémy sa môžu pomaly trénovať a vyvíjať s tradičnými metódami zberu údajov a školení. Syntetické údaje umožňujú robotickým spoločnostiam testovať a konštruovať robotické systémy prostredníctvom simulácií. Systémy ochrany pred podvodmi môžu ťažiť zo syntetických údajov a nové metódy odhaľovania podvodov je možné trénovať a testovať s údajmi, ktoré sú pri použití syntetických údajov neustále nové. V oblasti zdravotnej starostlivosti možno syntetické údaje použiť na navrhovanie zdravotných klasifikátorov, ktoré sú presné, no zároveň zachovávajú súkromie ľudí, keďže údaje nebudú založené na skutočných ľuďoch.

Výzvy týkajúce sa syntetických údajov

Používanie syntetických údajov so sebou prináša množstvo výhod, no zároveň prináša aj mnohé výzvy.

Keď sa vytvárajú syntetické údaje, často im chýbajú odľahlé hodnoty. Odľahlé hodnoty sa vyskytujú v údajoch prirodzene, a hoci sa často vypúšťajú z trénovacích súborov údajov, ich existencia môže byť potrebná na trénovanie skutočne spoľahlivých modelov strojového učenia. Okrem toho môže byť kvalita syntetických údajov veľmi variabilná. Syntetické údaje sa často generujú so vstupnými alebo počiatočnými údajmi, a preto kvalita údajov môže závisieť od kvality vstupných údajov. Ak sú údaje použité na generovanie syntetických údajov skreslené, vygenerované údaje môžu toto skreslenie zachovať. Syntetické údaje tiež vyžadujú určitú formu kontroly výstupu/kvality. Treba to skontrolovať oproti údajom anotovaným človekom, inak sú autentické údaje nejakou formou.

Ako sa vytvárajú syntetické údaje?

Syntetické dáta sa vytvárajú programovo pomocou techník strojového učenia. Môžu sa použiť klasické techniky strojového učenia, ako sú rozhodovacie stromy, rovnako ako techniky hlbokého učenia. Požiadavky na syntetické údaje ovplyvnia, aký typ algoritmu sa použije na generovanie údajov. Rozhodovacie stromy a podobné modely strojového učenia umožňujú spoločnostiam vytvárať neklasické, multimodálne distribúcie údajov trénované na príkladoch údajov z reálneho sveta. Generovanie údajov pomocou týchto algoritmov poskytne údaje, ktoré vysoko korelujú s pôvodnými trénovacími údajmi. V prípadoch, keď je známa typická distribúcia údajov, môže spoločnosť generovať syntetické údaje pomocou metódy Monte Carlo.

Metódy generovania syntetických údajov založené na hĺbkovom učení zvyčajne využívajú obe variačný autokóder (VAE) or generatívna adversariálna sieť (GAN). VAE sú modely strojového učenia bez dozoru, ktoré využívajú kodéry a dekodéry. Kódovacia časť VAE je zodpovedná za kompresiu údajov do jednoduchšej kompaktnej verzie pôvodného súboru údajov, ktorý dekodér potom analyzuje a použije na vytvorenie reprezentácie základných údajov. VAE je trénovaný s cieľom dosiahnuť optimálny vzťah medzi vstupnými údajmi a výstupmi, pričom vstupné a výstupné údaje sú veľmi podobné.

Pokiaľ ide o modely GAN, nazývajú sa „protichodné“ siete, pretože GAN sú vlastne dve siete, ktoré si navzájom konkurujú. Generátor je zodpovedný za generovanie syntetických údajov, zatiaľ čo druhá sieť (diskriminátor) funguje tak, že porovnáva generované údaje so skutočným súborom údajov a snaží sa určiť, ktoré údaje sú falošné. Keď diskriminátor zachytí falošné údaje, generátor je na to upozornený a vykoná zmeny, aby sa pokúsil získať novú dávku údajov diskriminátorom. Na druhej strane sa diskriminátor stáva čoraz lepším v odhaľovaní falzifikátov. Tieto dve siete sú trénované proti sebe, pričom falzifikáty sú stále realistickejšie.