AI 101

Mi a szintetikus adat?

korszerűsített on December 9, 2022

Mi az a szintetikus adat?

A szintetikus adatok gyorsan bővülő trend és feltörekvő eszköz az adattudomány területén. Mi is pontosan a szintetikus adat? A rövid válasz az, hogy szintetikus adatokból állnak olyan adatok, amelyek nem alapulnak semmilyen valós jelenségen vagy eseményen, hanem számítógépes programon keresztül állítják elő. Mégis miért válnak olyan fontossá a szintetikus adatok az adattudomány számára? Hogyan jönnek létre a szintetikus adatok? Nézzük meg a válaszokat ezekre a kérdésekre.

Mi az a szintetikus adatkészlet?

Amint azt a „szintetikus” kifejezés is sugallja, a szintetikus adatkészleteket számítógépes programok generálják, ahelyett, hogy valós események dokumentálásával lennének összeállítva. A szintetikus adatkészlet elsődleges célja, hogy elég sokoldalú és robusztus legyen ahhoz, hogy hasznos legyen a gépi tanulási modellek képzésében.

Annak érdekében, hogy hasznosak legyenek egy gépi tanulási osztályozó számára, a szintetikus adatok rendelkeznie kell bizonyos tulajdonságokkal. Míg az adatok lehetnek kategoriálisak, binárisak vagy numerikusak, az adatkészlet hosszának tetszőlegesnek kell lennie, és az adatokat véletlenszerűen kell előállítani. Az adatok generálására használt véletlenszerű folyamatoknak ellenőrizhetőnek és különböző statisztikai eloszlásokon kell alapulniuk. Véletlenszerű zaj is elhelyezhető az adatkészletben.

Ha a szintetikus adatokat osztályozási algoritmushoz használjuk, akkor az osztályleválasztás mértékének testreszabhatónak kell lennie, hogy az osztályozási probléma a probléma követelményeinek megfelelően könnyebbé vagy nehezebbé váljon. Eközben egy regressziós feladathoz nemlineáris generatív folyamatok is használhatók az adatok előállítására.

Miért használjunk szintetikus adatokat?

Ahogy a gépi tanulási keretrendszerek, például a TensorfFlow és a PyTorch egyre könnyebben használhatóvá válnak, és a számítógépes látás és a természetes nyelvi feldolgozás előre megtervezett modelljei egyre általánosabbak és erősebbek, az elsődleges probléma, amellyel az adatkutatóknak szembe kell nézniük, az adatok gyűjtése és kezelése. A vállalatoknak gyakran nehézséget okoz nagy mennyiségű adat beszerzése, hogy egy adott időkereten belül pontos modellt taníthassanak. Az adatok kézi címkézése költséges, lassú módja az adatok beszerzésének. A szintetikus adatok előállítása és felhasználása azonban segíthet az adatkutatóknak és a vállalatoknak leküzdeni ezeket az akadályokat, és gyorsabban kifejleszteni megbízható gépi tanulási modelleket.

A szintetikus adatok használatának számos előnye van. A szintetikus adatok felhasználásának legnyilvánvalóbb módja az adattudománynak az, hogy csökkenti a valós eseményekből származó adatok rögzítésének szükségességét, és emiatt sokkal gyorsabban lehet adatokat generálni és adatkészletet létrehozni, mint egy adathalmaztól függő adathalmazhoz. valós eseményeket. Ez azt jelenti, hogy nagy mennyiségű adat állítható elő rövid időn belül. Ez különösen igaz azokra az eseményekre, amelyek ritkán fordulnak elő, mivel ha egy esemény ritkán történik a vadonban, több adatot lehet kijátszani néhány valódi adatmintából. Ezen túlmenően az adatok automatikusan címkézhetők a generálás során, ami drasztikusan csökkenti az adatok címkézéséhez szükséges időt.

A szintetikus adatok hasznosak lehetnek az éles esetek betanítási adatainak gyűjtésére is, amelyek ritkán fordulnak elő, de kritikusak az AI sikere szempontjából. Az éles esetek olyan események, amelyek nagyon hasonlóak egy mesterséges intelligencia elsődleges célpontjához, de lényegesen különböznek egymástól. Például a csak részben látható objektumok éles eseteknek tekinthetők a képosztályozó tervezésekor.

Végül a szintetikus adatkészletek minimálisra csökkentheti az adatvédelmi aggályokat. Az adatok anonimizálására tett kísérletek hatástalanok lehetnek, mivel még ha az érzékeny/azonosító változókat eltávolítják is az adatkészletből, más változók azonosítóként működhetnek kombinálásukkor. Ez nem probléma a szintetikus adatokkal, mivel azok soha nem alapultak valós személyen vagy valós eseményen.

Case-t használ szintetikus adatokhoz

A szintetikus adatoknak sokféle változata van használ, mivel szinte bármilyen gépi tanulási feladatra alkalmazható. Gyakori felhasználási esetek a szintetikus adatok esetében az önvezető járművek, a biztonság, a robotika, a csalás elleni védelem és az egészségügy.

A szintetikus adatok egyik kezdeti felhasználási esete az önvezető autók voltak, mivel a szintetikus adatokat olyan autók edzési adatainak létrehozására használják, ahol a valós, útközbeni edzési adatok megszerzése nehéz vagy veszélyes. A szintetikus adatok a képfelismerő rendszerek, például a megfigyelőrendszerek képzésére használt adatok létrehozásához is hasznosak, sokkal hatékonyabban, mint egy csomó tanítási adat manuális gyűjtése és címkézése. A robotikai rendszerek képzése és fejlesztése lassú lehet a hagyományos adatgyűjtési és képzési módszerekkel. A szintetikus adatok lehetővé teszik a robotikai cégek számára, hogy szimulációk segítségével teszteljék és tervezzenek robotikai rendszereket. A csalásvédelmi rendszerek profitálhatnak a szintetikus adatokból, és új csalásfelderítési módszerek taníthatók és tesztelhetők olyan adatokkal, amelyek szintetikus adatok használatakor folyamatosan újak. Az egészségügy területén szintetikus adatok segítségével olyan egészségügyi osztályozókat lehet tervezni, amelyek pontosak, ugyanakkor megőrzik az emberek magánéletét, mivel az adatok nem valós személyeken alapulnak.

Szintetikus adatok kihívásai

Míg a szintetikus adatok használata számos előnnyel jár, számos kihívást is jelent.

Szintetikus adatok létrehozásakor gyakran hiányoznak a kiugró értékek. A kiugró értékek természetesen előfordulnak az adatokban, és bár gyakran kimaradnak a betanítási adatkészletekből, létezésük szükséges lehet a valóban megbízható gépi tanulási modellek betanításához. Ezen túlmenően a szintetikus adatok minősége nagyon változó lehet. A szintetikus adatokat gyakran bemeneti vagy magadatokkal állítják elő, ezért az adatok minősége függhet a bemeneti adatok minőségétől. Ha a szintetikus adatok előállításához használt adatok torzítottak, a generált adatok fenntarthatják ezt a torzítást. A szintetikus adatokhoz valamilyen kimeneti/minőség-ellenőrzés is szükséges. Ellenőrizni kell az ember által jegyzett adatokkal, vagy más módon hiteles adat valamilyen formában.

Hogyan jön létre a szintetikus adat?

A szintetikus adatok programozottan, gépi tanulási technikákkal jönnek létre. A klasszikus gépi tanulási technikák, például a döntési fák használhatók, akárcsak a mély tanulási technikák. A szintetikus adatokra vonatkozó követelmények befolyásolják, hogy milyen típusú algoritmust használnak az adatok előállításához. A döntési fák és a hasonló gépi tanulási modellek lehetővé teszik a vállalatok számára, hogy nem klasszikus, multimodális adateloszlásokat hozzanak létre, valós adatok példáira oktatva. Az ezekkel az algoritmusokkal végzett adatok generálása olyan adatokat biztosít, amelyek erősen korrelálnak az eredeti képzési adatokkal. Azokban az esetekben, amikor az adatok tipikus eloszlása ismert, a vállalat szintetikus adatokat generálhat egy Monte Carlo-módszer használatával.

A szintetikus adatok előállításának mély tanuláson alapuló módszerei általában bármelyiket használják variációs autoencoder (VAE) or generatív ellenséges hálózat (GAN). A VAE felügyelt gépi tanulási modellek, amelyek kódolókat és dekódereket használnak. A VAE kódoló része felelős az adatok tömörítéséért az eredeti adatkészlet egyszerűbb, kompakt változatába, amelyet a dekódoló elemzi és felhasznál az alapadatok reprezentációjának létrehozására. A VAE képzése azzal a céllal történik, hogy optimális kapcsolat legyen a bemeneti és a kimeneti adatok között, ahol a bemeneti és a kimeneti adatok rendkívül hasonlóak.

Amikor a GAN modellekről van szó, ezeket „ellenálló” hálózatoknak nevezik, mivel a GAN valójában két hálózat, amelyek egymással versengenek. A generátor feladata a szintetikus adatok előállítása, míg a második hálózat (a diszkriminátor) úgy működik, hogy összehasonlítja a generált adatokat egy valós adatkészlettel, és megpróbálja meghatározni, hogy melyik adat hamis. Amikor a megkülönböztető hamis adatot fog el, a generátor értesítést kap erről, és változtatásokat hajt végre, hogy megpróbáljon új adatköteget szerezni a megkülönböztető által. A diszkriminátor viszont egyre jobban felismeri a hamisítványokat. A két hálózat egymás ellen van kiképezve, a hamisítványok folyamatosan életszerűbbé válnak.

Up Next

Az Udacity elindítja az RPA Developer Nanodegree programot az UiPath-tal együtt

Ne hagyd ki

Mesterséges intelligencia rendszer, amely képes mozgatni az egyes molekulákat

Daniel Nelson

Blogger és programozó szakterületekkel Gépi tanulás és a Deep Learning témákat. Daniel abban reménykedik, hogy segíthet másoknak az AI erejét társadalmi javára használni.