taló Què són les dades sintètiques? - Unite.AI
Connecteu-vos amb nosaltres

IA 101

Què són les dades sintètiques?

mm
actualitzat on

Què són les dades sintètiques?

Les dades sintètiques són una tendència en ràpida expansió i una eina emergent en el camp de la ciència de dades. Què són exactament les dades sintètiques? La resposta breu és que es compon de dades sintètiques dades que no es basen en cap fenomen o esdeveniment del món real, més aviat es genera mitjançant un programa informàtic. Tanmateix, per què les dades sintètiques esdevenen tan importants per a la ciència de dades? Com es creen les dades sintètiques? Explorem les respostes a aquestes preguntes.

Què és un conjunt de dades sintètics?

Com suggereix el terme "sintètic", els conjunts de dades sintètics es generen a través de programes informàtics, en lloc de ser compostos a través de la documentació d'esdeveniments del món real. L'objectiu principal d'un conjunt de dades sintètics és ser prou versàtil i robust per ser útil per a l'entrenament de models d'aprenentatge automàtic.

Per tal de ser útil per a un classificador d'aprenentatge automàtic, les dades sintètiques hauria de tenir certes propietats. Tot i que les dades poden ser categòriques, binàries o numèriques, la longitud del conjunt de dades ha de ser arbitrària i les dades s'han de generar aleatòriament. Els processos aleatoris utilitzats per generar les dades haurien de ser controlables i basats en diverses distribucions estadístiques. També es pot col·locar soroll aleatori al conjunt de dades.

Si les dades sintètiques s'utilitzen per a un algorisme de classificació, la quantitat de separació de classes ha de ser personalitzable, per tal que el problema de classificació es pugui fer més fàcil o més difícil segons els requisits del problema. Mentrestant, per a una tasca de regressió, es poden utilitzar processos generatius no lineals per generar les dades.

Per què utilitzar dades sintètiques?

A mesura que els marcs d'aprenentatge automàtic com TensorfFlow i PyTorch es fan més fàcils d'utilitzar i els models predissenyats per a la visió per ordinador i el processament del llenguatge natural es tornen més omnipresents i potents, el principal problema al qual s'han d'enfrontar els científics de dades és la recopilació i el maneig de dades. Les empreses sovint tenen dificultats per adquirir grans quantitats de dades per formar un model precís en un període de temps determinat. L'etiquetatge manual de dades és una manera costosa i lenta d'adquirir dades. Tanmateix, generar i utilitzar dades sintètiques pot ajudar els científics de dades i les empreses a superar aquests obstacles i desenvolupar models d'aprenentatge automàtic fiables de manera més ràpida.

L'ús de dades sintètiques té una sèrie d'avantatges. La manera més òbvia que l'ús de dades sintètiques beneficia la ciència de dades és que redueix la necessitat de capturar dades d'esdeveniments del món real i, per aquest motiu, és possible generar dades i construir un conjunt de dades molt més ràpidament que un conjunt de dades dependent de esdeveniments del món real. Això significa que es poden produir grans volums de dades en un període de temps curt. Això és especialment cert per als esdeveniments que es produeixen poques vegades, ja que si un esdeveniment rarament passa a la natura, es poden burlar més dades d'algunes mostres de dades genuïnes. Més enllà d'això, les dades es poden etiquetar automàticament a mesura que es generen, reduint dràsticament el temps necessari per etiquetar les dades.

Les dades sintètiques també poden ser útils per obtenir dades d'entrenament per a casos extrems, que són casos que poden ocórrer amb poca freqüència però que són crítics per a l'èxit de la vostra IA. Els casos Edge són esdeveniments que són molt semblants a l'objectiu principal d'una IA, però difereixen de manera important. Per exemple, els objectes que només es veuen parcialment es podrien considerar casos límit quan es dissenya un classificador d'imatges.

Finalment, conjunts de dades sintètics pot minimitzar els problemes de privadesa. Els intents d'anonimitzar les dades poden ser ineficaços, ja que fins i tot si s'eliminen variables sensibles/identificadores del conjunt de dades, altres variables poden actuar com a identificadors quan es combinen. Aquest no és un problema amb les dades sintètiques, ja que mai es va basar en una persona real, o en un esdeveniment real, en primer lloc.

Cas d'ús per a dades sintètiques

Les dades sintètiques tenen una gran varietat de utilitza, ja que es pot aplicar a gairebé qualsevol tasca d'aprenentatge automàtic. Casos d’ús habituals per a dades sintètiques inclouen vehicles autònoms, seguretat, robòtica, protecció contra fraus i assistència sanitària.

Un dels casos d'ús inicials de les dades sintètiques va ser els cotxes autònoms, ja que les dades sintètiques s'utilitzen per crear dades d'entrenament per als cotxes en condicions on obtenir dades d'entrenament reals a la carretera és difícil o perillós. Les dades sintètiques també són útils per a la creació de dades que s'utilitzen per entrenar sistemes de reconeixement d'imatges, com ara sistemes de vigilància, de manera molt més eficient que recopilar i etiquetar manualment un munt de dades d'entrenament. Els sistemes robòtics poden ser lents per entrenar i desenvolupar-se amb els mètodes tradicionals de recollida de dades i entrenament. Les dades sintètiques permeten a les empreses de robòtica provar i dissenyar sistemes de robòtica mitjançant simulacions. Els sistemes de protecció contra el frau es poden beneficiar de les dades sintètiques i es poden entrenar i provar nous mètodes de detecció de fraus amb dades que són constantment noves quan s'utilitzen dades sintètiques. En l'àmbit sanitari, les dades sintètiques es poden utilitzar per dissenyar classificadors de salut que siguin precisos, però que preservin la privadesa de les persones, ja que les dades no es basaran en persones reals.

Reptes de dades sintètiques

Tot i que l'ús de dades sintètiques comporta molts avantatges, també comporta molts reptes.

Quan es creen dades sintètiques, sovint no tenen valors atípics. Els valors atípics es produeixen a les dades de manera natural i, tot i que sovint s'eliminen dels conjunts de dades d'entrenament, la seva existència pot ser necessària per entrenar models d'aprenentatge automàtic realment fiables. Més enllà d'això, la qualitat de les dades sintètiques pot ser molt variable. Les dades sintètiques sovint es generen amb una entrada, o llavor, dades i, per tant, la qualitat de les dades pot dependre de la qualitat de les dades d'entrada. Si les dades utilitzades per generar les dades sintètiques estan esbiaixades, les dades generades poden perpetuar aquest biaix. Les dades sintètiques també requereixen algun tipus de control de sortida/qualitat. S'ha de contrastar amb dades anotades per humans o, en cas contrari, les dades autèntiques són d'alguna manera.

Com es creen les dades sintètiques?

Les dades sintètiques es creen programadament amb tècniques d'aprenentatge automàtic. Es poden utilitzar tècniques clàssiques d'aprenentatge automàtic com els arbres de decisió, com poden les tècniques d'aprenentatge profund. Els requisits per a les dades sintètiques influiran en quin tipus d'algorisme s'utilitza per generar les dades. Els arbres de decisió i models similars d'aprenentatge automàtic permeten a les empreses crear distribucions de dades multimodals i no clàssiques, formades amb exemples de dades del món real. La generació de dades amb aquests algorismes proporcionarà dades molt correlacionades amb les dades d'entrenament originals. En els casos en què es coneix la distribució típica de dades, una empresa pot generar dades sintètiques mitjançant l'ús d'un mètode de Montecarlo.

Els mètodes basats en l'aprenentatge profund per generar dades sintètiques solen fer servir qualsevol dels dos un autocodificador variacional (VAE) or una xarxa adversa generativa (GAN). Els VAE són models d'aprenentatge automàtic no supervisats que fan ús de codificadors i descodificadors. La part del codificador d'un VAE és responsable de comprimir les dades en una versió més senzilla i compacta del conjunt de dades original, que el descodificador analitza i utilitza per generar una representació de les dades base. Un VAE s'entrena amb l'objectiu de tenir una relació òptima entre les dades d'entrada i de sortida, una on tant les dades d'entrada com les de sortida són extremadament similars.

Quan es tracta de models GAN, s'anomenen xarxes "adversaris" pel fet que les GAN són en realitat dues xarxes que competeixen entre elles. El generador és l'encarregat de generar dades sintètiques, mentre que la segona xarxa (el discriminador) opera comparant les dades generades amb un conjunt de dades real i intenta determinar quines dades són falses. Quan el discriminador captura dades falses, el generador se'n notifica i fa canvis per intentar obtenir un nou lot de dades pel discriminador. Al seu torn, el discriminador és cada cop millor per detectar falsificacions. Les dues xarxes s'entrenen l'una contra l'altra, amb les falsificacions cada cop més realistes.