ciot Ce sunt datele sintetice? - Unite.AI
Conectează-te cu noi

AI 101

Ce sunt datele sintetice?

mm
Actualizat on

Ce sunt datele sintetice?

Datele sintetice sunt o tendință în expansiune rapidă și un instrument emergent în domeniul științei datelor. Ce sunt exact datele sintetice? Răspunsul scurt este că datele sintetice sunt compuse din date care nu se bazează pe niciun fenomen sau eveniment din lumea reală, mai degrabă este generat printr-un program de calculator. Totuși, de ce datele sintetice devin atât de importante pentru știința datelor? Cum sunt create datele sintetice? Să explorăm răspunsurile la aceste întrebări.

Ce este un set de date sintetice?

După cum sugerează termenul „sintetic”, seturile de date sintetice sunt generate prin programe de calculator, în loc să fie compuse prin documentarea evenimentelor din lumea reală. Scopul principal al unui set de date sintetice este să fie suficient de versatil și robust pentru a fi util pentru formarea modelelor de învățare automată.

Pentru a fi util pentru un clasificator de învățare automată, datele sintetice ar trebui să aibă anumite proprietăți. În timp ce datele pot fi categorice, binare sau numerice, lungimea setului de date ar trebui să fie arbitrară, iar datele ar trebui generate aleator. Procesele aleatorii utilizate pentru generarea datelor ar trebui să fie controlabile și bazate pe diverse distribuții statistice. Zgomotul aleator poate fi, de asemenea, plasat în setul de date.

Dacă datele sintetice sunt utilizate pentru un algoritm de clasificare, cantitatea de separare a claselor ar trebui să fie personalizabilă, pentru ca problema de clasificare să fie mai ușoară sau mai dificilă în funcție de cerințele problemei. Între timp, pentru o sarcină de regresie, procesele generative neliniare pot fi folosite pentru a genera datele.

De ce să folosiți date sintetice?

Pe măsură ce cadrele de învățare automată precum TensorfFlow și PyTorch devin mai ușor de utilizat și modelele pre-proiectate pentru viziunea computerizată și procesarea limbajului natural devin mai omniprezente și mai puternice, problema principală cu care trebuie să se confrunte oamenii de știință a datelor este colectarea și manipularea datelor. Companiile întâmpină adesea dificultăți în achiziționarea de cantități mari de date pentru a pregăti un model precis într-un interval de timp dat. Etichetarea manuală a datelor este o modalitate costisitoare și lentă de a achiziționa date. Cu toate acestea, generarea și utilizarea datelor sintetice poate ajuta oamenii de știință în domeniul datelor și companiile să depășească aceste obstacole și să dezvolte modele de învățare automată fiabile într-un mod mai rapid.

Există o serie de avantaje în utilizarea datelor sintetice. Cel mai evident mod prin care utilizarea datelor sintetice aduce beneficii științei datelor este că reduce nevoia de a capta date din evenimente din lumea reală și, din acest motiv, devine posibilă generarea datelor și construirea unui set de date mult mai rapid decât un set de date dependent de evenimente din lumea reală. Aceasta înseamnă că pot fi produse volume mari de date într-un interval de timp scurt. Acest lucru este valabil mai ales pentru evenimentele care au loc rar, deoarece un eveniment are loc rar în sălbăticie, mai multe date pot fi simulate din unele mostre de date autentice. În plus, datele pot fi etichetate automat pe măsură ce sunt generate, reducând drastic timpul necesar pentru etichetarea datelor.

Datele sintetice pot fi utile și pentru a obține date de antrenament pentru cazurile marginale, care sunt cazuri care pot apărea rar, dar care sunt esențiale pentru succesul AI. Cazurile marginale sunt evenimente care sunt foarte asemănătoare cu ținta principală a unei IA, dar diferă în moduri importante. De exemplu, obiectele care sunt vizibile doar parțial ar putea fi considerate cazuri marginale atunci când se proiectează un clasificator de imagini.

În sfârșit, seturi de date sintetice poate minimiza preocupările legate de confidențialitate. Încercările de a anonimiza datele pot fi ineficiente, deoarece chiar dacă variabilele sensibile/de identificare sunt eliminate din setul de date, alte variabile pot acționa ca identificatori atunci când sunt combinate. Aceasta nu este o problemă cu datele sintetice, deoarece nu s-a bazat niciodată pe o persoană reală sau pe un eveniment real, în primul rând.

Folosește cazuri pentru date sintetice

Datele sintetice au o mare varietate de utilizări, deoarece poate fi aplicat la aproape orice sarcină de învățare automată. Cazuri de utilizare frecvente pentru datele sintetice includ vehicule cu conducere autonomă, securitate, robotică, protecție împotriva fraudei și asistență medicală.

Unul dintre cazurile inițiale de utilizare pentru datele sintetice a fost mașinile cu conducere autonomă, deoarece datele sintetice sunt folosite pentru a crea date de antrenament pentru mașini în condițiile în care obținerea de date reale de antrenament pe drum este dificilă sau periculoasă. Datele sintetice sunt, de asemenea, utile pentru crearea de date utilizate pentru antrenarea sistemelor de recunoaștere a imaginilor, cum ar fi sistemele de supraveghere, mult mai eficient decât colectarea și etichetarea manuală a unei grămadă de date de antrenament. Sistemele robotice pot fi lent de antrenat și dezvoltat cu metodele tradiționale de colectare a datelor și formare. Datele sintetice permit companiilor de robotică să testeze și să proiecteze sisteme robotice prin simulări. Sistemele de protecție împotriva fraudei pot beneficia de date sintetice, iar noi metode de detectare a fraudei pot fi instruite și testate cu date care sunt constant noi atunci când sunt utilizate date sintetice. În domeniul sănătății, datele sintetice pot fi folosite pentru a proiecta clasificatoare de sănătate care sunt precise, dar care păstrează confidențialitatea oamenilor, deoarece datele nu se vor baza pe oameni reali.

Provocări ale datelor sintetice

În timp ce utilizarea datelor sintetice aduce multe avantaje, ea aduce și multe provocări.

Atunci când sunt create date sintetice, adesea lipsesc valori aberante. Valorile aberante apar în date în mod natural și, deși sunt adesea eliminate din seturile de date de antrenament, existența lor poate fi necesară pentru a antrena modele de învățare automată cu adevărat fiabile. Dincolo de aceasta, calitatea datelor sintetice poate fi foarte variabilă. Datele sintetice sunt adesea generate cu o date de intrare, sau de bază, și, prin urmare, calitatea datelor poate depinde de calitatea datelor de intrare. Dacă datele utilizate pentru a genera datele sintetice sunt părtinitoare, datele generate pot perpetua această părtinire. Datele sintetice necesită, de asemenea, o formă de control al ieșirii/calității. Trebuie verificat cu datele adnotate de oameni sau, altfel, datele autentice sunt o formă.

Cum sunt create datele sintetice?

Datele sintetice sunt create programatic cu tehnici de învățare automată. Pot fi utilizate tehnici clasice de învățare automată, cum ar fi arborii de decizie, la fel ca și tehnicile de învățare profundă. Cerințele pentru datele sintetice vor influența ce tip de algoritm este utilizat pentru a genera datele. Arborele de decizie și modelele similare de învățare automată permit companiilor să creeze distribuții de date non-clasice, multimodale, instruite pe exemple de date din lumea reală. Generarea de date cu acești algoritmi va furniza date care sunt foarte corelate cu datele de antrenament originale. Pentru cazurile în care distribuția tipică a datelor este cunoscută, o companie poate genera date sintetice prin utilizarea unei metode Monte Carlo.

Metodele bazate pe învățarea profundă de generare a datelor sintetice folosesc de obicei oricare dintre ele un autoencoder variațional (VAE) or o rețea generativă adversară (GAN). VAE-urile sunt modele nesupravegheate de învățare automată care folosesc codificatoare și decodoare. Porțiunea de codificator a unui VAE este responsabilă pentru comprimarea datelor într-o versiune mai simplă și compactă a setului de date original, pe care apoi decodorul o analizează și o folosește pentru a genera o reprezentare a datelor de bază. Un VAE este antrenat cu scopul de a avea o relație optimă între datele de intrare și de ieșire, una în care atât datele de intrare, cât și datele de ieșire sunt extrem de similare.

Când vine vorba de modele GAN, acestea sunt numite rețele „adversariale” datorită faptului că GAN-urile sunt de fapt două rețele care concurează între ele. Generatorul este responsabil pentru generarea datelor sintetice, în timp ce a doua rețea (discriminatorul) operează prin compararea datelor generate cu un set de date real și încearcă să determine care date sunt false. Când discriminatorul prinde date false, generatorul este notificat despre acest lucru și face modificări pentru a încerca să obțină un nou lot de date de către discriminator. La rândul său, discriminatorul devine din ce în ce mai bun la detectarea falsurilor. Cele două rețele sunt antrenate una împotriva celeilalte, falsurile devenind tot timpul mai realiste.