Kecerdasan buatan

Apa itu Data Sintetis?

mm

Apa itu Data Sintetis?

Data sintetis adalah tren yang berkembang pesat dan menjadi alat yang muncul di bidang ilmu data. Apa itu data sintetis secara tepat? Jawaban singkatnya adalah bahwa data sintetis terdiri dari data yang tidak berdasarkan pada fenomena atau peristiwa dunia nyata, melainkan dihasilkan melalui program komputer. Namun, mengapa data sintetis menjadi sangat penting untuk ilmu data? Bagaimana data sintetis dibuat? Mari kita jelajahi jawaban untuk pertanyaan-pertanyaan ini.

Apa itu Dataset Sintetis?

Seperti yang disarankan oleh istilah “sintetis”, dataset sintetis dihasilkan melalui program komputer, bukan melalui dokumentasi peristiwa dunia nyata. Tujuan utama dari sebuah dataset sintetis adalah untuk menjadi serbaguna dan kuat sehingga berguna untuk pelatihan model pembelajaran mesin.

Agar berguna untuk sebuah klasifikasi pembelajaran mesin, data sintetis harus memiliki sifat-sifat tertentu. Sementara data dapat bersifat kategoris, biner, atau numerik, panjang dataset harus sewenang-wenang dan data harus dihasilkan secara acak. Proses acak yang digunakan untuk menghasilkan data harus terkendali dan berdasarkan pada distribusi statistik yang beragam. Kebisingan acak juga dapat ditempatkan dalam dataset.

Jika data sintetis digunakan untuk algoritma klasifikasi, jumlah pemisahan kelas harus dapat disesuaikan, sehingga masalah klasifikasi dapat dibuat lebih mudah atau lebih sulit sesuai dengan kebutuhan masalah. Sementara itu, untuk tugas regresi, proses generatif non-linier dapat digunakan untuk menghasilkan data.

Mengapa Menggunakan Data Sintetis?

Karena kerangka pembelajaran mesin seperti TensorFlow dan PyTorch menjadi lebih mudah digunakan dan model yang sudah dirancang untuk penglihatan komputer dan pemrosesan bahasa alami menjadi lebih umum dan kuat, masalah utama yang dihadapi oleh ilmuwan data adalah pengumpulan dan penanganan data. Perusahaan sering mengalami kesulitan dalam mengumpulkan sejumlah besar data untuk melatih model yang akurat dalam waktu yang ditentukan. Pelabelan data secara manual adalah cara yang mahal dan lambat untuk mengumpulkan data. Namun, menghasilkan dan menggunakan data sintetis dapat membantu ilmuwan data dan perusahaan mengatasi hambatan ini dan mengembangkan model pembelajaran mesin yang lebih andal dengan lebih cepat.

Terdapat beberapa kelebihan menggunakan data sintetis. Cara paling jelas bahwa penggunaan data sintetis mendukung ilmu data adalah bahwa itu mengurangi kebutuhan untuk menangkap data dari peristiwa dunia nyata, dan karena itu menjadi mungkin untuk menghasilkan data dan membangun dataset lebih cepat daripada dataset yang bergantung pada peristiwa dunia nyata. Ini berarti bahwa volume data yang besar dapat dihasilkan dalam waktu yang singkat. Ini terutama benar untuk peristiwa yang jarang terjadi, karena jika suatu peristiwa jarang terjadi di alam, lebih banyak data dapat dibuat dari sampel data asli. Selain itu, data dapat diberi label secara otomatis saat dihasilkan, sehingga mengurangi waktu yang dibutuhkan untuk melabeli data.

Data sintetis juga dapat berguna untuk mendapatkan data pelatihan untuk kasus tepi, yang merupakan contoh yang mungkin terjadi jarang tetapi kritis untuk keberhasilan AI. Kasus tepi adalah peristiwa yang sangat mirip dengan target utama AI tetapi berbeda dalam hal-hal penting. Misalnya, objek yang hanya sebagian terlihat dapat dianggap sebagai kasus tepi saat merancang pengklasifikasi gambar.

Akhirnya, dataset sintetis dapat meminimalkan kekhawatiran privasi. Upaya untuk membuat data anonim dapat tidak efektif, karena bahkan jika variabel sensitif/pengidentifikasi dihapus dari dataset, variabel lain dapat bertindak sebagai pengidentifikasi saat dikombinasikan. Ini bukanlah masalah dengan data sintetis, karena itu tidak pernah berdasarkan pada orang atau peristiwa nyata.

Kasus Penggunaan untuk Data Sintetis

Data sintetis memiliki berbagai kasus penggunaan, karena dapat diterapkan pada hampir semua tugas pembelajaran mesin. Kasus penggunaan umum untuk data sintetis termasuk kendaraan swakemudi, keamanan, robotika, perlindungan penipuan, dan kesehatan.

Salah satu kasus penggunaan awal untuk data sintetis adalah kendaraan swakemudi, karena data sintetis digunakan untuk membuat data pelatihan untuk mobil dalam kondisi di mana mendapatkan data pelatihan nyata di jalan sulit atau berbahaya. Data sintetis juga berguna untuk pembuatan data yang digunakan untuk melatih sistem pengenalan gambar, seperti sistem pengawasan, jauh lebih efisien daripada mengumpulkan dan melabeli sejumlah besar data pelatihan secara manual. Sistem robotika dapat lambat untuk dilatih dan dikembangkan dengan metode pengumpulan data tradisional. Data sintetis memungkinkan perusahaan robotika untuk menguji dan merancang sistem robotika melalui simulasi. Sistem perlindungan penipuan dapat mendapat manfaat dari data sintetis, dan metode deteksi penipuan baru dapat dilatih dan diuji dengan data yang selalu baru saat menggunakan data sintetis. Di bidang kesehatan, data sintetis dapat digunakan untuk merancang pengklasifikasi kesehatan yang akurat, tetapi tetap menjaga privasi orang, karena data tidak berdasarkan pada orang nyata.

Tantangan Data Sintetis

Sementara penggunaan data sintetis membawa banyak kelebihan, juga membawa banyak tantangan.

Ketika data sintetis dibuat, seringkali kekurangan outlier. Outlier terjadi secara alami dalam data, dan meskipun sering dihilangkan dari dataset pelatihan, keberadaannya mungkin diperlukan untuk melatih model pembelajaran mesin yang benar-benar andal. Selain itu, kualitas data sintetis dapat sangat bervariasi. Data sintetis sering dihasilkan dengan data input, atau benih, dan karena itu kualitas data dapat bergantung pada kualitas data input. Jika data yang digunakan untuk menghasilkan data sintetis bias, maka data yang dihasilkan dapat memperkuat bias tersebut. Data sintetis juga memerlukan beberapa bentuk kontrol kualitas. Data harus diperiksa terhadap data yang diberi label oleh manusia, atau data asli dalam bentuk lain.

Bagaimana Data Sintetis Dibuat?

Data sintetis dibuat secara programatis dengan menggunakan teknik pembelajaran mesin. Teknik pembelajaran mesin klasik seperti pohon keputusan dapat digunakan, serta teknik pembelajaran dalam. Persyaratan untuk data sintetis akan mempengaruhi jenis algoritma yang digunakan untuk menghasilkan data. Pohon keputusan dan model pembelajaran mesin serupa memungkinkan perusahaan membuat distribusi data non-klasik, multi-modal, yang dilatih pada contoh data dunia nyata. Menghasilkan data dengan algoritma tersebut akan menyediakan data yang sangat terkait dengan data pelatihan asli. Untuk contoh di mana distribusi data yang khas diketahui, sebuah perusahaan dapat menghasilkan data sintetis melalui metode Monte Carlo.

Metode berbasis pembelajaran dalam untuk menghasilkan data sintetis biasanya menggunakan either jaringan adversarial generatif (GAN) atau variational autoencoder (VAE). VAE adalah model pembelajaran mesin tak terawasi yang menggunakan pengkode dan dekoder. Bagian pengkode VAE bertanggung jawab untuk mengompresi data menjadi versi yang lebih sederhana dan kompak dari dataset asli, yang kemudian dianalisis dan digunakan oleh dekoder untuk menghasilkan representasi dari data dasar. VAE dilatih dengan tujuan memiliki hubungan optimal antara data input dan output, di mana data input dan output sangat mirip.

Ketika datang ke model GAN, mereka disebut “jaringan adversarial” karena kenyataan bahwa GAN sebenarnya adalah dua jaringan yang bersaing satu sama lain. Generator bertanggung jawab untuk menghasilkan data sintetis, sementara jaringan kedua (diskriminator) beroperasi dengan membandingkan data yang dihasilkan dengan dataset nyata dan mencoba menentukan data mana yang palsu. Ketika diskriminator mendeteksi data palsu, generator diberitahu tentang hal ini dan membuat perubahan untuk mencoba mendapatkan batch data baru yang dapat diterima oleh diskriminator. Seiring waktu, diskriminator menjadi lebih baik dalam mendeteksi data palsu. Kedua jaringan dilatih satu sama lain, dengan data palsu menjadi lebih mirip dengan data asli seiring waktu.

Blogger dan programmer dengan spesialisasi di Machine Learning dan Deep Learning topik. Daniel berharap untuk membantu orang lain menggunakan kekuatan AI untuk kebaikan sosial.