Kecerdasan buatan

Apa Itu Data Sintetis?

Published September 12, 2020

Updated March 27, 2026

Daniel Nelson

Apa itu Data Sintetis?

Data sintetis adalah tren yang berkembang pesat dan alat baru dalam bidang ilmu data. Apa sebenarnya data sintetis itu? Jawaban singkatnya adalah data sintetis terdiri dari data yang tidak didasarkan pada fenomena atau peristiwa dunia nyata apa pun, melainkan dihasilkan melalui program komputer. Namun mengapa data sintetis menjadi begitu penting untuk ilmu data? Bagaimana data sintetis dibuat? Mari kita jelajahi jawaban atas pertanyaan-pertanyaan ini.

Apa itu Dataset Sintetis?

Seperti yang disarankan oleh istilah “sintetis”, dataset sintetis dihasilkan melalui program komputer, alih-alih disusun melalui dokumentasi peristiwa dunia nyata. Tujuan utama dari dataset sintetis adalah untuk menjadi serbaguna dan kuat sehingga berguna untuk pelatihan model pembelajaran mesin.

Agar berguna untuk pengklasifikasi pembelajaran mesin, data sintetis harus memiliki sifat-sifat tertentu. Meskipun data dapat berupa kategorikal, biner, atau numerik, panjang dataset harus arbitrer dan data harus dihasilkan secara acak. Proses acak yang digunakan untuk menghasilkan data harus dapat dikendalikan dan didasarkan pada berbagai distribusi statistik. Noise acak juga dapat ditempatkan dalam dataset.

Jika data sintetis digunakan untuk algoritma klasifikasi, jumlah pemisahan kelas harus dapat disesuaikan, sehingga masalah klasifikasi dapat dibuat lebih mudah atau lebih sulit sesuai dengan persyaratan masalahnya. Sementara itu, untuk tugas regresi, proses generatif non-linear dapat digunakan untuk menghasilkan data.

Mengapa Menggunakan Data Sintetis?

Seiring kerangka kerja pembelajaran mesin seperti TensorFlow dan PyTorch menjadi lebih mudah digunakan dan model yang telah dirancang sebelumnya untuk penglihatan komputer dan pemrosesan bahasa alami menjadi lebih merata dan kuat, masalah utama yang harus dihadapi oleh ilmuwan data adalah pengumpulan dan penanganan data. Perusahaan sering kali kesulitan memperoleh data dalam jumlah besar untuk melatih model yang akurat dalam kerangka waktu tertentu. Pelabelan data secara manual adalah cara yang mahal dan lambat untuk memperoleh data. Namun, menghasilkan dan menggunakan data sintetis dapat membantu ilmuwan data dan perusahaan mengatasi hambatan ini dan mengembangkan model pembelajaran mesin yang andal dengan cara yang lebih cepat.

Ada sejumlah keuntungan menggunakan data sintetis. Cara yang paling jelas di mana penggunaan data sintetis menguntungkan ilmu data adalah mengurangi kebutuhan untuk menangkap data dari peristiwa dunia nyata, dan karena alasan ini menjadi mungkin untuk menghasilkan data dan membangun dataset jauh lebih cepat daripada dataset yang bergantung pada peristiwa dunia nyata. Ini berarti volume data yang besar dapat diproduksi dalam waktu singkat. Hal ini terutama berlaku untuk peristiwa yang jarang terjadi, karena jika suatu peristiwa jarang terjadi di alam, lebih banyak data dapat dibuat tiruan dari beberapa sampel data asli. Selain itu, data dapat dilabeli secara otomatis saat dihasilkan, secara drastis mengurangi waktu yang dibutuhkan untuk melabeli data.

Data sintetis juga dapat berguna untuk mendapatkan data pelatihan untuk kasus tepi (edge cases), yaitu instance yang mungkin jarang terjadi tetapi sangat penting untuk kesuksesan AI Anda. Kasus tepi adalah peristiwa yang sangat mirip dengan target utama AI tetapi berbeda dalam cara-cara penting. Misalnya, objek yang hanya sebagian terlihat dapat dianggap sebagai kasus tepi saat merancang pengklasifikasi gambar.

Terakhir, dataset sintetis dapat meminimalkan kekhawatiran privasi. Upaya untuk menganonimkan data bisa tidak efektif, karena bahkan jika variabel sensitif/pengidentifikasi dihapus dari dataset, variabel lain dapat bertindak sebagai pengidentifikasi ketika digabungkan. Ini bukan masalah dengan data sintetis, karena sejak awal tidak pernah didasarkan pada orang nyata, atau peristiwa nyata.

Kasus Penggunaan untuk Data Sintetis

Data sintetis memiliki beragam penggunaan, karena dapat diterapkan pada hampir semua tugas pembelajaran mesin. Kasus penggunaan umum untuk data sintetis termasuk kendaraan self-driving, keamanan, robotika, perlindungan penipuan, dan perawatan kesehatan.

Salah satu kasus penggunaan awal untuk data sintetis adalah mobil self-driving, karena data sintetis digunakan untuk membuat data pelatihan untuk mobil dalam kondisi di mana mendapatkan data pelatihan nyata di jalan sulit atau berbahaya. Data sintetis juga berguna untuk pembuatan data yang digunakan untuk melatih sistem pengenalan gambar, seperti sistem pengawasan, jauh lebih efisien daripada mengumpulkan dan melabeli banyak data pelatihan secara manual. Sistem robotika bisa lambat untuk dilatih dan dikembangkan dengan metode pengumpulan dan pelatihan data tradisional. Data sintetis memungkinkan perusahaan robotika untuk menguji dan merekayasa sistem robotika melalui simulasi. Sistem perlindungan penipuan dapat diuntungkan dari data sintetis, dan metode deteksi penipuan baru dapat dilatih dan diuji dengan data yang terus-menerus baru ketika data sintetis digunakan. Di bidang perawatan kesehatan, data sintetis dapat digunakan untuk merancang pengklasifikasi kesehatan yang akurat, namun tetap menjaga privasi orang, karena data tidak akan didasarkan pada orang nyata.

Tantangan Data Sintetis

Meskipun penggunaan data sintetis membawa banyak keuntungan, ia juga membawa banyak tantangan.

Saat data sintetis dibuat, ia sering kali kekurangan pencilan (outliers). Pencilan terjadi secara alami dalam data, dan meskipun sering dihapus dari dataset pelatihan, keberadaan mereka mungkin diperlukan untuk melatih model pembelajaran mesin yang benar-benar andal. Di luar ini, kualitas data sintetis bisa sangat bervariasi. Data sintetis sering dihasilkan dengan data masukan, atau benih (seed), dan oleh karena itu kualitas data dapat bergantung pada kualitas data masukan. Jika data yang digunakan untuk menghasilkan data sintetis bias, data yang dihasilkan dapat melanggengkan bias tersebut. Data sintetis juga memerlukan beberapa bentuk kontrol keluaran/kualitas. Ia perlu diperiksa terhadap data yang diberi anotasi manusia, atau data otentik dalam beberapa bentuk.

Bagaimana Data Sintetis Dibuat?

Data sintetis dibuat secara terprogram dengan teknik pembelajaran mesin. Teknik pembelajaran mesin klasik seperti pohon keputusan dapat digunakan, begitu juga teknik pembelajaran mendalam (deep learning). Persyaratan untuk data sintetis akan mempengaruhi jenis algoritma apa yang digunakan untuk menghasilkan data. Pohon keputusan dan model pembelajaran mesin serupa memungkinkan perusahaan membuat distribusi data multi-modal non-klasik, yang dilatih pada contoh data dunia nyata. Menghasilkan data dengan algoritma ini akan memberikan data yang sangat berkorelasi dengan data pelatihan asli. Untuk instance di mana distribusi tipikal data diketahui, perusahaan dapat menghasilkan data sintetis melalui penggunaan metode Monte Carlo.

Metode berbasis pembelajaran mendalam untuk menghasilkan data sintetis biasanya menggunakan variational autoencoder (VAE) atau generative adversarial network (GAN). VAE adalah model pembelajaran mesin tanpa pengawasan yang menggunakan encoder dan decoder. Bagian encoder dari VAE bertanggung jawab untuk mengompresi data menjadi versi yang lebih sederhana dan ringkas dari dataset asli, yang kemudian dianalisis oleh decoder dan digunakan untuk menghasilkan representasi dari data dasar. VAE dilatih dengan tujuan memiliki hubungan yang optimal antara data masukan dan keluaran, di mana data masukan dan data keluaran sangat mirip.

Ketika datang ke model GAN, mereka disebut jaringan “adversarial” karena fakta bahwa GAN sebenarnya adalah dua jaringan yang saling bersaing. Generator bertanggung jawab untuk menghasilkan data sintetis, sementara jaringan kedua (discriminator) beroperasi dengan membandingkan data yang dihasilkan dengan dataset nyata dan mencoba menentukan data mana yang palsu. Ketika discriminator menangkap data palsu, generator diberitahu tentang hal ini dan ia membuat perubahan untuk mencoba dan mendapatkan batch data baru yang lolos dari discriminator. Pada gilirannya, discriminator menjadi semakin baik dalam mendeteksi kepalsuan. Kedua jaringan dilatih melawan satu sama lain, dengan kepalsuan yang menjadi semakin mirip asli sepanjang waktu.