potongan Apa itu Data Sintetis? - Bersatu.AI
Terhubung dengan kami

AI 101

Apa Itu Data Sintetis?

mm
Updated on

Apa itu Data Sintetis?

Data sintetis adalah tren yang berkembang pesat dan alat yang muncul di bidang ilmu data. Apa sebenarnya data sintetis itu? Jawaban singkatnya adalah terdiri dari data sintetis data yang tidak didasarkan pada fenomena atau peristiwa dunia nyata, melainkan dihasilkan melalui program komputer. Namun mengapa data sintetis menjadi begitu penting bagi ilmu data? Bagaimana data sintetik dibuat? Mari jelajahi jawaban atas pertanyaan-pertanyaan ini.

Apa itu Kumpulan Data Sintetis?

Seperti istilah “sintetik”, kumpulan data sintetik dihasilkan melalui program komputer, bukan disusun melalui dokumentasi kejadian di dunia nyata. Tujuan utama kumpulan data sintetis adalah agar menjadi serbaguna dan cukup kuat agar berguna untuk pelatihan model pembelajaran mesin.

Agar berguna untuk pengklasifikasi pembelajaran mesin, data sintetik harus memiliki sifat-sifat tertentu. Meskipun data dapat berupa kategori, biner, atau numerik, panjang kumpulan data harus arbitrer dan data harus dihasilkan secara acak. Proses acak yang digunakan untuk menghasilkan data harus dapat dikontrol dan didasarkan pada berbagai distribusi statistik. Kebisingan acak juga dapat ditempatkan di dataset.

Jika data sintetik digunakan untuk algoritma klasifikasi, jumlah pemisahan kelas harus disesuaikan, agar masalah klasifikasi dapat dibuat lebih mudah atau lebih sulit sesuai dengan persyaratan masalah. Sementara itu, untuk tugas regresi, proses generatif non-linier dapat digunakan untuk menghasilkan data.

Mengapa Menggunakan Data Sintetis?

Karena framework pembelajaran mesin seperti TensorfFlow dan PyTorch menjadi lebih mudah digunakan dan model yang telah dirancang sebelumnya untuk visi komputer dan pemrosesan bahasa alami menjadi lebih mudah digunakan dan canggih, masalah utama yang harus dihadapi oleh data scientist adalah pengumpulan dan penanganan data. Perusahaan sering kali mengalami kesulitan memperoleh data dalam jumlah besar untuk melatih model yang akurat dalam jangka waktu tertentu. Memberi label tangan pada data adalah cara yang mahal dan lambat untuk memperoleh data. Namun, menghasilkan dan menggunakan data sintetis dapat membantu ilmuwan data dan perusahaan mengatasi hambatan ini dan mengembangkan model pembelajaran mesin yang andal dengan lebih cepat.

Ada sejumlah keuntungan menggunakan data sintetis. Cara yang paling jelas bahwa penggunaan data sintetik menguntungkan ilmu data adalah dengan mengurangi kebutuhan untuk menangkap data dari peristiwa dunia nyata, dan karena alasan ini menjadi mungkin untuk menghasilkan data dan membuat kumpulan data jauh lebih cepat daripada kumpulan data yang bergantung pada peristiwa dunia nyata. Ini berarti bahwa volume data yang besar dapat dihasilkan dalam jangka waktu yang singkat. Hal ini terutama berlaku untuk peristiwa yang jarang terjadi, seolah-olah suatu peristiwa jarang terjadi di alam liar, lebih banyak data dapat ditiru dari beberapa sampel data asli. Di luar itu, data dapat diberi label secara otomatis saat dihasilkan, secara drastis mengurangi jumlah waktu yang diperlukan untuk memberi label pada data.

Data sintetik juga dapat berguna untuk mendapatkan data pelatihan untuk kasus ekstrem, yang merupakan kejadian yang jarang terjadi tetapi sangat penting untuk keberhasilan AI Anda. Kasus tepi adalah kejadian yang sangat mirip dengan target utama AI tetapi berbeda dalam beberapa hal penting. Misalnya, objek yang hanya terlihat sebagian dapat dianggap sebagai kasus tepi saat mendesain pengklasifikasi gambar.

Terakhir, kumpulan data sintetis dapat meminimalkan masalah privasi. Upaya untuk menganonimkan data bisa jadi tidak efektif, karena meskipun variabel sensitif/pengidentifikasi dihapus dari kumpulan data, variabel lain dapat bertindak sebagai pengidentifikasi saat digabungkan. Ini bukan masalah dengan data sintetis, karena tidak pernah didasarkan pada orang sungguhan, atau peristiwa nyata, sejak awal.

Menggunakan Kasus untuk Data Sintetis

Data sintetik memiliki variasi yang luas kegunaan, karena dapat diterapkan pada hampir semua tugas pembelajaran mesin. Kasus penggunaan umum untuk data sintetis termasuk kendaraan tanpa pengemudi, keamanan, robotika, perlindungan penipuan, dan perawatan kesehatan.

Salah satu kasus penggunaan awal untuk data sintetis adalah mobil self-driving, karena data sintetis digunakan untuk membuat data pelatihan untuk mobil dalam kondisi di mana mendapatkan data pelatihan nyata di jalan sulit atau berbahaya. Data sintetik juga berguna untuk pembuatan data yang digunakan untuk melatih sistem pengenalan gambar, seperti sistem pengawasan, jauh lebih efisien daripada mengumpulkan dan memberi label sekumpulan data pelatihan secara manual. Sistem robotika bisa lambat untuk dilatih dan dikembangkan dengan metode pengumpulan dan pelatihan data tradisional. Data sintetik memungkinkan perusahaan robotika untuk menguji dan merekayasa sistem robotika melalui simulasi. Sistem perlindungan penipuan dapat memanfaatkan data sintetik, dan metode deteksi penipuan baru dapat dilatih dan diuji dengan data yang terus-menerus baru saat data sintetik digunakan. Di bidang perawatan kesehatan, data sintetis dapat digunakan untuk merancang pengklasifikasi kesehatan yang akurat, namun tetap menjaga privasi orang, karena data tersebut tidak akan didasarkan pada orang sungguhan.

Tantangan Data Sintetis

Sementara penggunaan data sintetis membawa banyak keuntungan, itu juga membawa banyak tantangan.

Saat data sintetik dibuat, seringkali tidak ada outlier. Outlier muncul dalam data secara alami, dan meskipun sering dihapus dari kumpulan data pelatihan, keberadaannya mungkin diperlukan untuk melatih model pembelajaran mesin yang benar-benar andal. Selain itu, kualitas data sintetik bisa sangat bervariasi. Data sintetik sering dihasilkan dengan input, atau benih, data, dan oleh karena itu kualitas data dapat bergantung pada kualitas data input. Jika data yang digunakan untuk menghasilkan data sintetik bias, data yang dihasilkan dapat melanggengkan bias tersebut. Data sintetik juga memerlukan beberapa bentuk pengendalian keluaran/kualitas. Itu perlu diperiksa terhadap data yang dianotasi manusia, atau jika tidak, data otentik adalah beberapa bentuk.

Bagaimana Data Sintetis Dibuat?

Data sintetik dibuat secara terprogram dengan teknik machine learning. Teknik pembelajaran mesin klasik seperti pohon keputusan dapat digunakan, seperti halnya teknik pembelajaran mendalam. Persyaratan untuk data sintetik akan memengaruhi jenis algoritme apa yang digunakan untuk menghasilkan data. Pohon keputusan dan model pembelajaran mesin serupa memungkinkan perusahaan membuat distribusi data multimodal non-klasik, dilatih berdasarkan contoh data dunia nyata. Menghasilkan data dengan algoritma ini akan memberikan data yang sangat berkorelasi dengan data pelatihan asli. Untuk contoh di mana distribusi tipikal data diketahui, perusahaan dapat menghasilkan data sintetik melalui penggunaan metode Monte Carlo.

Metode berbasis pembelajaran mendalam untuk menghasilkan data sintetik biasanya menggunakan keduanya autoencoder variasional (VAE) or jaringan permusuhan generatif (GAN). VAE adalah model pembelajaran mesin tanpa pengawasan yang menggunakan pembuat enkode dan dekoder. Bagian encoder dari VAE bertanggung jawab untuk mengompresi data menjadi versi yang lebih sederhana dan ringkas dari kumpulan data asli, yang kemudian dianalisis dan digunakan oleh decoder untuk menghasilkan representasi dari data dasar. VAE dilatih dengan tujuan untuk memiliki hubungan yang optimal antara data input dan output, di mana data input dan data output sangat mirip.

Ketika datang ke model GAN, mereka disebut jaringan "permusuhan" karena fakta bahwa GAN sebenarnya adalah dua jaringan yang bersaing satu sama lain. Generator bertanggung jawab untuk menghasilkan data sintetik, sedangkan jaringan kedua (diskriminator) beroperasi dengan membandingkan data yang dihasilkan dengan kumpulan data asli dan mencoba menentukan data mana yang palsu. Saat diskriminator menangkap data palsu, generator diberi tahu tentang hal ini dan membuat perubahan untuk mencoba dan mendapatkan kumpulan data baru oleh diskriminator. Pada gilirannya, pembeda menjadi lebih baik dan lebih baik dalam mendeteksi pemalsuan. Kedua jaringan dilatih satu sama lain, dengan pemalsuan menjadi lebih hidup sepanjang waktu.