AI 101

Model Pembelajaran Mesin Generatif vs Diskriminatif

Updated on Januari 2, 2021

Beberapa model pembelajaran mesin termasuk dalam kategori model “generatif” atau “diskriminatif”. Namun apa adanya perbedaan antara dua kategori model ini? Apa artinya model menjadi diskriminatif atau generatif?

Jawaban singkatnya adalah bahwa model generatif adalah yang menyertakan distribusi kumpulan data, mengembalikan probabilitas untuk contoh yang diberikan. Model generatif sering digunakan untuk memprediksi apa yang terjadi selanjutnya secara berurutan. Sementara itu, model diskriminatif digunakan untuk klasifikasi atau regresi dan menghasilkan prediksi berdasarkan kondisional kemungkinan. Mari jelajahi perbedaan antara model generatif dan diskriminatif secara lebih rinci, sehingga kita dapat benar-benar memahami apa yang memisahkan kedua jenis model tersebut dan kapan masing-masing jenis tersebut harus digunakan.

Model Generatif vs Diskriminatif

Ada berbagai cara untuk mengkategorikan model pembelajaran mesin. Suatu model dapat diklasifikasikan sebagai milik kategori yang berbeda seperti: model generatif, model diskriminatif, model parametrik, model non-parametrik, model berbasis pohon, model berbasis non-pohon.

Artikel ini akan fokus pada perbedaan antara model generatif dan model diskriminatif. Kita akan mulai dengan mendefinisikan model generatif dan diskriminatif, lalu kita akan menjelajahi beberapa contoh dari setiap jenis model.

Model Generatif

Model generatif adalah mereka yang berpusat pada distribusi kelas dalam dataset. Algoritme pembelajaran mesin biasanya memodelkan distribusi titik data. Model generatif bergantung pada penemuan probabilitas bersama. Membuat poin di mana fitur input yang diberikan dan output/label yang diinginkan ada secara bersamaan.

Model generatif biasanya digunakan untuk memperkirakan probabilitas dan kemungkinan, memodelkan poin data dan membedakan antara kelas berdasarkan probabilitas ini. Karena model mempelajari distribusi probabilitas untuk kumpulan data, model dapat mereferensikan distribusi probabilitas ini untuk menghasilkan instance data baru. Model generatif sering diandalkan teorema bayes untuk menemukan probabilitas bersama, menemukan p(x,y). Pada dasarnya, model generatif memodelkan bagaimana data dihasilkan, jawab pertanyaan berikut:

“Seberapa besar kemungkinan kelas ini atau kelas lain menghasilkan titik/instans data ini?”

Contoh model pembelajaran mesin generatif termasuk Linear Discriminant Analysis (LDA), model Hidden Markov, dan jaringan Bayesian seperti Naive Bayes.

Model Diskriminatif

Sementara model generatif mempelajari distribusi dataset, model diskriminatif mempelajari tentang batas antar kelas dalam kumpulan data. Dengan model diskriminatif, tujuannya adalah untuk mengidentifikasi batas keputusan antar kelas untuk menerapkan label kelas yang andal ke instance data. Model diskriminatif memisahkan kelas dalam kumpulan data dengan menggunakan probabilitas bersyarat, tidak membuat asumsi apa pun tentang poin data individual.

Model diskriminatif ditetapkan untuk menjawab pertanyaan berikut:

"Di sisi mana dari batas keputusan tempat kejadian ini ditemukan?"

Contoh model diskriminatif dalam pembelajaran mesin mencakup mesin vektor dukungan, regresi logistik, pohon keputusan, dan hutan acak.

Perbedaan Antara Generatif dan Diskriminatif

Berikut ini ikhtisar singkat tentang perbedaan utama antara model generatif dan diskriminatif.

Model generatif:

Model generatif bertujuan untuk menangkap distribusi sebenarnya dari kelas-kelas dalam kumpulan data.
Model generatif memprediksi distribusi probabilitas gabungan – p(x,y) – menggunakan Teorema Bayes.
Model generatif mahal secara komputasi dibandingkan dengan model diskriminatif.
Model generatif berguna untuk tugas pembelajaran mesin tanpa pengawasan.
Model generatif lebih dipengaruhi oleh kehadiran outlier daripada model diskriminatif.

Model diskriminatif:

Model diskriminatif memodelkan batas keputusan untuk kelas dataset.
Model diskriminatif mempelajari probabilitas bersyarat – p(y|x).
Model diskriminatif secara komputasi lebih murah dibandingkan dengan model generatif.
Model diskriminatif berguna untuk tugas pembelajaran mesin yang diawasi.
Model diskriminatif memiliki keunggulan karena lebih kuat terhadap outlier, tidak seperti model generatif.
Model diskriminatif lebih kuat terhadap outlier dibandingkan dengan model generatif.

Kami sekarang akan secara singkat menjelajahi beberapa contoh berbeda dari model pembelajaran mesin generatif dan diskriminatif.

Contoh Model Generatif

Analisis Diskriminan Linier (LDA)

model LDA berfungsi dengan memperkirakan varians dan rata-rata data untuk setiap kelas dalam kumpulan data. Setelah rata-rata dan varians untuk setiap kelas telah dihitung, prediksi dapat dibuat dengan memperkirakan probabilitas bahwa sekumpulan input tertentu milik kelas tertentu.

Model Markov Tersembunyi

Rantai Markov dapat dianggap sebagai grafik dengan probabilitas yang menunjukkan seberapa besar kemungkinan kita akan berpindah dari satu titik dalam rantai, sebuah "keadaan", ke keadaan lain. Rantai Markov digunakan untuk menentukan probabilitas perpindahan dari keadaan j ke keadaan i, yang dapat dinotasikan sebagai p(i,j). Ini hanyalah probabilitas gabungan yang disebutkan di atas. Model Markov Tersembunyi adalah di mana rantai Markov yang tidak terlihat dan tidak dapat diamati digunakan. Masukan data diberikan ke model dan probabilitas untuk keadaan saat ini dan keadaan sebelumnya digunakan untuk menghitung hasil yang paling mungkin.

Jaringan Bayesian

Jaringan Bayesian adalah jenis model grafis probabilistik. Mereka mewakili dependensi bersyarat antara variabel, seperti yang diwakili oleh Grafik Asiklik Terarah. Dalam jaringan Bayesian, setiap tepi grafik merepresentasikan ketergantungan bersyarat, dan setiap node sesuai dengan variabel unik. Independensi bersyarat untuk hubungan unik dalam grafik dapat digunakan untuk menentukan distribusi gabungan dari variabel dan menghitung probabilitas gabungan. Dengan kata lain, jaringan Bayesian menangkap subset dari hubungan independen dalam distribusi probabilitas gabungan tertentu.

Setelah jaringan Bayesian dibuat dan didefinisikan dengan benar, dengan Variabel Acak, Hubungan Bersyarat, dan Distribusi Probabilitas diketahui, itu dapat digunakan untuk memperkirakan probabilitas peristiwa atau hasil.

Salah satu jenis Bayesian Networks yang paling umum digunakan adalah model Naive Bayes. Model Naive Bayes menangani tantangan menghitung probabilitas untuk kumpulan data dengan banyak parameter/variabel dengan memperlakukan semua fitur sebagai independen satu sama lain.

Contoh Model Diskriminatif

Mendukung Mesin Vektor

Mendukung mesin vektor beroperasi dengan menggambar batas keputusan antara titik data, menemukan batas keputusan yang paling baik memisahkan kelas yang berbeda dalam kumpulan data. Algoritma SVM menggambar garis atau hyperplane yang memisahkan titik, masing-masing untuk ruang 2 dimensi dan ruang 3D. SVM berusaha untuk menemukan garis/hyperplane yang paling baik memisahkan kelas dengan mencoba memaksimalkan margin, atau jarak antara garis/hyperplane ke titik terdekat. Model SVM juga dapat digunakan pada kumpulan data yang tidak dapat dipisahkan secara linear dengan menggunakan “trik kernel” untuk mengidentifikasi batasan keputusan non-linear.

Regresi logistik

Regresi logistik adalah algoritme yang menggunakan fungsi logit (log-odds) untuk menentukan probabilitas input berada di salah satu dari dua status. Fungsi sigmoid digunakan untuk "memencet" probabilitas ke arah 0 atau 1, benar atau salah. Probabilitas lebih besar dari 0.50 diasumsikan kelas 1, sedangkan probabilitas 0.49 atau lebih rendah diasumsikan 0. Untuk alasan ini, regresi logistik biasanya digunakan dalam masalah klasifikasi biner. Namun, regresi logistik dapat diterapkan pada masalah multi-kelas dengan menggunakan pendekatan satu lawan semua, membuat model klasifikasi biner untuk setiap kelas dan menentukan probabilitas bahwa sebuah contoh adalah kelas target atau kelas lain dalam kumpulan data.

Pohon Keputusan

A pohon keputusan fungsi model dengan membagi kumpulan data menjadi bagian yang lebih kecil dan lebih kecil, dan setelah himpunan bagian tidak dapat dipisah lebih jauh, hasilnya adalah pohon dengan simpul dan daun. Node dalam pohon keputusan adalah tempat pengambilan keputusan tentang titik data menggunakan kriteria pemfilteran yang berbeda. Daun dalam pohon keputusan adalah titik data yang telah diklasifikasikan. Algoritme pohon keputusan dapat menangani data numerik dan kategorikal, dan pemisahan dalam pohon didasarkan pada variabel/fitur tertentu.

Hutan Acak

A model hutan acak pada dasarnya hanyalah kumpulan pohon keputusan di mana prediksi masing-masing pohon dirata-ratakan untuk mendapatkan keputusan akhir. Algoritme hutan acak memilih pengamatan dan fitur secara acak, membangun pohon individual berdasarkan pilihan ini.

Artikel tutorial ini akan membahas cara membuat Box Plot di Matplotlib. Plot kotak digunakan untuk memvisualisasikan ringkasan statistik dari kumpulan data, menampilkan atribut distribusi seperti rentang dan distribusi data.

Topik-topik terkait:model diskriminatif model generatif

Berikutnya

Apa itu Peningkatan Gradien?

Jangan Miss

Apa itu Cybersecurity?

Daniel Nelson

Blogger dan programmer dengan spesialisasi di Pembelajaran mesin dan Belajar mendalam topik. Daniel berharap dapat membantu orang lain menggunakan kekuatan AI untuk kebaikan sosial.