AI 101

Model Pembelajaran Mesin Generatif vs Diskriminatif

mm

Beberapa model pembelajaran mesin termasuk dalam kategori “generative” atau “diskriminatif”. Namun, apa perbedaan antara kedua kategori model ini? Apa artinya bagi sebuah model untuk menjadi diskriminatif atau generative?

Jawaban singkatnya adalah bahwa model generative adalah model yang mencakup distribusi dataset, mengembalikan kemungkinan untuk contoh tertentu. Model generative sering digunakan untuk memprediksi apa yang terjadi selanjutnya dalam sebuah urutan. Sementara itu, model diskriminatif digunakan untuk klasifikasi atau regresi dan mengembalikan prediksi berdasarkan kemungkinan kondisional. Mari kita jelajahi perbedaan antara model generative dan diskriminatif dengan lebih rinci, sehingga kita dapat memahami apa yang membedakan kedua jenis model dan kapan jenis model mana yang harus digunakan.

Model Generative vs. Diskriminatif

Ada beberapa cara untuk mengkategorikan model pembelajaran mesin. Sebuah model dapat diklasifikasikan sebagai milik kategori yang berbeda seperti: model generative, model diskriminatif, model parametri, model non-parametri, model berbasis pohon, model non-pohon.

Artikel ini akan fokus pada perbedaan antara model generative dan diskriminatif. Kami akan memulai dengan mendefinisikan model generative dan diskriminatif, dan kemudian kita akan menjelajahi beberapa contoh dari masing-masing jenis model.

Model Generative

Model generative adalah model yang berfokus pada distribusi kelas dalam dataset. Algoritma pembelajaran mesin biasanya memodelkan distribusi data. Model generative bergantung pada pencarian kemungkinan bersama. Membuat titik di mana fitur input tertentu dan label output yang diinginkan ada bersamaan.

Model generative biasanya digunakan untuk memperkirakan kemungkinan dan kemungkinan, memodelkan data dan membedakan antara kelas berdasarkan kemungkinan tersebut. Karena model mempelajari distribusi kemungkinan untuk dataset, maka dapat merujuk pada distribusi kemungkinan ini untuk menghasilkan contoh data baru. Model generative sering bergantung pada teorema Bayes untuk menemukan kemungkinan bersama, menemukan p(x,y). Pada dasarnya, model generative memodelkan bagaimana data dihasilkan, menjawab pertanyaan:

“Apa kemungkinan bahwa kelas ini atau kelas lain menghasilkan data ini?”

Contoh model pembelajaran mesin generative termasuk Analisis Diskriminan Linier (LDA), Model Markov Tersembunyi, dan Jaringan Bayes seperti Naive Bayes.

Model Diskriminatif

Sementara model generative mempelajari distribusi dataset, model diskriminatif mempelajari batas antara kelas dalam dataset. Dengan model diskriminatif, tujuannya adalah untuk mengidentifikasi batas keputusan antara kelas untuk menerapkan label kelas yang dapat diandalkan pada contoh data. Model diskriminatif memisahkan kelas dalam dataset dengan menggunakan kemungkinan kondisional, tanpa membuat asumsi tentang titik data individu.

Model diskriminatif berusaha untuk menjawab pertanyaan:

“Di sisi mana batas keputusan instance ini ditemukan?”

Contoh model diskriminatif dalam pembelajaran mesin termasuk mesin vektor pendukung, regresi logistik, pohon keputusan, dan hutan acak.

Perbedaan Antara Generative dan Diskriminatif

Berikut adalah ringkasan singkat dari perbedaan utama antara model generative dan diskriminatif.

Model Generative:

  • Model generative bertujuan untuk menangkap distribusi sebenarnya dari kelas dalam dataset.
  • Model generative memprediksi distribusi kemungkinan bersama – p(x,y) – dengan menggunakan Teorema Bayes.
  • Model generative lebih mahal secara komputasi dibandingkan dengan model diskriminatif.
  • Model generative berguna untuk tugas pembelajaran mesin tidak terawasi.
  • Model generative lebih dipengaruhi oleh kehadiran outlier dibandingkan dengan model diskriminatif.

Model Diskriminatif:

  • Model diskriminatif memodelkan batas keputusan untuk kelas dataset.
  • Model diskriminatif mempelajari kemungkinan kondisional – p(y|x).
  • Model diskriminatif lebih murah secara komputasi dibandingkan dengan model generative.
  • Model diskriminatif berguna untuk tugas pembelajaran mesin terawasi.
  • Model diskriminatif memiliki keunggulan lebih robust terhadap outlier dibandingkan dengan model generative.
  • Model diskriminatif lebih robust terhadap outlier dibandingkan dengan model generative.

Kami akan segera menjelajahi beberapa contoh model pembelajaran mesin generative dan diskriminatif.

Contoh Model Generative

Analisis Diskriminan Linier (LDA)

Model LDA berfungsi dengan memperkirakan varians dan mean dari data untuk setiap kelas dalam dataset. Setelah mean dan varians untuk setiap kelas dihitung, prediksi dapat dibuat dengan memperkirakan kemungkinan bahwa set input tertentu termasuk dalam kelas tertentu.

Model Markov Tersembunyi

Rantai Markov dapat dianggap sebagai grafik dengan kemungkinan yang menunjukkan seberapa mungkin kita akan bergerak dari satu titik dalam rantai, sebuah “keadaan”, ke keadaan lain. Rantai Markov digunakan untuk menentukan kemungkinan bergerak dari keadaan j ke keadaan i, yang dapat dilambangkan sebagai p(i,j). Ini hanya kemungkinan bersama yang disebutkan di atas. Model Markov Tersembunyi adalah di mana rantai Markov yang tidak terlihat digunakan. Input data diberikan kepada model dan kemungkinan untuk keadaan saat ini dan keadaan sebelumnya digunakan untuk menghitung hasil yang paling mungkin.

Jaringan Bayes

Jaringan Bayes adalah jenis model grafik probabilistik. Mereka merepresentasikan ketergantungan kondisional antara variabel, seperti yang direpresentasikan oleh Grafik Siklik Terarah. Dalam jaringan Bayes, setiap tepi grafik merepresentasikan ketergantungan kondisional, dan setiap node sesuai dengan variabel unik. Ketergantungan kondisional untuk hubungan unik dalam grafik dapat digunakan untuk menentukan distribusi bersama dari variabel dan menghitung kemungkinan bersama. Dengan kata lain, jaringan Bayes menangkap subset dari hubungan independen dalam distribusi kemungkinan bersama tertentu.

Setelah jaringan Bayes dibuat dan didefinisikan dengan benar, dengan Variabel Acak, Hubungan Kondisional, dan Distribusi Kemungkinan yang diketahui, maka dapat digunakan untuk memperkirakan kemungkinan kejadian atau hasil.

Salah satu jenis jaringan Bayes yang paling umum digunakan adalah model Naive Bayes. Model Naive Bayes menangani tantangan menghitung kemungkinan untuk dataset dengan banyak parameter/variabel dengan menganggap semua fitur sebagai independen satu sama lain.

Contoh Model Diskriminatif

Mesin Vektor Pendukung

Mesin vektor pendukung beroperasi dengan menggambar batas keputusan antara titik data, menemukan batas keputusan yang terbaik untuk memisahkan kelas yang berbeda dalam dataset. Algoritma SVM menggambar garis atau hiperbidang yang memisahkan titik, untuk ruang 2 dimensi dan 3D masing-masing. SVM berusaha untuk menemukan garis/hiperbidang yang terbaik untuk memisahkan kelas dengan mencoba memaksimalkan margin, atau jarak antara garis/hiperbidang ke titik terdekat. Model SVM juga dapat digunakan pada dataset yang tidak dapat dipisahkan secara linier dengan menggunakan “trik kernel” untuk mengidentifikasi batas keputusan non-linier.

Regresi Logistik

Regresi logistik adalah algoritma yang menggunakan fungsi logit (log-odds) untuk menentukan kemungkinan bahwa input termasuk dalam salah satu dari dua keadaan. Fungsi sigmoid digunakan untuk “menghancurkan” kemungkinan ke arah 0 atau 1, benar atau salah. Kemungkinan yang lebih besar dari 0,50 dianggap sebagai kelas 1, sedangkan kemungkinan 0,49 atau lebih rendah dianggap sebagai 0. Karena itu, regresi logistik biasanya digunakan dalam masalah klasifikasi biner. Namun, regresi logistik dapat diterapkan pada masalah multi-kelas dengan menggunakan pendekatan satu lawan semua, membuat model klasifikasi biner untuk setiap kelas dan menentukan kemungkinan bahwa contoh adalah kelas target atau kelas lain dalam dataset.

Pohon Keputusan

Model pohon keputusan berfungsi dengan membagi dataset menjadi bagian yang lebih kecil dan lebih kecil, dan setelah subset tidak dapat dibagi lagi, hasilnya adalah pohon dengan node dan daun. Node dalam pohon keputusan adalah tempat di mana keputusan tentang titik data dibuat dengan menggunakan kriteria penyaringan yang berbeda. Daun dalam pohon keputusan adalah titik data yang telah diklasifikasikan. Algoritma pohon keputusan dapat menangani data numerik dan kategorik, dan pemisahan dalam pohon didasarkan pada variabel/fitur tertentu.

Hutan Acak

Model hutan acak pada dasarnya adalah koleksi pohon keputusan di mana prediksi pohon individu dirata-rata untuk mencapai keputusan akhir. Algoritma hutan acak memilih pengamatan dan fitur secara acak, membangun pohon individu berdasarkan pilihan tersebut.

Blogger dan programmer dengan spesialisasi di Machine Learning dan Deep Learning topik. Daniel berharap untuk membantu orang lain menggunakan kekuatan AI untuk kebaikan sosial.