Connect with us

AI 101

Apa itu Ensemble Learning?

mm

Salah satu teknik pembelajaran mesin paling kuat adalah ensemble learning. Ensemble learning adalah penggunaan beberapa model pembelajaran mesin untuk meningkatkan keandalan dan akurasi prediksi. Namun, bagaimana penggunaan beberapa model pembelajaran mesin dapat menghasilkan prediksi yang lebih akurat? Apa jenis teknik yang digunakan untuk membuat model ensemble learning? Kami akan menjelajahi jawaban dari pertanyaan-pertanyaan ini, melihat alasan di balik penggunaan model ensemble dan cara-cara utama membuat model ensemble.

Apa itu Ensemble Learning?

Dalam arti sederhana, ensemble learning adalah proses pelatihan beberapa model pembelajaran mesin dan menggabungkan output mereka bersama-sama. Model-model yang berbeda digunakan sebagai dasar untuk membuat satu model prediktif optimal. Menggabungkan beberapa model pembelajaran mesin individu yang beragam dapat meningkatkan stabilitas model secara keseluruhan, menghasilkan prediksi yang lebih akurat. Model ensemble learning seringkali lebih andal daripada model individu, dan sebagai hasilnya, mereka sering menduduki peringkat pertama dalam banyak kompetisi pembelajaran mesin.

Ada beberapa teknik yang dapat digunakan insinyur untuk membuat model ensemble learning. Teknik ensemble learning sederhana termasuk mengambil rata-rata output dari beberapa model, sementara ada juga metode yang lebih kompleks dan algoritma yang dikembangkan khusus untuk menggabungkan prediksi dari banyak model dasar.

Mengapa Menggunakan Metode Pelatihan Ensemble?

Model pembelajaran mesin dapat berbeda-beda karena berbagai alasan. Model pembelajaran mesin yang berbeda mungkin beroperasi pada sampel data populasi yang berbeda, teknik pemodelan yang berbeda mungkin digunakan, dan hipotesis yang berbeda mungkin digunakan.

Bayangkan Anda bermain permainan trivia dengan sekelompok besar orang. Jika Anda bermain sendiri, pasti ada beberapa topik yang Anda ketahui dan banyak topik yang tidak Anda ketahui. Sekarang, anggaplah Anda bermain dalam tim dengan orang lain. Sama seperti Anda, mereka akan memiliki pengetahuan tentang spesialisasi mereka sendiri dan tidak memiliki pengetahuan tentang topik lain. Namun, ketika pengetahuan Anda digabungkan, Anda memiliki tebakan yang lebih akurat untuk lebih banyak bidang, dan jumlah topik yang tim Anda tidak ketahui semakin kecil. Ini adalah prinsip yang sama yang mendasari ensemble learning, menggabungkan prediksi dari beberapa anggota tim (model individu) untuk meningkatkan akurasi dan meminimalkan kesalahan.

Statistik telah membuktikan bahwa ketika sekelompok orang diminta untuk menebak jawaban yang benar untuk pertanyaan tertentu dengan rentang jawaban yang mungkin, semua jawaban mereka membentuk distribusi probabilitas. Orang-orang yang benar-benar mengetahui jawaban yang benar akan memilih jawaban yang benar dengan percaya diri, sementara orang-orang yang memilih jawaban yang salah akan mendistribusikan tebakan mereka di seluruh rentang jawaban yang mungkin salah. Kembali ke contoh permainan trivia, jika Anda dan dua teman Anda mengetahui jawaban yang benar adalah A, ketiga Anda akan memilih A, sementara tiga orang lain di tim Anda yang tidak mengetahui jawaban yang benar kemungkinan akan salah menebak B, C, D, atau E. Hasilnya adalah A memiliki tiga suara dan jawaban lainnya kemungkinan hanya memiliki satu atau dua suara maksimal.

Semua model memiliki beberapa kesalahan. Kesalahan untuk satu model akan berbeda dari kesalahan yang dihasilkan oleh model lain, karena model-model itu sendiri berbeda karena alasan yang dijelaskan di atas. Ketika semua kesalahan diperiksa, mereka tidak akan terkumpul di sekitar satu jawaban atau lainnya, melainkan akan tersebar. Tebakan yang salah pada dasarnya tersebar di seluruh jawaban yang mungkin salah, membatalkan satu sama lain. Sementara itu, tebakan yang benar dari model yang berbeda akan terkumpul di sekitar jawaban yang benar. Ketika metode pelatihan ensemble digunakan, jawaban yang benar dapat ditemukan dengan keandalan yang lebih besar.

Metode Pelatihan Ensemble Sederhana

Metode pelatihan ensemble sederhana biasanya hanya melibatkan penerapan teknik statistik ringkasan, seperti menentukan modus, mean, atau rata-rata tertimbang dari sekumpulan prediksi.

Modus merujuk pada elemen yang paling sering terjadi dalam sekumpulan angka. Untuk mendapatkan modus, model pembelajaran individu mengembalikan prediksi mereka dan prediksi ini dianggap sebagai suara untuk prediksi akhir. Menentukan mean dari prediksi dilakukan dengan menghitung mean aritmatika dari prediksi, dibulatkan ke bilangan bulat terdekat. Akhirnya, rata-rata tertimbang dapat dihitung dengan menetapkan bobot yang berbeda ke model yang digunakan untuk membuat prediksi, dengan bobot yang mewakili pentingnya model tersebut. Representasi numerik dari prediksi kelas dikalikan dengan bobot dari 0 hingga 1,0, prediksi yang diberi bobot secara individual kemudian dijumlahkan dan hasilnya dibulatkan ke bilangan bulat terdekat.

Metode Pelatihan Ensemble Lanjutan

Ada tiga teknik pelatihan ensemble lanjutan utama, masing-masing dirancang untuk menangani jenis masalah pembelajaran mesin tertentu. Teknik “bagging” digunakan untuk mengurangi varians prediksi model, dengan varians merujuk pada seberapa besar hasil prediksi berbeda ketika didasarkan pada pengamatan yang sama. Teknik “boosting” digunakan untuk melawan bias model. Akhirnya, “stacking” digunakan untuk meningkatkan prediksi secara umum.

Metode ensemble learning itu sendiri dapat dibagi menjadi dua kelompok yang berbeda: metode berurutan dan metode ensemble paralel.

Metode ensemble berurutan mendapatkan nama “berurutan” karena model dasar/pembelajar dibuat secara berurutan. Dalam kasus metode berurutan, gagasan utama adalah bahwa ketergantungan antara model dasar dieksploitasi untuk mendapatkan prediksi yang lebih akurat. Contoh yang salah dilabeli memiliki bobot yang disesuaikan, sementara contoh yang dilabeli dengan benar mempertahankan bobot yang sama. Setiap kali pembelajar baru dibuat, bobot diubah dan akurasi (semoga) meningkat.

Berbeda dengan model ensemble berurutan, metode ensemble paralel menghasilkan model dasar secara paralel. Ketika melakukan ensemble learning paralel, gagasan adalah untuk mengeksploitasi kenyataan bahwa model dasar memiliki kemandirian, karena tingkat kesalahan umum dapat dikurangi dengan mengambil rata-rata prediksi dari pembelajar individu.

Metode pelatihan ensemble dapat bersifat homogen atau heterogen. Sebagian besar metode ensemble learning adalah homogen, yang berarti mereka menggunakan satu jenis model dasar/algoritma pembelajaran. Sebaliknya, ensemble heterogen menggunakan algoritma pembelajaran yang berbeda, mempertahankan keragaman dan mengubah pembelajar untuk memastikan bahwa akurasi setinggi mungkin.

Contoh Algoritma Ensemble Learning

Visualisasi ensemble boosting. Photo: Sirakorn via Wikimedia Commons, CC BY SA 4.0, (https://commons.wikimedia.org/wiki/File:Ensemble_Boosting.svg)

Contoh metode ensemble berurutan termasuk AdaBoost, XGBoost, dan Gradient tree boosting. Ini semua adalah model boosting. Untuk model boosting ini, tujuan adalah mengubah pembelajar yang lemah dan tidak berkinerja menjadi pembelajar yang lebih kuat. Model seperti AdaBoost dan XGBoost dimulai dengan banyak pembelajar yang lemah yang berkinerja sedikit lebih baik daripada menebak secara acak. Saat pelatihan berlanjut, bobot diterapkan pada data dan disesuaikan. Contoh yang salah diklasifikasikan oleh pembelajar di putaran pelatihan sebelumnya diberi bobot lebih. Setelah proses ini diulangi untuk jumlah putaran pelatihan yang diinginkan, prediksi digabungkan melalui jumlah tertimbang (untuk tugas regresi) dan suara tertimbang (untuk tugas klasifikasi).

Proses pembelajaran bagging. Photo: SeattleDataGuy via Wikimedia Commons, CC BY SA 4.0 (https://commons.wikimedia.org/wiki/File:Bagging.png)

Contoh model ensemble paralel adalah Random Forest klasifikasi, dan Random Forest juga merupakan contoh teknik bagging. Istilah “bagging” berasal dari “bootstrap agregasi”. Sampel diambil dari dataset total menggunakan teknik sampling yang disebut “bootstrap sampling”, yang digunakan oleh model dasar untuk membuat prediksi. Untuk tugas klasifikasi, output model dasar diagregasi menggunakan suara, sementara mereka diambil rata-rata untuk tugas regresi. Random Forest menggunakan pohon keputusan individu sebagai model dasar mereka, dan setiap pohon dalam ensemble dibangun menggunakan sampel yang berbeda dari dataset. Subset acak fitur juga digunakan untuk menghasilkan pohon. Menghasilkan pohon keputusan individu yang sangat acak, yang semuanya digabungkan untuk memberikan prediksi yang dapat diandalkan.

Visualisasi ensemble stacking. Photo: Supun Setunga via Wikimedia Commons, CC BY S.A 4.0 (https://commons.wikimedia.org/wiki/File:Stacking.png)

Dalam hal teknik ensemble stacking, beberapa model regresi atau klasifikasi digabungkan melalui model meta yang lebih tinggi. Model dasar tingkat rendah dilatih dengan memberi mereka dataset lengkap. Output model dasar kemudian digunakan sebagai fitur untuk melatih model meta. Model ensemble stacking seringkali bersifat heterogen.

Blogger dan programmer dengan spesialisasi di Machine Learning dan Deep Learning topik. Daniel berharap untuk membantu orang lain menggunakan kekuatan AI untuk kebaikan sosial.