potongan Apa itu Pembelajaran Ensemble? - Bersatu.AI
Terhubung dengan kami

AI 101

Apa itu Pembelajaran Ensemble?

mm
Updated on

Salah satu teknik pembelajaran mesin yang paling ampuh adalah pembelajaran ansambel. Ansambel pengetahuan adalah penggunaan beberapa model pembelajaran mesin untuk meningkatkan keandalan dan akurasi prediksi. Namun bagaimana penggunaan beberapa model pembelajaran mesin menghasilkan prediksi yang lebih akurat? Teknik apa saja yang digunakan untuk membuat model pembelajaran ensemble? Kami akan mengeksplorasi jawaban atas pertanyaan-pertanyaan ini, melihat alasan di balik penggunaan model ansambel dan cara utama membuat model ansambel.

Apa itu Pembelajaran Ensemble?

Sederhananya, pembelajaran ansambel adalah proses melatih beberapa model pembelajaran mesin dan menggabungkan hasilnya bersama-sama. Model yang berbeda digunakan sebagai dasar untuk membuat satu model prediksi yang optimal. Menggabungkan beragam model pembelajaran mesin individu dapat meningkatkan stabilitas model keseluruhan, yang menghasilkan prediksi yang lebih akurat. Model pembelajaran ensemble seringkali lebih andal daripada model individual, dan sebagai hasilnya, mereka sering menempati posisi pertama dalam banyak kompetisi pembelajaran mesin.

Ada berbagai teknik yang dapat digunakan seorang insinyur untuk membuat model pembelajaran ansambel. Teknik pembelajaran ansambel sederhana mencakup hal-hal seperti rata-rata output dari model yang berbeda, sementara ada juga metode dan algoritme yang lebih kompleks yang dikembangkan terutama untuk menggabungkan prediksi dari banyak pelajar/model dasar secara bersamaan.

Mengapa Menggunakan Metode Pelatihan Ensemble?

Model pembelajaran mesin dapat berbeda satu sama lain karena berbagai alasan. Model pembelajaran mesin yang berbeda dapat beroperasi pada sampel data populasi yang berbeda, teknik pemodelan yang berbeda dapat digunakan, dan hipotesis yang berbeda dapat digunakan.

Bayangkan Anda sedang memainkan permainan trivia dengan sekelompok besar orang. Jika Anda berada dalam tim sendiri, pasti ada beberapa topik yang Anda ketahui dan banyak topik yang tidak Anda ketahui. Sekarang anggaplah Anda bermain dalam tim dengan orang lain. Sama seperti Anda, mereka akan memiliki pengetahuan tentang spesialisasi mereka sendiri dan tidak memiliki pengetahuan tentang topik lain. Namun ketika pengetahuan Anda digabungkan, Anda memiliki tebakan yang lebih akurat untuk lebih banyak bidang, dan jumlah topik yang kurang diketahui oleh tim Anda menyusut. Ini adalah prinsip yang sama yang mendasari pembelajaran ansambel, menggabungkan prediksi anggota tim yang berbeda (model individu) untuk meningkatkan akurasi dan meminimalkan kesalahan.

Ahli statistik telah membuktikan bahwa ketika sekelompok orang diminta untuk menebak jawaban yang tepat untuk pertanyaan tertentu dengan serangkaian kemungkinan jawaban, semua jawaban mereka membentuk distribusi probabilitas. Orang yang benar-benar mengetahui jawaban yang benar akan memilih jawaban yang benar dengan percaya diri, sedangkan orang yang memilih jawaban yang salah akan mendistribusikan tebakan mereka ke berbagai kemungkinan jawaban yang salah. Kembali ke contoh permainan trivia, jika Anda dan kedua teman Anda mengetahui jawaban yang benar adalah A, Anda bertiga akan memilih A, sedangkan tiga orang lainnya dalam tim Anda yang tidak mengetahui jawabannya cenderung salah. tebak B, C, D, atau E. Hasilnya adalah A memiliki tiga suara dan jawaban lainnya kemungkinan besar hanya memiliki satu atau dua suara maksimal.

Semua model memiliki sejumlah kesalahan. Kesalahan untuk satu model akan berbeda dari kesalahan yang dihasilkan oleh model lain, karena model itu sendiri berbeda karena alasan yang dijelaskan di atas. Ketika semua kesalahan diperiksa, mereka tidak akan dikelompokkan di sekitar satu jawaban atau yang lain, melainkan akan tersebar. Tebakan yang salah pada dasarnya tersebar di semua kemungkinan jawaban yang salah, saling membatalkan. Sementara itu, tebakan yang benar dari model yang berbeda akan dikelompokkan di sekitar jawaban yang benar dan tepat. Ketika metode pelatihan ansambel digunakan, jawaban yang benar dapat ditemukan dengan keandalan yang lebih besar.

Metode Pelatihan Ensemble Sederhana

Metode pelatihan ansambel sederhana biasanya hanya melibatkan penerapan teknik ringkasan statistiks, seperti menentukan mode, rata-rata, atau rata-rata tertimbang dari sekumpulan prediksi.

Modus mengacu pada elemen yang paling sering muncul dalam satu set angka. Untuk mendapatkan modus, model pembelajaran individu mengembalikan prediksinya dan prediksi tersebut dianggap suara menuju prediksi akhir. Menentukan rata-rata prediksi dilakukan hanya dengan menghitung rata-rata aritmatika dari prediksi, dibulatkan ke bilangan bulat terdekat. Akhirnya, rata-rata tertimbang dapat dihitung dengan memberikan bobot yang berbeda pada model yang digunakan untuk membuat prediksi, dengan bobot mewakili anggapan pentingnya model tersebut. Representasi numerik dari prediksi kelas dikalikan dengan bobot dari 0 hingga 1.0, prediksi bobot individu kemudian dijumlahkan bersama dan hasilnya dibulatkan ke bilangan bulat terdekat.

Metode Pelatihan Ensemble Tingkat Lanjut

Ada tiga teknik pelatihan ansambel lanjutan utama, yang masing-masing dirancang untuk menangani jenis masalah pembelajaran mesin tertentu. Teknik "mengantongi". digunakan untuk mengurangi varians prediksi model, dengan varians mengacu pada seberapa besar perbedaan hasil prediksi ketika didasarkan pada pengamatan yang sama. Teknik "Meningkatkan". digunakan untuk memerangi bias model. Akhirnya, "menumpuk" digunakan untuk meningkatkan prediksi secara umum.

Metode pembelajaran ensembel sendiri secara umum dapat dibagi menjadi salah satu dari dua kelompok yang berbeda: metode sekuensial dan metode ansambel paralel.

Metode ansambel sekuensial disebut “berurutan” karena basis pembelajar/model dihasilkan secara berurutan. Dalam kasus metode sekuensial, ide dasarnya adalah bahwa ketergantungan antara basis pembelajar dieksploitasi untuk mendapatkan prediksi yang lebih akurat. Contoh yang salah diberi label memiliki bobot yang disesuaikan sementara contoh yang diberi label dengan benar mempertahankan bobot yang sama. Setiap kali pembelajar baru dihasilkan, bobotnya berubah dan akurasi (mudah-mudahan) meningkat.

Berbeda dengan model ansambel sekuensial, metode ansambel paralel menghasilkan basis pembelajar secara paralel. Ketika melakukan pembelajaran ansambel paralel, idenya adalah untuk mengeksploitasi fakta bahwa pembelajar dasar memiliki kemandirian, karena tingkat kesalahan umum dapat dikurangi dengan merata-ratakan prediksi dari masing-masing pembelajar.

Metode pelatihan ensemble dapat bersifat homogen atau heterogen. Sebagian besar metode pembelajaran ansambel bersifat homogen, artinya menggunakan satu jenis model/algoritma pembelajaran dasar. Sebaliknya, ansambel heterogen memanfaatkan algoritme pembelajaran yang berbeda, mendiversifikasi, dan memvariasikan peserta didik untuk memastikan akurasi setinggi mungkin.

Contoh Algoritma Pembelajaran Ensemble

Visualisasi peningkatan ansambel. Foto: Sirakorn via Wikimedia Commons, CC BY SA 4.0, (https://commons.wikimedia.org/wiki/File:Ensemble_Boosting.svg)

Contoh metode ansambel berurutan meliputi AdaBoost, XGBoost, dan Meningkatkan pohon gradien. Ini semua adalah model penguat. Untuk model peningkatan ini, tujuannya adalah mengubah siswa yang lemah dan berkinerja buruk menjadi siswa yang lebih kuat. Model seperti AdaBoost dan XGBoost dimulai dengan banyak pelajar lemah yang kinerjanya sedikit lebih baik daripada menebak secara acak. Saat pelatihan berlanjut, bobot diterapkan pada data dan disesuaikan. Instance yang salah diklasifikasikan oleh pembelajar di babak awal pelatihan diberi bobot lebih. Setelah proses ini diulangi untuk jumlah putaran pelatihan yang diinginkan, prediksi digabungkan melalui penjumlahan tertimbang (untuk tugas regresi) dan suara tertimbang (untuk tugas klasifikasi).

Proses pembelajaran mengantongi. Foto: SeattleDataGuy melalui Wikimedia Commons, CC BY SA 4.0 (https://commons.wikimedia.org/wiki/File:Bagging.png)

Contoh model ansambel paralel adalah a Hutan Acak classifier, dan Random Forests juga merupakan contoh teknik bagging. Istilah "mengantongi" berasal dari "agregasi bootstrap". Sampel diambil dari total dataset menggunakan teknik pengambilan sampel yang dikenal sebagai “bootstrap sampling”, yang digunakan oleh pelajar dasar untuk membuat prediksi. Untuk tugas klasifikasi, output dari model dasar diagregasi menggunakan pemungutan suara, sementara untuk tugas regresi dirata-ratakan bersama. Hutan Acak menggunakan pohon keputusan individu sebagai pelajar dasar mereka, dan setiap pohon dalam ansambel dibangun menggunakan sampel yang berbeda dari kumpulan data. Subset fitur acak juga digunakan untuk menghasilkan pohon. Mengarah ke pohon keputusan individu yang sangat acak, yang semuanya digabungkan bersama untuk memberikan prediksi yang andal.

Visualisasi susunan ansambel. Foto: Supun Setunga via Wikimedia Commons, CC BY SA 4.0 (https://commons.wikimedia.org/wiki/File:Stacking.png)

Dalam hal teknik ansambel susun, model regresi atau klasifikasi berganda digabungkan bersama melalui model meta tingkat yang lebih tinggi. Level yang lebih rendah, model dasar dilatih dengan memberi makan seluruh kumpulan data. Keluaran dari model dasar kemudian digunakan sebagai fitur untuk melatih model meta. Model ansambel susun seringkali bersifat heterogen.

Blogger dan programmer dengan spesialisasi di Pembelajaran mesin dan Belajar mendalam topik. Daniel berharap dapat membantu orang lain menggunakan kekuatan AI untuk kebaikan sosial.