AI 101

Apa itu Pembelajaran Penguatan Mendalam?

Updated on 2 Agustus 2021

Apa itu Pembelajaran Penguatan Mendalam?

Selain pembelajaran mesin tanpa pengawasan dan pembelajaran yang diawasi, bentuk umum lainnya dari pembuatan AI adalah pembelajaran penguatan. Di luar pembelajaran penguatan reguler, pembelajaran penguatan yang mendalam dapat memberikan hasil yang sangat mengesankan, berkat fakta bahwa ini menggabungkan aspek terbaik dari pembelajaran mendalam dan pembelajaran penguatan. Mari kita lihat secara tepat bagaimana pembelajaran penguatan mendalam bekerja.

Sebelum kita menyelami pembelajaran penguatan yang mendalam, mungkin merupakan ide bagus untuk menyegarkan diri kita sendiri tentang seberapa teraturnya penguatan pembelajaran bekerja. Dalam pembelajaran penguatan, algoritme berorientasi tujuan dirancang melalui proses coba-coba, mengoptimalkan tindakan yang mengarah pada hasil terbaik/tindakan yang mendapatkan "hadiah" paling banyak. Saat algoritme pembelajaran penguatan dilatih, mereka diberi "hadiah" atau "hukuman" yang memengaruhi tindakan yang akan mereka ambil di masa mendatang. Algoritma mencoba menemukan serangkaian tindakan yang akan memberi sistem imbalan paling banyak, menyeimbangkan imbalan langsung dan masa depan.

Algoritme pembelajaran penguatan sangat kuat karena dapat diterapkan ke hampir semua tugas, mampu belajar secara fleksibel dan dinamis dari lingkungan dan menemukan tindakan yang mungkin dilakukan.

Tinjauan Pembelajaran Penguatan Mendalam

Foto: Megajuice melalui Wikimedia Commons, CC 1.0 (https://commons.wikimedia.org/wiki/File:Reinforcement_learning_diagram.svg)

Ketika datang ke pembelajaran penguatan mendalam, lingkungan biasanya diwakili dengan gambar. Gambar adalah tangkapan lingkungan pada titik waktu tertentu. Agen harus menganalisis gambar dan mengekstrak informasi yang relevan darinya, menggunakan informasi tersebut untuk menginformasikan tindakan yang harus mereka ambil. Pembelajaran penguatan mendalam biasanya dilakukan dengan salah satu dari dua teknik yang berbeda: pembelajaran berbasis nilai dan pembelajaran berbasis kebijakan.

Teknik pembelajaran berbasis nilai memanfaatkan algoritme dan arsitektur seperti jaringan saraf convolutional dan Deep-Q-Network. Algoritme ini beroperasi dengan mengubah gambar menjadi skala abu-abu dan memotong bagian gambar yang tidak diperlukan. Setelah itu, citra mengalami berbagai konvolusi dan operasi penyatuan, mengekstraksi bagian citra yang paling relevan. Bagian-bagian penting dari gambar tersebut kemudian digunakan untuk menghitung nilai-Q untuk berbagai tindakan yang dapat dilakukan oleh agen. Nilai-Q digunakan untuk menentukan tindakan terbaik bagi agen. Setelah nilai-Q awal dihitung, dilakukan backpropagation agar nilai-Q yang paling akurat dapat ditentukan.

Metode berbasis kebijakan digunakan ketika jumlah kemungkinan tindakan yang dapat diambil oleh agen sangat tinggi, yang biasanya terjadi dalam skenario dunia nyata. Situasi seperti ini memerlukan pendekatan yang berbeda karena menghitung nilai-Q untuk semua tindakan individual tidaklah pragmatis. Pendekatan berbasis kebijakan beroperasi tanpa menghitung nilai fungsi untuk tindakan individu. Sebaliknya, mereka mengadopsi kebijakan dengan mempelajari kebijakan tersebut secara langsung, seringkali melalui teknik yang disebut Gradien Kebijakan.

Gradien kebijakan beroperasi dengan menerima status dan menghitung probabilitas tindakan berdasarkan pengalaman agen sebelumnya. Tindakan yang paling mungkin kemudian dipilih. Proses ini diulang hingga akhir periode evaluasi dan hadiah diberikan kepada agen. Setelah hadiah dibagikan dengan agen, parameter jaringan diperbarui dengan propagasi balik.

Apa itu Q-Learning?

Karena Q-Belajar adalah bagian besar dari proses pembelajaran penguatan mendalam, mari luangkan waktu untuk benar-benar memahami cara kerja sistem Q-learning.

Proses Keputusan Markov

Sebuah proses keputusan markov. Foto: waldoalvarez via Pixabay, Lisensi Pixbay (https://commons.wikimedia.org/wiki/File:Markov_Decision_Process.svg)

Agar agen AI dapat melakukan serangkaian tugas dan mencapai tujuan, agen tersebut harus dapat menangani urutan keadaan dan peristiwa. Agen akan mulai pada satu keadaan dan harus mengambil serangkaian tindakan untuk mencapai keadaan akhir, dan mungkin ada sejumlah besar keadaan yang ada antara keadaan awal dan akhir. Menyimpan informasi tentang setiap keadaan tidak praktis atau tidak mungkin, sehingga sistem harus menemukan cara untuk menyimpan informasi keadaan yang paling relevan saja. Hal ini dicapai melalui penggunaan a Proses Keputusan Markov, yang hanya menyimpan informasi mengenai status saat ini dan status sebelumnya. Setiap status mengikuti properti Markov, yang melacak bagaimana agen berubah dari status sebelumnya ke status saat ini.

Q-Learning Mendalam

Setelah model memiliki akses ke informasi tentang keadaan lingkungan pembelajaran, nilai-Q dapat dihitung. Nilai-Q adalah hadiah total yang diberikan kepada agen di akhir urutan tindakan.

Nilai-Q dihitung dengan serangkaian hadiah. Ada hadiah langsung, dihitung pada kondisi saat ini dan tergantung pada tindakan saat ini. Nilai-Q untuk keadaan selanjutnya juga dihitung, bersama dengan nilai-Q untuk keadaan setelah itu, dan seterusnya sampai semua nilai-Q untuk keadaan yang berbeda telah dihitung. Ada juga parameter Gamma yang digunakan untuk mengontrol seberapa besar bobot hadiah di masa depan terhadap tindakan agen. Kebijakan biasanya dihitung dengan menginisialisasi nilai-Q secara acak dan membiarkan model menyatu menuju nilai-Q optimal selama pelatihan.

Jaringan Q-dalam

Salah satu masalah mendasar yang melibatkan penggunaan Q-learning untuk pembelajaran penguatan adalah bahwa jumlah memori yang diperlukan untuk menyimpan data berkembang pesat seiring dengan meningkatnya jumlah status. Deep Q Networks memecahkan masalah ini dengan menggabungkan model jaringan saraf dengan nilai-Q, memungkinkan agen untuk belajar dari pengalaman dan membuat tebakan yang masuk akal tentang tindakan terbaik yang harus diambil. Dengan pembelajaran Q yang mendalam, fungsi nilai Q diestimasi dengan jaringan saraf. Neural network mengambil status sebagai data masukan, dan jaringan mengeluarkan nilai-Q untuk semua kemungkinan tindakan berbeda yang mungkin dilakukan agen.

Deep Q-learning dicapai dengan menyimpan semua pengalaman masa lalu dalam memori, menghitung output maksimum untuk jaringan Q, dan kemudian menggunakan fungsi kerugian untuk menghitung perbedaan antara nilai saat ini dan nilai teoretis tertinggi yang mungkin.

Pembelajaran Penguatan Mendalam vs Pembelajaran Mendalam

Satu perbedaan penting antara pembelajaran penguatan mendalam dan pembelajaran mendalam reguler adalah bahwa dalam kasus yang pertama, input terus berubah, yang tidak terjadi dalam pembelajaran mendalam tradisional. Bagaimana model pembelajaran memperhitungkan input dan output yang terus berubah?

Pada dasarnya, untuk memperhitungkan perbedaan antara nilai prediksi dan nilai target, dua jaringan saraf dapat digunakan sebagai pengganti satu. Satu jaringan memperkirakan nilai target, sementara jaringan lain bertanggung jawab atas prediksi tersebut. Parameter jaringan target diperbarui saat model belajar, setelah sejumlah iterasi pelatihan yang dipilih telah berlalu. Output dari masing-masing jaringan kemudian digabungkan untuk menentukan perbedaannya.

Pembelajaran Berbasis Kebijakan

Pembelajaran berbasis kebijakan pendekatan beroperasi secara berbeda dari pendekatan berbasis nilai-Q. Sementara pendekatan nilai-Q menciptakan fungsi nilai yang memprediksi imbalan untuk keadaan dan tindakan, metode berbasis kebijakan menentukan kebijakan yang akan memetakan keadaan ke tindakan. Dengan kata lain, fungsi kebijakan yang memilih tindakan dioptimalkan secara langsung tanpa memperhatikan fungsi nilai.

Gradien Kebijakan

Kebijakan untuk pembelajaran penguatan mendalam termasuk dalam salah satu dari dua kategori: stokastik atau deterministik. Kebijakan deterministik adalah kebijakan di mana negara dipetakan ke tindakan, yang berarti bahwa ketika kebijakan diberikan informasi tentang suatu negara, tindakan dikembalikan. Sementara itu, kebijakan stokastik mengembalikan distribusi probabilitas untuk tindakan, bukan satu tindakan terpisah.

Kebijakan deterministik digunakan ketika tidak ada ketidakpastian tentang hasil dari tindakan yang dapat diambil. Dengan kata lain, ketika lingkungan itu sendiri bersifat deterministik. Sebaliknya, keluaran kebijakan stokastik sesuai untuk lingkungan di mana hasil tindakan tidak pasti. Biasanya, skenario pembelajaran penguatan melibatkan beberapa tingkat ketidakpastian sehingga kebijakan stokastik digunakan.

Pendekatan gradien kebijakan memiliki beberapa keunggulan dibandingkan pendekatan Q-learning, serta beberapa kelemahan. Dalam hal keuntungan, metode berbasis kebijakan menyatu pada parameter optimal lebih cepat dan lebih andal. Gradien kebijakan hanya dapat diikuti sampai parameter terbaik ditentukan, sedangkan dengan metode berbasis nilai, perubahan kecil dalam perkiraan nilai tindakan dapat menyebabkan perubahan besar dalam tindakan dan parameter terkaitnya.

Gradien kebijakan juga berfungsi lebih baik untuk ruang tindakan berdimensi tinggi. Ketika ada kemungkinan tindakan yang sangat banyak untuk diambil, Q-learning mendalam menjadi tidak praktis karena harus menetapkan skor untuk setiap kemungkinan tindakan untuk semua langkah waktu, yang mungkin tidak mungkin dilakukan secara komputasi. Namun, dengan metode berbasis kebijakan, parameter disesuaikan dari waktu ke waktu dan jumlah kemungkinan parameter terbaik menyusut dengan cepat saat model menyatu.

Gradien kebijakan juga mampu mengimplementasikan kebijakan stokastik, tidak seperti kebijakan berbasis nilai. Karena kebijakan stokastik menghasilkan distribusi probabilitas, trade-off eksplorasi/eksploitasi tidak perlu diterapkan.

Dalam hal kerugian, kerugian utama dari gradien kebijakan adalah bahwa mereka dapat terjebak saat mencari parameter optimal, hanya berfokus pada kumpulan nilai optimal lokal yang sempit, bukan nilai optimal global.

Fungsi Skor Kebijakan

Kebijakan yang digunakan untuk mengoptimalkan tujuan kinerja model untuk memaksimalkan fungsi skor - J(θ). Jika J(θ) adalah ukuran seberapa baik kebijakan kita untuk mencapai tujuan yang diinginkan, kita dapat menemukan nilai-nilai “θ” yang memberi kami kebijakan terbaik. Pertama, kita perlu menghitung imbalan polis yang diharapkan. Kami memperkirakan imbalan kebijakan sehingga kami memiliki tujuan, sesuatu untuk dioptimalkan. Fungsi Skor Kebijakan adalah cara kami menghitung imbalan kebijakan yang diharapkan, dan ada beberapa Fungsi Skor Kebijakan yang berbeda yang umum digunakan, seperti: nilai awal untuk lingkungan episodik, nilai rata-rata untuk lingkungan berkelanjutan, dan rata-rata imbalan per langkah waktu.

Pendakian Gradien Kebijakan

Pendakian gradien bertujuan untuk memindahkan parameter hingga berada di tempat skor tertinggi. Foto: Domain Publik (https://commons.wikimedia.org/wiki/File:Gradient_ascent_(surface).png)

Setelah Fungsi Skor Kebijakan yang diinginkan digunakan, dan imbalan kebijakan yang diharapkan dihitung, kita dapat menemukan nilai untuk parameter “θ” yang memaksimalkan fungsi skor. Untuk memaksimalkan fungsi skor J(θ), teknik yang disebut "pendakian gradien" digunakan. Pendakian gradien memiliki konsep yang mirip dengan penurunan gradien dalam pembelajaran mendalam, namun kami mengoptimalkan peningkatan yang paling tajam, bukan penurunan. Ini karena skor kami bukanlah “kesalahan”, seperti pada banyak soal pembelajaran mendalam. Skor kami adalah sesuatu yang ingin kami maksimalkan. Ekspresi yang disebut Teorema Gradien Kebijakan digunakan untuk memperkirakan gradien sehubungan dengan kebijakan “θ".

Ringkasan Pembelajaran Penguatan Mendalam

Singkatnya, pembelajaran penguatan yang dalam menggabungkan aspek pembelajaran penguatan dan jaringan saraf yang dalam. Pembelajaran penguatan mendalam dilakukan dengan dua teknik berbeda: Q-learning mendalam dan gradien kebijakan.

Metode Deep Q-learning bertujuan untuk memprediksi hadiah mana yang akan mengikuti tindakan tertentu yang diambil dalam keadaan tertentu, sedangkan pendekatan gradien kebijakan bertujuan untuk mengoptimalkan ruang tindakan, memprediksi tindakan itu sendiri. Pendekatan berbasis kebijakan untuk pembelajaran penguatan mendalam bersifat deterministik atau stokastik. Kebijakan deterministik memetakan negara langsung ke tindakan sementara kebijakan stokastik menghasilkan distribusi probabilitas untuk tindakan.

Berikutnya

Apa itu Pembelajaran Terpadu?

Jangan Miss

Apa itu Teorema Bayes?

Daniel Nelson

Blogger dan programmer dengan spesialisasi di Pembelajaran mesin dan Belajar mendalam topik. Daniel berharap dapat membantu orang lain menggunakan kekuatan AI untuk kebaikan sosial.