REINFORCMENT LEARNING
Metode pembelajaran pada A.I mengenai apa yang mesti dilakukan (mengimplementasikan aksi ke dalam situasi) pada sebuah masalah/problem untuk mendapat hasil/reward yang maksimal.
Elemen Pada Reinforcement Learning
1. Policy
Policy adalah cara suatu agent untuk berperilaku pada sebuah situasi. Dengan kata lain, elemen ini adalah pemetaan aksi yang akan diambil oleh sang agent, lalu diimpementasikan pada suatu situasi.
2. Reward Function
Element ini didefinisikan sebagai goal/tujuan yang ingin dicapai sebuah agent. Dalam proses ini agent akan memaksimalkan reward dari aksi yang sudah dilakukan. Reward Function akan menjadi acuan agent mengenai mana yang baik dan yang buruk.
3. Value Function
Jika Reward Function mendefinisikan hasil yang terbaik saat itu juga, pada Value Function ini agent akan mempertimbangkan hasil yang terbaik untuk jangka panjang. Atau dalam kata lain, nilai sebuah keadaan (state) adalah jumlah total reward yang bisa dikumpulkan agent hingga masa berikutnya, dimulai dari keadaan(state) tersebut. Reward didapatkan langsung dari lingkungan (environment), sedangkan Value harus diestimasi secara menerus dari hasil pengamatan si agent.
4. Environment Model
Pada element ini, agent akan memprediksi keadaan dan reward selanjutnya. Element ini digunakan untuk perencanaan atau dalam kata lain, agent akan memutuskan aksi dengan mempertimbangkan kemungkinan situasi di masa yang akan datang.
Bagaimana cara Agent menemukan Aksi yang tepat?
Pada awalnya Agent tidak diberi clue mengenai aksi apa yang harus dilakukan. Agent akan mempelajari aksi dengan prinsip Trial and Error, lalu mengambil keputusan berdasarkan reward yang didapatkan(reward maksimal).
Algoritma Reinforcement Learning
Q-learning dan SARSA
State Action Reward State Action adalah dua algoritma RL bebas model yang umum digunakan. Mereka berbeda dalam hal strategi eksplirasi mereka sementara strategi eksplorasi mereka sementara strategi eksploitasi mereka serupa
- Q-Learning adalah metode di luar kebijakan dimana agen mempelajari nilai (Value) berdasarkan tindakan a* yang diturunkan dari kebijakan (Policy) lain,
- SARSA adalah metode sesuai kebijakan dimana agen mempelajari nilai berdasarkan tindakan saat ini yang diperoleh dari kebijakan saat ini.
Q-LEARNING
Langkah-langkah algoritma:
Langka 1 : Inisialisasi
Inisialisasi semua nilai Q dalam tabel Q ke 0, agen tidak memiliki pengetahuan tentang lingkungan termpatnya berada.
Langkah 2 : Jelajahi Ruang
Masalah Eksplorasi vs Eksploitasi, agen harus terus menjelajahi lingkungan dengan mengeksekusi tindakan diwilahnya.
Langkah 3 : Amati Imbalannya (reward)
Setelah menjelajahi, agen akan mengamati hadiah apa yang didapatnya dari mengeksekusu tindakan tertentu (at) di status (st) untuk pergi ke status berikutnya (st+1).
Langkah 4 : Perbaharui fungsi nilai
Setelah mengamati hadiah (reward), agen kemudian memperbaharui fungsi nilai untuk keadaan tertentu dan pasangan tindakan menggunakan rumus berikut, ini mengembalikan tabel-Q yang diperbaharui.
-(alpha) adalah tingkat pembelajaran (0<alpha<1) - Sama seperti dalam pengaturan pembelajaran yang diawasi, adalah sejauh mana nilai-Q kami diperbaharui di setiap iterasi.
-(gamma) adalah faktor diskontinu(0<=gamma<=1) - menentikan seberapa penting kita ingin memberikan imbalan di masa mendatang. Nilai tinggi untuk faktor diskon (mendekati 1) menangkap penghargaan efektif jangka panjang, sedangkan faktor diskon 0 membuat agen kami hanya mempertimbangkan imbalan langsung, sehingga membuatnya serakah.
Tidak ada komentar:
Posting Komentar