Contoh kehidupan nyata dari Proses Keputusan Markov

Saya telah menonton banyak video tutorial dan terlihat sama. Yang ini misalnya: https://www.youtube.com/watch?v=ip4iSMRW5X4

Mereka menjelaskan keadaan, tindakan dan probabilitas yang baik-baik saja. Orang itu menjelaskannya baik-baik saja tetapi sepertinya saya tidak bisa memahami apa yang akan digunakan dalam kehidupan nyata. Saya belum menemukan daftar apa pun. Yang paling umum yang saya lihat adalah catur.

Bisakah itu digunakan untuk memprediksi sesuatu? Kalau begitu apa jenis barangnya? Bisakah ia menemukan pola di antara jumlah data yang tak terbatas? Apa yang bisa dilakukan algoritma ini untuk saya.

Bonus: Ini juga terasa seperti MDP adalah tentang berpindah dari satu negara ke negara lain, apakah ini benar?

markov-process

— Karl Morrison
sumber

Sebuah Proses Keputusan Markov memang harus dilakukan dengan pergi dari satu negara ke negara lain dan terutama digunakan untuk perencanaan dan pengambilan keputusan .

Teori

Mengulang teori dengan cepat, MDP adalah:

MDP = ⟨ S, SEBUAH, T, R, γ ⟩

$\text{MDP} = \langle S,A,T,R,\gamma \rangle$

di mana adalah status, tindakan, probabilitas transisi (yaitu probabilitas untuk berpindah dari satu kondisi ke kondisi lain yang diberikan tindakan), imbalannya (diberikan kondisi tertentu, dan mungkin action), dan adalah faktor diskon yang digunakan untuk mengurangi pentingnya imbalan di masa mendatang. $S$ $A$ $T$ $Pr(s'|s, a)$ $R$ $\gamma$

Jadi untuk menggunakannya, Anda harus memiliki standar:

Negara : ini dapat merujuk pada misalnya peta kotak dalam robotika, atau misalnya pintu terbuka dan pintu tertutup .
Tindakan : serangkaian tindakan tetap, seperti misalnya pergi ke utara, selatan, timur, dll untuk robot, atau membuka dan menutup pintu.
Probabilitas transisi : probabilitas untuk berpindah dari satu kondisi ke kondisi lain yang diberikan tindakan. Misalnya, berapa probabilitas pintu terbuka jika aksinya terbuka . Di dunia yang sempurna nanti bisa jadi 1.0, tetapi jika itu adalah robot, itu bisa gagal dalam menangani kenop pintu dengan benar. Contoh lain dalam kasus robot yang bergerak adalah aksi utara , yang dalam banyak kasus akan membawanya di sel grid utara, tetapi dalam beberapa kasus bisa bergerak terlalu banyak dan mencapai sel berikutnya misalnya.
Hadiah : ini digunakan untuk memandu perencanaan. Dalam contoh grid, kita mungkin ingin pergi ke sel tertentu, dan hadiahnya akan lebih tinggi jika kita semakin dekat. Dalam kasus contoh pintu, pintu terbuka mungkin memberi hadiah tinggi.

Setelah MDP didefinisikan, kebijakan dapat dipelajari dengan melakukan Iterasi Nilai atau Iterasi Kebijakan yang menghitung imbalan yang diharapkan untuk masing-masing negara. The kebijakan kemudian memberikan per negara terbaik (diberikan model MDP) tindakan untuk melakukan.

Singkatnya, MDP berguna ketika Anda ingin merencanakan urutan tindakan yang efisien di mana tindakan Anda tidak selalu 100% efektif.

Pertanyaan Anda

Bisakah itu digunakan untuk memprediksi sesuatu?

Saya akan menyebutnya perencanaan, bukan memprediksi seperti regresi misalnya.

Kalau begitu apa jenis barangnya?

Lihat contoh .

Bisakah ia menemukan pola di antara jumlah data yang tak terbatas?

MDP digunakan untuk melakukan Penguatan Pembelajaran , untuk menemukan pola yang Anda butuhkan Pembelajaran Tanpa Pengawasan . Dan tidak, Anda tidak dapat menangani jumlah data yang tak terbatas. Sebenarnya, kompleksitas menemukan kebijakan tumbuh secara eksponensial dengan jumlah negara. $|S|$

Apa yang bisa dilakukan algoritma ini untuk saya.

Lihat contoh .

Contoh Aplikasi MDP

White, DJ (1993) menyebutkan daftar besar aplikasi:
- Pemanenan: berapa banyak anggota populasi yang harus dibiarkan berkembang biak.
- Pertanian: berapa banyak menanam berdasarkan cuaca dan keadaan tanah.
- Sumber daya air: jaga ketinggian air yang benar di reservoir.
- Inspeksi, pemeliharaan, dan perbaikan: kapan harus mengganti / memeriksa berdasarkan usia, kondisi, dll.
- Pembelian dan produksi: berapa banyak untuk diproduksi berdasarkan permintaan.
- Antrian: kurangi waktu tunggu.
- ...
Keuangan: memutuskan berapa banyak berinvestasi dalam saham.
Robotika:
- Sistem dialog untuk berinteraksi dengan orang-orang .
- Robot bartender .
- Eksplorasi robot untuk navigasi .
- ..

Dan ada beberapa model lagi. Model yang bahkan lebih menarik adalah Proses Keputusan Markovian yang Dapat Diobservasi Sebagian di mana negara bagian tidak sepenuhnya terlihat, dan sebaliknya, pengamatan digunakan untuk mendapatkan gambaran tentang keadaan saat ini, tetapi ini di luar ruang lingkup pertanyaan ini.

informasi tambahan

Proses stokastik adalah Markovian (atau memiliki properti Markov) jika distribusi probabilitas bersyarat dari keadaan masa depan hanya bergantung pada keadaan saat ini, dan bukan pada yang sebelumnya (yaitu tidak pada daftar keadaan sebelumnya).

— agold
sumber

Ini mungkin jawaban yang paling jelas yang pernah saya lihat di Cross Validated.

— Hidden Markov Model

Apakah ada peluang Anda dapat memperbaiki tautan? Beberapa dari mereka tampak rusak atau ketinggalan jaman.

— ComputerScientist

Jadi setiap proses yang memiliki states, actions, transition probabilitiesdan rewardsdidefinisikan akan disebut sebagai Markov?

— Suhail Gupta