Apa artinya sampel vektor probabilitas dari distribusi Dirichlet?


8

Saya pada dasarnya belajar tentang Alokasi Dirichlet Laten. Saya menonton video di sini: http://videolectures.net/mlss09uk_blei_tm/ dan macet di menit 45 ketika dia mulai menjelaskan tentang pengambilan sampel dari distribusi.

Saya juga mencoba membaca buku pembelajaran mesin yang tidak memiliki pengantar terperinci tentang distribusi Dirichelt. Dalam buku yang saya baca itu disebutkan contoh pengambilan sampel "vektor probabilitas" dari distribusi Dirichlet, tetapi apa artinya itu?

Saya mengerti pengambilan sampel dari suatu distribusi sebagai mendapatkan nilai acak untuk variabel acak sesuai dengan distribusi. Jadi biarkan p_X, Y (x, y) tetapi PMF dari distribusi apa pun, pengambilan sampel dari distribusi ini berarti saya mendapatkan acak (x, y) (yaitu nilai acak untuk x dan y). Untuk mendapatkan kemungkinan mendapatkan acara (X = x DAN Y = y) kami mengevaluasi PMF dari distribusi ... jadi kami hanya mendapatkan satu nomor. Tapi apa itu "vektor probabilitas" di sini !!

Saya melampirkan tangkapan layar untuk buku itu. Saya sangat berharap Anda dapat membantu!

masukkan deskripsi gambar di sini


2
Saya kira vektor probabilitas adalah apa yang Anda sampel dengan distribusi Dirichlet. Contoh: (0,5, 0,4, 0,1) adalah vektor dan digunakan untuk mewakili proporsi / probabilitas distribusi variabel dengan 3 kelas.
Gores

@ Gores ketika Anda mengatakan 3 kelas, itu berarti variabel acak hanya ditentukan pada 3 nilai diskrit, bukan?
Jack Twain

1
Jadi pada dasarnya setiap sampel dari balon mewakili distribusi dari kelas K.
Jack Twain

2
ya distribusi Dirichlet dibuat untuk jenis masalah ini: mensimulasikan distribusi di kelas.
Gores

@ Scratch dapatkah Anda melihat pertanyaan saya di sini stats.stackexchange.com/questions/81136/…
Jack Twain

Jawaban:


8

Distribusi Dirichlet sering digunakan untuk mengkategorikan peristiwa secara probabilistik di antara beberapa kategori. Misalkan peristiwa cuaca mengambil distribusi Dirichlet. Kita kemudian mungkin berpikir bahwa cuaca besok memiliki kemungkinan cerah sama dengan 0,25, probabilitas hujan sama dengan 0,5, dan probabilitas salju sama dengan 0,25. Mengumpulkan nilai-nilai ini dalam vektor menciptakan vektor probabilitas.

Cara lain untuk berpikir tentang distribusi Dirichlet adalah proses mematahkan tongkat. Bayangkan sebuah tongkat dengan panjang satuan. Hancurkan tongkat itu di mana saja dan pertahankan salah satu dari dua potong itu. Kemudian pecahkan bagian yang tersisa menjadi dua bagian dan lanjutkan ini selama yang Anda inginkan. Semua potongan harus dijumlahkan menjadi satuan panjang, dan mengalokasikan potongan dengan panjang yang berbeda untuk acara yang berbeda mewakili kemungkinan kejadian itu.

Jika Anda terbiasa dengan distribusi beta, distribusi Dirichlet mungkin menjadi lebih jelas. Distribusi beta sering digunakan untuk menggambarkan distribusi probabilitas kejadian dikotomis, sehingga terbatas pada interval unit. Misalnya, untuk uji coba Bernoulli, hanya ada parameter menggambarkan probabilitas "kesuksesan". Seringkali kita berpikir tentang sebagai diperbaiki, tetapi jika kita tidak yakin tentang nilai "benar" dari , kita bisa berpikir tentang distribusi dari semua kemungkinan s, dengan kemungkinan yang lebih besar bagi mereka yang kita anggap lebih masuk akal, sehingga mungkin , di manaθθθθθB(α,β)α>ββ>α memusatkan lebih banyak massa dekat 0.

Orang mungkin keberatan bahwa distribusi beta hanya menggambarkan probabilitas probabilitas tunggal, yaitu, misalnya, bahwa , yang merupakan angka skalar. Tetapi perlu diingat bahwa distribusi beta menggambarkan hasil dikotomis . Jadi dengan menerapkan aksioma kedua Kolmogorov, kita juga tahu bahwa juga. Mengumpulkan hasil ini dalam vektor memberi kita vektor probabilitas.P(θ<0.25)=0.5P(θ0.25)=0.5

Memperluas distribusi beta ke dalam tiga kategori atau lebih memberi kita distribusi Dirichlet; memang, PDF dari Dirichlet untuk dua kelompok sama persis dengan distribusi beta.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.