Mengapa Proses Dirichlet tidak cocok untuk aplikasi di Bayesian nonparametrics?

Sifat diskrit dari DP membuatnya tidak cocok untuk aplikasi umum dalam Bayesian nonparametrics, tetapi sangat cocok untuk masalah penempatan prior pada komponen campuran dalam pemodelan campuran.

Kutipan ini dari Hierarchical Dirichlet Processes (Teh, et al, (2006) ) dan saya mencari penjelasan tentang apa artinya. Nonparametrik Bayesian sepertinya terlalu samar untuk dipahami oleh penulis. $^{[1]}$

${[1]}$ Teh, YW, Jordan, MI, Beal, MJ, Blei, DM (2006): "Proses Dirichlet Hierarchical". Jurnal Asosiasi Statistik Amerika , 101, hlm. 1566–1581.

machine-learning mcmc dirichlet-process

— ankit
sumber

Saya percaya uraian 'diskrit' mengacu pada fakta bahwa gambar dari proses Dirichlet terpisah dengan probabilitas satu (mengikuti dari representasi tongkat pemecah DP).

— ankit

Anda harus menguraikan. Jika saya mematahkan tongkat menjadi potongan dalam beberapa cara, distribusi panjang tongkat adalah kontinu.

k

$k$

— Glen_b -Reinstate Monica

@ Glen_b: Intuisi Anda cocok dengan intuisi saya, tetapi ankit kertas yang ditautkan dengan mengatakan "yang menarik dari DP adalah diskrit (dengan probabilitas satu)". Saya tidak bisa mengikuti argumen mereka, tetapi saya menghormati penulis.

— David J. Harris

@ DavidJ.Harris ya, membaca tentang itu, tampaknya - tidak konsisten dengan cara kata 'proses' lebih sering dikaitkan dengan distribusi - mengacu pada apa yang saya sebut sesuatu seperti 'proses multinomial' atau 'multinomial campuran ', karena output adalah kategorinya. (Skema penamaan ini akan seperti merujuk pada waktu antar peristiwa sebagai 'proses Poisson', daripada menghitung jumlah peristiwa seperti biasanya, atau mungkin merujuk pada proses Bernoulli sebagai 'proses beta' karena ada beta sebelum pada probabilitas Bernoulli.)

— Glen_b -Reinstate Monica

Itu tergantung pada apakah Anda berpikir bilangan real "tak terhingga" mewakili angka sebenarnya. Saya akan berpikir bahwa itu benar, sehingga memberikan argumen terhadap klaim di atas.

— probabilityislogic

Dengan probabilitas satu, realisasi dari Proses Dirichlet adalah ukuran probabilitas diskrit. Bukti yang kuat dapat ditemukan di

Blackwell, D. (1973). "Discreteness of Ferguson Selections", The Annals of Statistics, 1 (2): 356–358.

Representasi tongkat dari Proses Dirichlet membuat properti ini transparan.

Gambar independen , untuk . $B_i\sim\mathrm{Beta}(1,c)$ $i\geq 1$
Tentukan dan , untuk . $P_1=B_1$ $P_i=B_i \prod_{j=1}^{i-1}(1-B_j)$ $i>1$
Gambar independen , untuk . $Y_i\sim F$ $i\geq 1$
Sethuraman membuktikan bahwa fungsi distribusi diskrit merupakan realisasi dari Proses sebuah Dirichlet dengan parameter konsentrasi dan berpusat di fungsi distribusi .
$G (t, ω) = \sum_{i = 1}^{\infty} P_{i} (ω) I_{[Y_{i} (ω), \infty)} (t)$ $G(t,\omega)=\sum_{i=1}^\infty P_i(\omega) I_{[Y_i(\omega),\infty)}(t)$ $c$ $F$

The harapan dari Dirichlet proses-proses ini hanya , dan ini mungkin fungsi distribusi dari variabel acak kontinu. Tetapi, jika variabel acak membentuk sampel acak dari Proses Dirichlet ini, harapan posterior adalah ukuran probabilitas yang menempatkan massa positif pada setiap titik sampel. $F$ $X_1,\dots,X_n$

Mengenai pertanyaan awal, Anda dapat melihat bahwa Proses Dirichlet polos mungkin tidak cocok untuk memodelkan beberapa masalah nonparametrik Bayesian, seperti masalah estimasi kepadatan Bayesian, tetapi ekstensi yang sesuai dari Proses Dirichlet tersedia untuk menangani kasus-kasus ini.

— Zen
sumber

Mengapa memperkirakan kepadatan dengan distribusi diskret tidak baik? Apakah ini berarti quadrature juga buruk dan tidak pantas?

— probabilityislogic

Saya tidak mengatakan itu "buruk". Tetapi anggaplah Anda memiliki informasi sebelumnya yang bagus tentang kelancaran kerapatan acak. Anda tidak dapat menggunakan informasi sebelumnya ini jika Anda memodelkan dengan DP polos. Itulah hal yang saya pikirkan.

— Zen

Saya tidak setuju - kelancaran dapat dikontrol oleh pemilihan parameter konsentrasi, dan oleh bentuk distribusi basis.

— probabilityislogic

Jika Anda memodelkan dengan DP asli, menggunakan ukuran dasar apa pun, distribusi posterior tidak pernah memiliki kepadatan sehubungan dengan pengukuran Lebesgue.

— Zen

Anda bingung memiliki kepadatan dengan menjadi halus - distribusi diskrit tidak memiliki kepadatan juga, tetapi itu tidak berarti itu tidak mulus - misalnya binomial (n, p) dengan n besar pada dasarnya sehalus normal pdf

— probabilityislogic