Rasio probabilitas vs rasio PDF

Saya menggunakan Bayes untuk memecahkan masalah pengelompokan. Setelah melakukan beberapa perhitungan saya berakhir dengan kebutuhan untuk mendapatkan rasio dua probabilitas:

P (A) / P (B)

$P(A)/P(B)$

untuk dapat memperoleh . Probabilitas ini diperoleh dengan mengintegrasikan dua KDE multivarian 2D berbeda seperti yang dijelaskan dalam jawaban ini : $P(H|D)$

P (A) = \iint_{x, y : \hat{f} (x, y) < \hat{f} (r_{a}, s_{a})} \hat{f} (x, y) d x d y

$P(A) = \iint_{x, y : \hat{f}(x, y) < \hat{f}(r_a, s_a)} \hat{f}(x,y)\,dx\,dy$

P (B) = \iint_{x, y : \hat{g} (x, y) < \hat{g} (r_{b}, s_{b})} \hat{g} (x, y) d x d y

$P(B) = \iint_{x, y : \hat{g}(x, y) < \hat{g}(r_b, s_b)} \hat{g}(x,y)\,dx\,dy$

di mana $\hat{f}(x, y)$ dan $\hat{g}(x, y)$ adalah KDE dan integrasi dilakukan untuk semua titik di bawah ambang batas $\hat{f}(r_a, s_a)$ dan $\hat{g}(r_b, s_b)$ . Kedua KDE menggunakan kernel Gaussian . Gambar representatif dari KDE yang mirip dengan yang saya kerjakan dapat dilihat di sini: Mengintegrasikan penduga kepadatan kernel dalam 2D .

Saya menghitung KDE dengan menggunakan pythonfungsi stats.gaussian_kde , jadi saya menganggap bentuk umum sebagai berikut:

K D E (x, y) = \frac{1}{n} \sum_{i = 1}^{n} - \frac{1}{2 h^{2}} e^{- \frac{(x - x_{i})^{2} + (y - y_{i})^{2}}{2 h^{2}}}

$KDE(x,y) = \frac{1}{n} \sum_{i=1}^{n} -\frac{1}{2h^2} e^{-\frac{(x-x_i)^2 + (y-y_i)^2}{2h^2}}$

di mana npanjang array poin saya dan hbandwidth yang digunakan.

Integral di atas dihitung menggunakan proses Monte Carlo yang secara komputasi cukup mahal. Saya telah membaca di suatu tempat (lupa di mana, maaf) bahwa dalam kasus seperti ini dimungkinkan untuk mengganti rasio probabilitas dengan rasio PDF (KDE) yang dievaluasi pada titik ambang untuk mendapatkan hasil yang sama-sama valid. Saya tertarik dengan ini karena menghitung rasio KDEs adalah urutan besarnya lebih cepat daripada menghitung rasio integral dengan MC.

Jadi pertanyaannya direduksi menjadi validitas ungkapan ini:

\frac{P (A)}{P (B)} = \frac{\hat{f} (r_{a}, s_{a})}{\hat{g} (r_{b}, s_{b})}

$\frac{P(A)}{P(B)} = \frac{\hat{f}(r_a, s_a)}{\hat{g}(r_b, s_b)}$

Dalam keadaan apa, jika ada, dapatkah saya mengatakan bahwa hubungan ini benar?

[kesalahan ketik tetap (EDIT)]

Tambahkan :

Ini pada dasarnya pertanyaan yang sama tetapi dibuat dalam bentuk yang lebih matematis .

— Gabriel
sumber

Perhatikan bahwa keberadaan yang sesuai dipastikan oleh teorema bernilai rata-rata untuk integral.

r_{a, b}, s_{a, b}

$r_{a,b}, s_{a,b}$

— Dave

Saya percaya Mills Ratio mungkin relevan.

— whuber

@whuber bahwa rasio tampaknya mengharuskan saya tahu nilai P(X)yang saya coba hindari menghitung. Bisakah Anda memperluas sedikit pada relevansi parameter itu?

— Gabriel

KDE adalah campuran dari distribusi Normal. Mari kita lihat satu pun dari mereka.

Definisi dan menunjukkan nilainya invarian di bawah terjemahan dan skala di pesawat, sehingga cukup untuk mempertimbangkan distribusi Normal standar dengan PDF . Ketimpangan $P(A)$ $P(B)$ $f$

f (x, y) \leq f (r, s)

$f(x,y) \le f(r,s)$

setara dengan

x^{2} + y^{2} \geq r^{2} + s^{2} .

$x^2 + y^2 \ge r^2 + s^2.$

Memperkenalkan koordinat kutub memungkinkan integral untuk ditulis ulang $\rho, \theta$

P (r, s) = \frac{1}{2 π} \int_{0}^{2 π} \int_{\sqrt{r^{2} + s^{2}}}^{\infty} ρ \exp (- ρ^{2} / 2) d ρ d θ = \exp (- (r^{2} + s^{2}) / 2) = 2 π f (r, s) .

$P(r,s) = \frac{1}{2\pi}\int_0^{2\pi}\int_\sqrt{r^2+s^2}^\infty \rho \exp(-\rho^2/2) d\rho d\theta= \exp(-(r^2+s^2)/2) = 2\pi f(r,s).$

Sekarang perhatikan campurannya. Karena itu linear,

\begin{aligned} P (r, s) & = \frac{1}{n} \sum_{i} 2 π f ((r - x_{i}) / h, (s - y_{i}) / h) \\ = 2 π h^{2} (\frac{1}{n} \sum_{i} \frac{1}{h^{2}} f ((r - x_{i}) / h, (s - y_{i}) / h)) \\ = 2 π h^{2} K D E (r, s) . \end{aligned}

$\eqalign{ P(r,s) &= \frac{1}{n}\sum_i 2\pi f((r-x_i)/h, (s-y_i)/h) \\ &= 2\pi h^2\left(\frac{1}{n}\sum_i \frac{1}{h^2} f((r-x_i)/h, (s-y_i)/h)\right) \\ &=2\pi h^2 KDE(r,s). }$

Memang, dan adalah proporsional. Konstanta proporsionalitas adalah . $f$ $P$ $2\pi h^2$

Bahwa hubungan proporsionalitas antara dan adalah istimewa $P$ $f$ dapat dihargai dengan merenungkan contoh tandingan sederhana. Biarkan memiliki distribusi seragam pada set terukur dari unit unit dan memiliki distribusi seragam pada set terukur yang terpisah dari dan memiliki area . Kemudian campuran dengan PDF memiliki nilai konstan pada , pada , dan nol di tempat lain. Ada tiga kasus yang perlu dipertimbangkan: $f_1$ $A_1$ $f_2$ $A_2$ $A_1$ $\mu\gt 1$ $f=f_1/2 + f_2/2$ $1/2$ $A_1$ $1/(2\mu)$ $A_2$

$(r,s)\in A_1$ . Di sini mencapai maksimum, di mana . Rasio . $f(r,s)=1/2$ $P(r,s)=1$ $f(r,s)/P(r,s) = 1/2$
$(r,s)\in A_2$ . Di sini benar-benar kurang dari tetapi lebih besar dari . Dengan demikian wilayah integrasi adalah pelengkap dan integral yang dihasilkan harus sama dengan . Rasio . $f(r,s)$ $1/2$ $0$ $A_1$ $1/2$ $f(r,s)/P(r,s) = (1/(2\mu))/(1/2) = 1/\mu$
Di tempat lain, adalah nol dan integral adalah nol. $f$ $P$

Jelas rasio (di mana itu didefinisikan) tidak konstan dan bervariasi antara dan . Meskipun distribusi ini tidak kontinu, itu dapat dilakukan dengan menambahkan distribusi Normal ke dalamnya. Dengan membuat kedua nilai eigen dari kecil, ini akan mengubah distribusi sangat sedikit dan menghasilkan hasil yang sama secara kualitatif - hanya sekarang nilai rasio akan mencakup semua angka dalam interval . $1$ $1/\mu \ne 1$ $(0,\Sigma)$ $\Sigma$ $f/P$ $[1,1/\mu]$

Hasil ini juga tidak menggeneralisasi ke dimensi lain. Pada dasarnya perhitungan yang sama yang memulai jawaban ini menunjukkan bahwa adalah fungsi Gamma yang tidak lengkap dan yang jelas tidak sama dengan . Bahwa dua dimensi khusus dapat dihargai dengan mencatat bahwa integrasi dalam pada dasarnya menyangkut jarak dan ketika mereka terdistribusi secara normal, fungsi jarak memiliki - yang merupakan distribusi eksponensial. Fungsi eksponensial adalah unik karena sebanding dengan turunan sendiri - mana integran dan integral harus proporsional. $P$ $f$ $P$ $\chi^2(2)$ $f$ $P$

— whuber
sumber

Ini adalah jawaban yang luar biasa, terima kasih banyak. Butuh beberapa saat untuk memproses sepenuhnya semua yang Anda tulis di sini, tetapi saya sepenuhnya percaya pada Anda perhitungan yang berarti saya telah menandai pertanyaan sebagai terselesaikan. Bersulang.

— Gabriel