Apakah mungkin untuk menerapkan divergensi KL antara distribusi diskrit dan kontinu?

12

Saya bukan ahli matematika. Saya telah mencari di internet tentang KL Divergence. Apa yang saya pelajari adalah divergensi KL mengukur informasi yang hilang ketika kami memperkirakan distribusi model sehubungan dengan distribusi input. Saya telah melihat ini di antara dua distribusi kontinu atau diskrit. Bisakah kita melakukannya antara terus menerus dan terpisah atau sebaliknya?

distributions mathematical-statistics kullback-leibler

— prakash
sumber

Terkait: stats.stackexchange.com/q/6907/2970

— kardinal

4

Tidak: Divergensi KL hanya didefinisikan pada distribusi di atas ruang umum. Ia bertanya tentang kepadatan probabilitas suatu titik bawah dua distribusi yang berbeda, dan . Jika adalah distribusi pada dan distribusi pada , maka tidak masuk akal untuk poin dan tidak masuk akal untuk poin $x$ $p(x)$ $q(x)$ $p$ $\mathbb{R}^3$ $q$ $\mathbb{Z}$ $q(x)$ $p \in \mathbb{R}^3$ $p(z)$ $z \in \mathbb{Z}$ . Faktanya, kita bahkan tidak dapat melakukannya untuk dua distribusi kontinu pada ruang berdimensi berbeda (atau diskrit, atau kasus di mana ruang probabilitas yang mendasari tidak cocok).

Jika Anda memiliki kasus tertentu dalam benak Anda, mungkin saja muncul beberapa ketidaksamaan antara distribusi. Sebagai contoh, masuk akal untuk menyandikan distribusi kontinu di bawah kode untuk satu diskrit (jelas dengan informasi yang hilang), misalnya dengan membulatkan ke titik terdekat dalam kasus diskrit.

— Dougal
sumber

Perhatikan bahwa perbedaan KL antara distribusi diskrit dan benar-benar kontinu didefinisikan dengan baik.

— Olivier

@ Olivier Definisi yang biasa membutuhkan ukuran yang umum, bukan?

— Dougal

1

Anda benar ketika P dan Q didefinisikan pada ruang yang berbeda. Tetapi pada ruang terukur yang umum, ukuran seperti itu selalu ada (ambil P + Q misalnya), dan divergensi KL tidak tergantung pada pilihan tertentu dari ukuran yang mendominasi.

— Olivier

8

Ya, perbedaan KL antara variabel acak kontinu dan diskrit didefinisikan dengan baik. Jika dan adalah distribusi pada beberapa ruang , maka dan memiliki kepadatan , sehubungan dengan dan $P$ $Q$ $\mathbb{X}$ $P$ $Q$ $f$ $g$ $\mu = P+Q$

D_{K L} (P, Q) = \int_{X} f \log \frac{f}{g} d μ .

$D_{KL}(P,Q) = \int_{\mathbb{X}} f \log\frac{f}{g}d\mu.$

$\mathbb{X} = [0,1]$ $P$ $Q = \delta_0$ $0$ $f(x) = 1-\mathbb{1}_{x=0}$ $g(x) = \mathbb{1}_{x=0}$

D_{K L} (P, Q) = \infty .

$D_{KL}(P, Q) = \infty.$

— Olivier
sumber

\int_{X} f \log \frac{f}{g} d μ

$\int_{\mathbb{X}} f \log\frac{f}{g}d\mu$

Ubah teorema ukuran.

— Olivier

1

Tidak secara umum. Perbedaan KL adalah

D_{K L} (P | | Q) = \int_{X} \log (\frac{d P}{d Q}) d P

$D_{KL}(P \ || \ Q) = \int_{\mathcal{X}} \log \left(\frac{dP}{dQ}\right)dP$

$P$ $Q$ $P$ $Q$ $\sigma$ $\frac{dP}{dQ}$

$\sigma$

— jtobin
sumber