Bagaimana cara membuktikan ketimpangan Gaussian Mixture ini? (Pas / Overfitting)

Biarkan f [x] menjadi Gaussian Mixture pdf dengan n syarat bobot seragam, berarti , dan varians yang sesuai : $\{\mu_{1},...,\mu_{n}\}$ $\{\sigma_{1},...,\sigma_{n}\}$

f (x) \equiv \frac{1}{n} \sum_{saya = 1}^{n} \frac{1}{\sqrt{2 π σ_{saya}^{2}}} e^{- \frac{(x - μ_{saya})^{2}}{2 σ_{saya}^{2}}}

$f(x)\equiv\frac{1}{n}\sum_{i=1}^{n}\frac{1}{\sqrt{2\pi\sigma_{i}^{2}}}e^{-\frac{(x-\mu_{i})^{2}}{2\sigma_{i}^{2}}}$

Tampaknya intuitif bahwa kemungkinan log yang diambil sampel di pusat Gaussian akan lebih besar daripada (atau sama dengan) kemungkinan log rata-rata:

\frac{1}{n} \sum_{j = 1}^{n} l n (f (μ_{j})) \geq \int f (x) l n (f (x)) d x

$\frac{1}{n}\sum_{j=1}^{n}ln(f(\mu_{j}))\geq\int f(x)ln(f(x))dx$

Ini jelas benar untuk varian kecil (masing-masing berada di atas Gaussian sempit) dan untuk varian yang sangat besar (semua di atas satu Gaussian luas bersama-sama), dan memang benar untuk setiap set dan telah saya buat dan optimalkan, tetapi saya tidak dapat menemukan cara untuk membuktikan bahwa itu selalu benar. Tolong? $\mu_{i}$ $\mu_{i}$ $\mu_i$ $\sigma_i$

machine-learning gaussian-mixture

— Jerry Guern
sumber

Anda mungkin melewatkan harapan pada lhs?

— lacerbi

@ lacerbi Tidak, saya tidak. Tidak ada yang hilang. Di LHS, yang dievaluasi pada diindeks 's

f (x)

$f(x)$

x_{i}

$x_i$

— Jerry Guern

Ya, maaf - saya terlalu mengantuk dan saya salah membaca definisi.

— lacerbi

Jawaban:

Ini lebih merupakan komentar yang diperluas, jadi anggaplah demikian. Definisikan: (saya menggunakan standar notasi untuk distribusi Gaussian).

f (x) \equiv \frac{1}{n} \sum_{saya = 1}^{n} N (x | x_{saya}, σ_{saya}^{2})

$f(x) \equiv \frac{1}{n} \sum_{i = 1}^n \mathcal{N}\left(x | x_i, \sigma_i^2 \right)$

Anda ingin membuktikan bahwa: yang

\frac{1}{n} \sum_{saya = 1}^{n} catatan f (x_{saya}) - \int f (x) catatan f (x) d x \geq 0

$\frac{1}{n} \sum_{i = 1}^n \log f(x_i) - \int f(x) \log f(x) dx \ge 0$

{\frac{1}{n} \sum_{saya = 1}^{n} catatan f (x_{saya})} + H [f] \geq 0.

$\left\{\frac{1}{n} \sum_{i = 1}^n \log f(x_i)\right\} + \mathcal{H}[f] \ge 0.$

Karena ketidaksetaraan Jensen (lihat misalnya Huber et al., Tentang Entropy Approximation for Gaussian Mixture Random Vektor, 2008 ), dengan , yang berasal dari konvolusi dua kepadatan Gaussian. Jadi kita dapatkan: Menariknya, masih merupakan campuran dari Gaussians dengan rata-rata komponen sama dengan yang ada di

H [f] \geq - \frac{1}{n} \sum_{saya = 1}^{n} catatan \int f (x) N (x | x_{saya}, σ_{saya}^{2}) d x = - \frac{1}{n} \sum_{saya = 1}^{n} catatan g_{saya} (x_{saya})

$\mathcal{H}[f] \ge -\frac{1}{n} \sum_{i = 1}^n \log \int f(x) \mathcal{N}(x | x_i, \sigma_i^2) dx = -\frac{1}{n} \sum_{i = 1}^n \log g_i(x_i)$

g_{i} (x) \equiv \frac{1}{n} \sum_{j = 1}^{n} N (x | x_{j}, σ_{i}^{2} + σ_{j}^{2})

$g_i(x) \equiv \frac{1}{n} \sum_{j = 1}^n \mathcal{N}\left(x | x_j, \sigma_i^2 + \sigma_j^2 \right)$

{\frac{1}{n} \sum_{saya = 1}^{n} catatan f (x_{saya})} + H [f] \geq \frac{1}{n} \sum_{saya = 1}^{n} catatan \frac{f (x_{saya})}{g_{saya} (x_{saya})} .

$\left\{\frac{1}{n} \sum_{i = 1}^n \log f(x_i) \right\} + \mathcal{H}[f] \ge \frac{1}{n} \sum_{i = 1}^n \log \frac{f(x_i)}{g_i(x_i)}.$

g_{i}

$g_i$

f

$f$ , tetapi masing-masing komponen memiliki varians yang benar-benar lebih besar daripada komponen terkait di . Bisakah Anda melakukan sesuatu dengan ini?

g_{i}

$g_i$

f

$f$

— Lacerbi
sumber

Terima kasih. Sepertinya saya baru saja membuktikan bahwa RHS akhir adalah> = 0, yang juga terlihat intuitif tetapi sulit untuk dibuktikan, tetapi ini memang merupakan langkah ke arah yang benar. Saya pernah melihat kertas itu sebelumnya.

— Jerry Guern

Sangat menggoda untuk berpikir bahwa RHS akhir selalu positif, tetapi saya juga tidak dapat membuktikannya.

— Jerry Guern

Saya rasa saya mengerti. Hanya diperlukan langkah-langkah dasar, meskipun Anda harus menggabungkannya dengan benar.

Mari kita dengan kepadatan -th Gaussian, yaitu $f_i$ $i$ $\frac{1}{\sqrt{2\pi \sigma_i^2}}e^{\frac{(x-\mu_i)^2}{2\sigma_i^2}}$

Kami mulai dengan Ketimpangan Jensen. Fungsi adalah cembung, maka kita memiliki: . Setelah mengintegrasikan kita mendapatkan: Edit : Ketidaksamaan di bawah ini salah dan begitu juga solusinya $g(x) = x log(x)$ $f(x) \log(f(x)) \leq \frac{1}{n}\sum_{i=1}^n f_i(x) \log(f_i(x))$

\int f (x) catatan (f (x)) d x \leq \frac{1}{n} \sum_{saya = 1}^{n} \int f_{saya} (x) catatan (f_{saya} (x)) d x

$\int f(x)\log(f(x)) dx \leq \frac{1}{n} \sum_{i=1}^n \int f_i(x) \log(f_i(x)) dx$

Sekarang RHS. Untuk semua kita memiliki , jadi: Oleh karena itu: Kita dibiarkan membuktikan: Tetapi kami memiliki: Menjumlahkan dan membaginya dengan kita mendapatkan apa kami membutuhkan $i$ $f \geq f_i$

l Hai g (f (μ_{saya})) \geq l Hai g (f_{saya} (μ_{saya}))

$log(f(\mu_i)) \geq log(f_i(\mu_i))$

\frac{1}{n} \sum_{saya = 1}^{n} l Hai g (f (μ_{saya})) \geq \frac{1}{n} \sum_{saya = 1}^{n} l Hai g (f_{saya} (μ_{saya}))

$\frac{1}{n} \sum_{i=1}^n log(f(\mu_i)) \geq \frac{1}{n}\sum_{i=1}^n log(f_i(\mu_i))$

\frac{1}{n} \sum_{saya = 1}^{n} l Hai g (f_{saya} (μ_{saya})) \geq \frac{1}{n} \sum_{saya = 1}^{n} f_{saya} (x) catatan (f_{saya} (x))

$\frac{1}{n}\sum_{i=1}^n log(f_i(\mu_i)) \geq \frac{1}{n}\sum_{i=1}^n f_i(x) \log(f_i(x))$

l Hai g (f_{saya} (μ_{saya})) = \int f_{saya} (x) l Hai g (f_{saya} (μ_{saya})) d x \geq \int f_{saya} (x) l Hai g (f_{saya} (x)) d x

$log(f_i(\mu_i)) = \int f_i(x) log(f_i(\mu_i)) dx \geq \int f_i(x) log(f_i(x)) dx$

i

$i$

n

$n$

— sjm.majewski
sumber

Saya bingung. Anda mendefinisikan ag (x) tetapi tidak pernah menggunakannya, dan saya tidak tahu apa arti f_i Anda.

— Jerry Guern

Saya menambahkan definisi , maaf soal itu. Saya menggunakan hanya untuk ketidaksamaan Jensen, yaitu

f_{i}

$f_i$

g

$g$

g (\frac{1}{n} \sum_{i = 1}^{n} f_{i} (x)) \leq \frac{1}{n} \sum_{i = 1}^{n} g (f_{i} (x))

$g(\frac{1}{n}\sum_{i=1}^n f_i(x)) \leq \frac{1}{n}\sum_{i=1}^n g(f_i(x))$

— sjm.majewski

Pernyataan Anda bahwa hanya benar jika bobot adalah bagian dari definisi tetapi tidak, dan menambahkannya kembali ke bagian awal bukti Anda.

f >= f_{i}

$f>=f_i$

1 / n

$1/n$

f_{i}

$f_i$

— Jerry Guern

Pernyataan ini tidak benar:

\frac{1}{n} \sum_{i = 1}^{n} l o g (f (μ_{i})) \geq \frac{1}{n} \sum_{i = 1}^{n} l o g (f_{i} (μ_{i}))

$\frac{1}{n} \sum_{i=1}^n log(f(\mu_i)) \geq \frac{1}{n}\sum_{i=1}^n log(f_i(\mu_i))$

— Jerry Guern

Ya, saya menyadarinya kemarin. Sepertinya ketidaksetaraan ini cukup sulit, saya akan tetap menjawab dengan mengedit.

— sjm.majewski