Mengapa mengoptimalkan campuran Gaussian secara langsung sulit secara komputasi?

18

Pertimbangkan kemungkinan log campuran Gaussians:

l (S_{n}; θ) = \sum_{t = 1}^{n} \log f (x^{(t)} | θ) = \sum_{t = 1}^{n} \log {\sum_{i = 1}^{k} p_{i} f (x^{(t)} | μ^{(i)}, σ_{i}^{2})}

$l(S_n; \theta) = \sum^n_{t=1}\log f(x^{(t)}|\theta) = \sum^n_{t=1}\log\left\{\sum^k_{i=1}p_i f(x^{(t)}|\mu^{(i)}, \sigma^2_i)\right\}$

Saya bertanya-tanya mengapa sulit secara komputasi untuk memaksimalkan persamaan itu secara langsung? Saya mencari intuisi yang jelas tentang mengapa harus jelas bahwa itu sulit atau mungkin penjelasan yang lebih keras mengapa sulit. Apakah ini masalah NP-complete atau kita belum tahu bagaimana menyelesaikannya? Apakah ini alasan kami menggunakan algoritma EM ( ekspektasi-maksimalisasi )?

Notasi:

$S_n$ = data pelatihan.

$x^{(t)}$ = titik data.

$\theta$ = himpunan parameter yang menentukan Gaussian, meannya, standar deviasi, dan probabilitas menghasilkan titik dari setiap klaster / kelas / Gaussian.

$p_i$ = probabilitas menghasilkan titik dari cluster / class / Gaussian i.

machine-learning gaussian-mixture expectation-maximization

— Pinokio
sumber

14

Pertama, GMM adalah algoritma tertentu untuk clustering, di mana Anda mencoba untuk menemukan label optimal Anda pengamatan. Memiliki kelas mungkin, itu berarti bahwa ada mungkin labellings data pelatihan Anda. Ini menjadi sangat besar untuk nilai moderat dan . $n$ $k$ $k^n$ $k$ $n$

Kedua, fungsional yang Anda coba untuk meminimalkan tidak cembung, dan bersama-sama dengan ukuran masalah Anda, membuatnya sangat sulit. Saya hanya tahu bahwa k-means (GMM dapat dilihat sebagai versi lunak kmeans) adalah NP-hard. Tetapi saya tidak tahu apakah ini juga terbukti untuk GMM.

Untuk melihat bahwa masalahnya bukan cembung, pertimbangkan kasus satu dimensi: dan periksa bahwa Anda tidak dapat menjamin bahwa

L = \log (e^{- (x / σ_{1})^{2}} + e^{- (x / σ_{2})^{2}})

$L = \log \left(e^{-({x}/{\sigma_{1}})^2} + e^{-({x}/{\sigma_{2}})^2}\right)$

\frac{d^{2} L}{d x^{2}} > 0

$\frac{d^2L}{dx^2} > 0$ untuk semua x.

Memiliki masalah non-cembung berarti Anda bisa terjebak dalam minimum lokal. Secara umum, Anda tidak memiliki jaminan kuat yang Anda miliki dalam optimasi cembung, dan mencari solusi juga jauh lebih sulit.

— jpmuc
sumber

3

Mengenai poin kedua: k-means dapat dilihat sebagai kasus khusus GMM (lebih tepatnya, kasus batas di mana varians dibawa ke nol). Jika kita dapat mengurangi k-means untuk pemasangan GMM, yang terakhir harus menjadi masalah NP-hard juga.

— Lucas

1

@Lucas: Ini adalah tautan yang divalidasi silang untuk komentar Anda.

— Xi'an

7

Selain poin juampa, izinkan saya memberi sinyal kesulitan-kesulitan itu:

$l(\theta|S_n)$ $+\infty$ $\hat\mu^{(i)}=x_1$ $\hat\sigma_i=0$
$k^n$ $l(\theta|S_n)$ $\theta$

diambil dari buku saya .

Komentar tambahan: tanpa memanggil algoritma EM, seseorang dapat menggunakan algoritma optimasi standar (seperti Newton-Raphson) satu parameter pada satu waktu, yaitu, iterate

$\theta_1^\prime=\arg\max_{\theta_1} l(\theta|S_n)$
$\theta_2^\prime=\arg\max_{\theta_2} l(\theta_1^\prime,\theta_{-1}|S_n)$
...
$\theta_v^\prime=\arg\max_{\theta_v} l(\theta_{-v}^\prime,\theta_v|S_n)$

$v$ $l(\theta|S_n)$

— Xi'an
sumber

OK, L tidak terikat jika varians adalah 0. Tetapi jika kita mengecualikannya dari parameter yang mungkin (jadi kami menganggap semua varians> 0), maka L tidak boleh terlalu tinggi setiap kali varians yang dipilih sangat kecil (karena poin lain). Apakah saya benar? Kemudian, untuk set parameter yang mungkin ini, L akan dibatasi, dan ini akan menyiratkan bahwa algoritma EM menyatu (meningkatkan urutan dibatasi).

— ahstat

@ ahstat: dengan asumsi varians yang benar-benar positif tidak mencegah EM untuk menyatu dengan solusi yang merosot jika mulai cukup dekat.

— Xi'an