Menemukan jumlah gaussians dalam campuran yang terbatas dengan teorema Wilks?


11

Asumsikan saya memiliki satu set pengamatan univariat independen dan terdistribusi secara identik dan dua hipotesis tentang bagaimana dihasilkan:xxx

xH0 : diambil dari satu distribusi Gaussian dengan mean dan varian yang tidak diketahui.x

xHA : diambil dari campuran dua Gaussians dengan mean, varian dan koefisien pencampuran yang tidak diketahui.x

Jika saya mengerti dengan benar, ini adalah model bersarang karena model yang mewakili dapat dijelaskan dalam istilah jika Anda membatasi parameter dari dua Gaussians menjadi identik atau membatasi koefisien pencampuran menjadi nol untuk salah satu dari dua Gaussians. H AH0HA

Oleh karena itu, sepertinya Anda harus dapat menggunakan algoritma EM untuk memperkirakan parameter dan kemudian menggunakan Teorema Wilks untuk menentukan apakah kemungkinan data di bawah secara signifikan lebih besar daripada yang di bawah . Ada lompatan kecil keyakinan dalam asumsi bahwa algoritma EM akan menyatu dengan kemungkinan maksimum di sini, tapi itu yang saya bersedia buat.H A H 0HAHAH0

Saya mencoba ini dalam simulasi monte carlo, dengan asumsi bahwa memiliki 3 derajat kebebasan lebih dari (rata-rata dan varian untuk Gaussian kedua dan parameter pencampuran). Ketika saya mensimulasikan data dari , saya mendapat distribusi nilai-P yang secara substansial tidak seragam dan diperkaya untuk nilai-P kecil. (Jika EM tidak konvergen ke kemungkinan maksimum sebenarnya, kebalikan yang diharapkan akan terjadi.) Apa yang salah dengan penerapan teorema Wilks saya yang menciptakan bias ini?H 0 H 0HAH0H0

Jawaban:


8

Dengan spesifikasi yang cermat tentang bagaimana hipotesis nol terkandung dalam model campuran dua komponen, adalah mungkin untuk melihat apa masalahnya. Jika lima parameter dalam model campuran adalah , maka karena baik dua komponen campuran yang normal adalah sama, dalam hal proporsi campuran tidak relevan, atau campuran proporsi adalah 0 atau 1, dalam hal salah satu komponen campuran tidak relevan. Kesimpulannya adalah bahwa hipotesis nol tidak dapat ditentukan, bahkan tidak secara lokal, sebagai pembatasan parameter sederhana yang menjatuhkan dimensi ruang parameter dari 5 menjadi 2.H 0 : ( μ 1 = μ 2  dan  σ 1 = σ 2 )  atau  ρ { 0 , 1 } . ρ ρμ1,μ2,σ1,σ2,ρ

H0:(μ1=μ2 and σ1=σ2) or ρ{0,1}.
ρρ

Hipotesis nol adalah himpunan bagian yang rumit dari ruang parameter penuh, dan di bawah nol parameter tersebut bahkan tidak dapat diidentifikasi. Asumsi biasa yang diperlukan untuk mendapatkan teorema Wilk rusak, terutama tidak mungkin untuk membangun ekspansi Taylor yang tepat dari kemungkinan log.

Saya tidak punya pengalaman pribadi dengan masalah khusus ini, tapi saya tahu kasus lain di mana parameter "menghilang" di bawah nol, yang tampaknya menjadi kasus di sini juga, dan dalam kasus ini kesimpulan teorema Wilk juga rusak . Pencarian cepat memberi, antara lain, makalah ini yang terlihat relevan, dan di mana Anda mungkin dapat menemukan referensi lebih lanjut tentang penggunaan uji rasio kemungkinan dalam kaitannya dengan model campuran.


Terima kasih. Saya pikir sesuatu seperti ini mungkin masalahnya, tetapi saya tidak yakin. Saya sedikit bingung tentang poin-poin penting dari apa yang merupakan model bersarang untuk tujuan Teorema Wilks. Poin bagus tentang identitas di bawah nol.
dsimcha

4

Inferensi pada jumlah komponen pencampuran tidak memenuhi kondisi keteraturan yang diperlukan untuk teorema Wilks karena (a) parameterρberada pada batas ruang parameter dan (b) parameter tidak teridentifikasi di bawah nol. Ini tidak berarti bahwa distribusi rasio kemungkinan umum tidak diketahui! Jika semua 5 parameter dalam pengaturan Anda tidak diketahui, dan yang lebih penting - tidak terikat - maka distribusi statistik LR tidak konvergen. Jika semua parameter yang tidak dapat diidentifikasi dibatasi, maka statistik LR adalah monoton dalam supremum proses Gaussian terpotong. Kovarians yang tidak mudah untuk dihitung dalam kasus umum (5 parameter), dan bahkan ketika Anda memilikinya - distribusi supremum dari proses semacam itu tidak mudah diperkirakan. Untuk beberapa hasil praktis mengenai campuran dua komponen, lihat di sini. Menariknya, makalah ini menunjukkan bahwa dalam pengaturan yang agak sederhana, statistik LR sebenarnya kurang kuat daripada beberapa statistik sederhana. Untuk makalah seminal tentang menurunkan distribusi asimptotik dalam masalah seperti lihat di sini . Untuk semua tujuan praktis, Anda dapat menyesuaikan campuran menggunakan EM, dan kemudian Bootstrap distribusi statistik LR. Ini mungkin memakan waktu karena EM diketahui lambat, dan Anda perlu banyak replikasi untuk menangkap efek ukuran sampel. Lihat di sini untuk detailnya.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.