Berapa jarak antara campuran Gaussian terbatas dan Gaussian?

Misalkan saya memiliki campuran banyak Gaussians dengan bobot, sarana, dan standar deviasi yang diketahui. Berarti tidak sama. Deviasi rata-rata dan standar dari campuran dapat dihitung, tentu saja, karena momen adalah rata-rata tertimbang dari momen komponen. Campuran itu bukan distribusi normal, tetapi seberapa jauh dari normal itu?

Campuran Gaussians dipisahkan oleh 2 standar deviasi vs Gaussian dengan mean dan varian yang sama

Gambar di atas menunjukkan kepadatan probabilitas untuk campuran Gaussian dengan rata-rata komponen yang dipisahkan oleh standar deviasi (komponen) dan Gaussian tunggal dengan rerata dan varian yang sama. $2$

Campuran Gaussians dipisahkan oleh 1 standar deviasi vs Gaussian dengan rerata dan varian yang sama

Di sini alat dipisahkan oleh deviasi standar dan lebih sulit untuk memisahkan campuran dari Gaussian dengan mata. $1$

Motivasi: Saya tidak setuju dengan beberapa orang malas tentang beberapa distribusi aktual yang belum mereka ukur yang mereka anggap mendekati normal karena itu akan menyenangkan. Saya malas juga. Saya juga tidak ingin mengukur distribusi. Saya ingin dapat mengatakan asumsi mereka tidak konsisten, karena mereka mengatakan bahwa campuran yang terbatas dari Gaussians dengan cara yang berbeda adalah Gaussian yang tidak benar. Saya tidak hanya ingin mengatakan bahwa bentuk ekor yang asimptotik salah karena ini hanya perkiraan yang hanya dianggap cukup akurat dalam beberapa standar deviasi rata-rata. Saya ingin dapat mengatakan bahwa jika komponen-komponennya didekati dengan baik oleh distribusi normal maka campurannya tidak, dan saya ingin dapat mengukur ini.

$L^1$ $2$ $1/4$

normal-distribution mixture distance

— Douglas Zare
sumber

Jika campuran sangat dekat dengan nrmal maka menggunakan perkiraan normal bukan kemalasan itu adalah penyederhanaan dan bisa menjadi yang baik. Tetapi dalam contoh Anda, Anda menunjukkan campuran yang lebih datar daripada nromal di tengah, lebih banyak menyebar di tengah dan lebih pendek di ekor jika dibandingkan dengan yang mendekati normal. Saya pikir Anda ingin melihat semacam perbedaan terintegrasi antara kedua cdf itu. Bukan ukuran KS karena perbedaan maximu mungkin tidak terlalu besar tetapi perbedaan rata-rata di suatu daerah mungkin relatif besar.

— Michael R. Chernick

Bisakah kita mengasumsikan bahwa ada bukti signifikan secara statistik untuk campuran Gaussians di atas perkiraan normal? Kita hanya perlu khawatir apakah perbedaan itu signifikansi praktis jika perbedaan diketahui signifikansi secara statistik. Saran Michaels tentang sesuatu seperti statistik Anderson-Darling akan menjadi tempat yang wajar untuk memulai.

— Dikran Marsupial

1 / 2

$1/2$

2

$2$

Kedengarannya seperti Anda benar-benar mengajukan pertanyaan pemilihan model: diberikan beberapa data ke model, kapan harus memilih distribusi normal dibandingkan dengan campuran (atau lebih umum, bagaimana cara memilih jumlah komponen campuran)? Membingkai ulang pertanyaan seperti ini akan memberi Anda akses ke, oh, beberapa ratus pertanyaan terkait di situs ini :-).

— whuber

@whuber: jarak ke normal kemudian dapat dinyatakan sebagai kekuatan (rata-rata) dari tes yang bertujuan memisahkan campuran dari Gaussian tunggal.

— Xi'an

Jawaban:

Divergensi KL akan alami karena Anda memiliki distribusi basis alami, Gaussian tunggal, dari mana campuran Anda menyimpang. Di sisi lain, divergensi KL (atau bentuk 'jarak' simetrisnya) antara dua campuran Gaussian, di mana masalah Anda merupakan kasus khusus, tampaknya tidak dapat dipecahkan secara umum. Hershey dan Olson (2007) terlihat seperti ringkasan yang masuk akal dari perkiraan yang tersedia, termasuk metode variasi yang mungkin menawarkan batasan yang lebih mudah.

Namun, jika Anda ingin berdebat tentang efek buruk dari mengasumsikan sesuatu adalah Gaussian ketika itu benar-benar campuran, maka yang terbaik adalah memiliki ide yang baik tentang konsekuensi yang benar-benar Anda minati - sesuatu yang lebih spesifik daripada sekadar 'salah '(ini poin @ Michael-Chernick). Misalnya, konsekuensi untuk tes, atau interval, atau semacamnya. Dua efek yang jelas dari campuran tersebut adalah penyebaran berlebih, yang cukup banyak dijamin, dan multimodality, yang akan membingungkan para pemaksimalan.

— conjugateprior
sumber

Biarkan saya menindaklanjuti dengan mempertimbangkan konsekuensi dari spesifikasi distribusi yang salah. Daripada menggunakan ukuran jarak yang umum, seperti KL Divergence, Anda dapat mengevaluasi ukuran "perbedaan" yang disesuaikan, sesuai dengan konsekuensi yang ada.

Sebagai contoh, jika distribusi akan digunakan untuk perhitungan risiko, misalnya untuk menentukan bahwa probabilitas kegagalan cukup rendah, maka satu-satunya hal yang penting dalam kecocokan adalah perhitungan probabilitas di ekor ekstrim. Ini mungkin relevan dengan keputusan pada program multi-miliar dolar, dan melibatkan masalah hidup dan mati.

Di mana asumsi Normal cenderung paling tidak akurat? Dalam banyak kasus, di ujung yang ekstrem, satu-satunya tempat yang penting untuk perhitungan risiko penting ini. Jika misalnya, distribusi Anda yang sebenarnya adalah campuran dari Normals yang memiliki rata-rata yang sama, tetapi penyimpangan standar yang berbeda, maka ekor dari distribusi campuran lebih gemuk daripada ekor dari distribusi Normal yang memiliki mean dan standar deviasi yang sama. Ini dapat dengan mudah menghasilkan urutan perbedaan yang besar (perkiraan risiko yang lebih rendah) untuk probabilitas di ekor yang ekstrem.

$U$ $P(X_{Mixture} > U) - P(X_{Normal} > U)$

— Mark L. Stone
sumber