Mengapa campuran dua variabel yang terdistribusi normal hanya bimodal jika artinya berbeda setidaknya dua kali lipat dari standar deviasi?

28

Di bawah campuran dua distribusi normal:

https://en.wikipedia.org/wiki/Multimodal_distribution#Mixture_of_two_normal_distributions

"Campuran dari dua distribusi normal memiliki lima parameter untuk diperkirakan: dua rata-rata, dua varian dan parameter pencampuran. Campuran dua distribusi normal dengan standar deviasi yang sama adalah bimodal hanya jika artinya berbeda setidaknya dua kali dari standar deviasi umum. . "

Saya mencari derivasi atau penjelasan intuitif mengapa ini benar. Saya percaya ini mungkin dapat dijelaskan dalam bentuk uji dua sampel:

\frac{μ_{1} - μ_{2}}{σ_{p}}

$\frac{\mu_1-\mu_2}{\sigma_p}$

di mana adalah deviasi standar gabungan. $\sigma_p$

bimodal

— M Waz
sumber

1

intuisi adalah bahwa, jika rata-rata terlalu dekat, maka akan ada terlalu banyak tumpang tindih dalam massa 2 kepadatan sehingga perbedaan dalam berarti tidak akan terlihat karena perbedaan hanya akan dilemparkan ke dalam dengan massa dua kepadatan. Jika kedua cara itu cukup berbeda, maka massa kedua kerapatan tidak akan tumpang tindih sebanyak itu dan perbedaan cara akan terlihat. Tetapi saya ingin melihat bukti matematis dari ini. Ini pernyataan yang menarik. Saya tidak pernah melihatnya sebelumnya.

— mlofton

2

Secara lebih formal, untuk campuran 50:50 dari dua distribusi normal dengan SD jika Anda menulis kerapatan dalam bentuk penuh yang menunjukkan parameter, Anda akan lihat bahwa perubahan turunan keduanya tanda di titik tengah antara keduanya berarti ketika jarak antara rata-rata meningkat dari bawah ke atas.

σ,

$\sigma,$

f (x) = 0.5 g_{1} (x) + 0.5 g_{2} (x)

$f(x) = 0.5g_1(x) + 0.5g_2(x)$

2 σ

$2\sigma$

— BruceET

1

Lihat "Kriteria Rayleigh," en.wikipedia.org/wiki/Angular_resolution#Explanation

— Carl Witthoft

53

Angka dari makalah yang tertaut dalam artikel wiki ini memberikan ilustrasi yang bagus:

Bukti yang mereka berikan didasarkan pada fakta bahwa distribusi normal adalah cekung dalam satu SD dari rata-rata mereka (SD menjadi titik belok dari pdf normal, di mana ia berpindah dari cekung ke cembung). Jadi, jika Anda menambahkan dua pdf normal bersama-sama (dalam proporsi yang sama), maka selama artinya berbeda dengan kurang dari dua SD, jumlah-pdf (yaitu campuran) akan cekung di wilayah antara dua cara, dan oleh karena itu maksimum global harus berada pada titik tepat di antara kedua cara.

Referensi: Schilling, MF, Watkins, AE, & Watkins, W. (2002). Apakah Tinggi Bimodal Manusia? The American Statistician, 56 (3), 223–229. doi: 10.1198 / 00031300265

— Ruben van Bergen
sumber

11

+1 Ini adalah argumen yang bagus dan mudah diingat.

— whuber

2

Keterangan gambar juga memberikan ilustrasi yang bagus tentang ligatur 'fl' yang salah kaprah dalam 'infleksi' :-P

— nekomatis

2

@ Alex: Terima kasih telah menambahkan referensi itu - karena ini sedikit meledak saya telah berencana untuk menambahkannya sendiri, karena saya benar-benar hanya mengulangi argumen mereka dan saya tidak ingin mengambil terlalu banyak pujian untuk itu.

— Ruben van Bergen

14

Ini adalah kasus di mana gambar dapat menipu, karena hasil ini adalah karakteristik khusus dari campuran normal : analog tidak selalu berlaku untuk campuran lain, bahkan ketika komponennya adalah distribusi unimodal simetris! Sebagai contoh, campuran yang sama dari dua distribusi t Student dipisahkan oleh sedikit kurang dari dua kali standar deviasi mereka akan bimodal. Untuk wawasan yang sebenarnya, kita harus melakukan beberapa matematika atau menarik properti khusus dari distribusi Normal.

Pilih satuan pengukuran (dengan memasukkan kembali dan mengganti ukuran sesuai kebutuhan) untuk menempatkan rata-rata distribusi komponen di dan untuk membuat kesatuan varians umum mereka. Misalkan menjadi jumlah komponen rata-rata yang lebih besar dalam campuran. Ini memungkinkan kami untuk mengekspresikan kerapatan campuran secara umum penuh sebagai $\pm\mu,$ $\mu\ge 0,$ $p,$ $0 \lt p \lt 1,$

\sqrt{2 π} f (x; μ, p) = p \exp (- \frac{(x - μ)^{2}}{2}) + (1 - p) \exp (- \frac{(x + μ)^{2}}{2}) .

$\sqrt{2\pi}f(x;\mu,p) = p \exp\left(-\frac{(x-\mu)^2}{2}\right) + (1-p) \exp\left(-\frac{(x+\mu)^2}{2}\right).$

Karena kedua kepadatan komponen meningkatkan di mana dan mengurangi di mana mode hanya mungkin terjadi di mana Temukan mereka dengan membedakan sehubungan dengan dan atur ke nol. Menghapus semua koefisien positif yang kami peroleh $x\lt -\mu$ $x\gt \mu,$ $-\mu\le x \le \mu.$ $f$ $x$

0 = - e^{2 x μ} p (x - μ) + (1 - p) (x + μ) .

$0 = -e^{2x\mu} p(x-\mu) + (1-p)(x+\mu).$

Melakukan operasi serupa dengan turunan kedua dari dan mengganti dengan nilai yang ditentukan oleh persamaan sebelumnya memberi tahu kita tanda turunan kedua pada setiap titik kritis adalah tanda dari $f$ $e^{2x\mu}$

f^{''} (x; μ, p) \propto \frac{(1 + x^{2} - μ^{2})}{x - μ} .

$f^{\prime\prime}(x;\mu,p) \propto \frac{(1+x^2-\mu^2)}{x-\mu}.$

Karena penyebutnya negatif ketika tanda adalah tanda dariJelas bahwa ketika tandanya harus negatif. Namun, dalam distribusi multimodal (karena kepadatannya kontinu), harus ada antimode di antara dua mode mana pun, di mana tandanya non-negatif. Jadi, ketika kurang dari (SD), distribusi harus unimodal. $-\mu\lt x \lt \mu,$ $f^{\prime\prime}$ $-(1-\mu^2 + x^2).$ $\mu\le 1,$ $\mu$ $1$

Karena pemisahan rata-rata adalah kesimpulan dari analisis ini adalah $2\mu,$

Campuran distribusi normal adalah unimodal setiap kali berarti dipisahkan oleh tidak lebih dari dua kali standar deviasi umum.

Itu secara logis setara dengan pernyataan dalam pertanyaan.

— whuber
sumber

12

Komentar dari atas ditempelkan di sini untuk kesinambungan:

"[F] secara lisan, untuk campuran 50:50 dari dua distribusi normal dengan SD σ yang sama, jika Anda menulis kerapatan dalam bentuk penuh yang menunjukkan parameter, Anda akan melihat bahwa perubahan turunan keduanya tanda di titik tengah antara dua rata-rata ketika jarak antara rata-rata meningkat dari bawah 2σ ke atas. "

f (x) = 0.5 g_{1} (x) + 0.5 g_{2} (x)

$f(x)=0.5g_1(x)+0.5g_2(x)$

Komentar berlanjut:

Dalam setiap kasus, dua kurva normal yang 'dicampur' memilikiDari kiri ke kanan jarak antara rata-rata adalah dan masing-masing. Konkavitas densitas campuran pada titik tengah (1.5) antara perubahan berarti dari negatif, menjadi nol, menjadi positif. $\sigma=1.$ $3\sigma, 2\sigma,$ $\sigma,$

Kode R untuk gambar:

par(mfrow=c(1,3))
  curve(dnorm(x, 0, 1)+dnorm(x,3,1), -3, 7, col="green3", 
    lwd=2,n=1001, ylab="PDF", main="3 SD: Dip")
  curve(dnorm(x, .5, 1)+dnorm(x,2.5,1), -4, 7, col="orange", 
    lwd=2, n=1001,ylab="PDF", main="2 SD: Flat")
  curve(dnorm(x, 1, 1)+dnorm(x,2,1), -4, 7, col="violet", 
    lwd=2, n=1001, ylab="PDF", main="1 SD: Peak")
par(mfrow=c(1,3))

— BruceET
sumber

1

semua jawabannya bagus. Terima kasih.

— mlofton

3

Mungkin perlu dicatat bahwa meskipun angka tengah ("2 SD: Flat") terlihat datar di dekat pusat, itu sebenarnya unimodal dengan maksimum global di pusat. Bagian "flat" berhubungan dengan daerah tengah dengan lebar sedikit lebih dari , di mana kepadatan menyimpang dari maksimum kurang dari

2 / 3

$2/3$

0.001.

$0.001.$

— res

1

Komentar saya sebelumnya seharusnya mengatakan "di mana kerapatan berangkat dari maksimum kurang dari dari maksimum ." Lebih tepatnya, dalam hal ini memiliki global maksimum di pusat (katakanlah , dan sedangkan lebar wilayah di mana keberangkatan kurang dari lebih besar, sekitar :

0.1 %

$0.1\%$

f

$f$

x_{0})

$x_0)$

f (x_{0}) - f (x) \leq 0.001 f (x_{0}) ⟺ | x - x_{0} | \leq 0.333433,

$f(x_0)-f(x)\le 0.001 f(x_0)\ \iff\ |x-x_0|\le 0.333433,$

0.001

$0.001$

0.95832

$0.95832$

f (x_{0}) - f (x) \leq 0.001 ⟺ | x - x_{0} | \leq 0.47916.

$f(x_0)-f(x)\le 0.001\ \iff\ |x-x_0|\le 0.47916.$

— res

Poin bagus. Sebenarnya, yang saya maksud dengan bahasa disingkat 'flat' adalah turunan nol ke-2 tepat di titik tengah.

— BruceET