Ukuran titik tengah adalah distribusi campuran dari dua normals multivarian, sehingga tidak memiliki bentuk yang Anda berikan di pos asli. Biarkan menjadi fungsi kerapatan probabilitas dari vektor acak dan menjadi pdf dari . Maka pdf dari ukuran titik tengah adalah
Mφp(x)N(μp,Σp)φq(x)N(μq,Σq)
φm(x)=12φp(x)+12φq(x).
Divergensi Jensen-Shannon adalah
di mana menunjukkan (diferensial) entropi yang sesuai dengan ukuran .
JSD=12(KL(P∥M)+KL(Q∥M))=h(M)−12(h(P)+h(Q)),
h(P)P
Dengan demikian, perhitungan Anda berkurang untuk menghitung entropi diferensial. Untuk multivarian normal , jawabannya dikenal sebagai
dan buktinya dapat ditemukan di sejumlah sumber, misalnya, Cover dan Thomas (1991), hlm. 230-231. Perlu ditunjukkan bahwa entropi dari suatu multivariat normal adalah invarian terhadap mean, seperti yang ditunjukkan oleh ungkapan di atas. Namun, ini hampir pasti tidak terbawa ke kasus campuran normal. (Pikirkan tentang memilih satu normal luas berpusat pada nol dan normal terkonsentrasi lain di mana yang terakhir didorong jauh dari asal.)N(μ,Σ)
12log2((2πe)n|Σ|)
Untuk ukuran titik tengah, segalanya tampak lebih rumit. Yang saya tahu, tidak ada ekspresi bentuk-tertutup untuk entropi diferensial . Pencarian di Google menghasilkan beberapa klik potensial, tetapi yang teratas tampaknya tidak memberikan formulir tertutup dalam kasus umum. Anda mungkin terjebak dengan perkiraan jumlah ini dalam beberapa cara.h(M)
Perhatikan juga bahwa kertas yang Anda rujuk tidak membatasi perlakuan hanya pada distribusi diskrit. Mereka memperlakukan kasus secara umum sehingga masalah Anda termasuk dalam kerangka kerja mereka. Lihat bagian tengah kolom dua di halaman 1859. Di sinilah juga ditunjukkan bahwa divergensi dibatasi. Ini berlaku untuk kasus dua langkah umum dan tidak terbatas pada kasus dua distribusi diskrit.
Divergensi Jensen-Shannon telah muncul beberapa kali baru-baru ini dalam pertanyaan lain di situs ini. Lihat di sini dan di sini .
Tambahan : Perhatikan bahwa campuran normals tidak sama dengan kombinasi linear normals. Cara paling sederhana untuk melihat ini adalah dengan mempertimbangkan kasus satu dimensi. Biarkan dan dan biarkan mereka independen satu sama lain. Kemudian campuran dari dua normals menggunakan bobot untuk memiliki distribusi
X1∼N(−μ,1)X2∼N(μ,1)(α,1−α)α∈(0,1)
φm(x)=α⋅12π−−√e−(x+μ)22+(1−α)⋅12π−−√e−(x−μ)22.
Distribusi dari kombinasi linear dari dan menggunakan bobot yang sama seperti sebelumnya adalah, melalui stabil properti dari distribusi normal adalah
mana .X1X2
φℓ(x)=12πσ2−−−−√e−(x−(1−2α)μ)22σ2,
σ2=α2+(1−α)2
Kedua distribusi ini sangat berbeda, meskipun mereka memiliki rata-rata yang sama. Ini bukan kecelakaan dan mengikuti dari linearitas harapan.
Untuk memahami distribusi campuran, bayangkan Anda harus pergi ke konsultan statistik sehingga dia bisa menghasilkan nilai dari distribusi ini untuk Anda. Dia memegang satu realisasi di satu telapak tangan dan satu realisasi di telapak lainnya (meskipun Anda tidak tahu di mana dari kedua telapak tangan masing-masing). Sekarang, asistennya membalik koin bias dengan probabilitas keluar dari pandangan Anda dan kemudian datang dan membisikkan hasilnya ke telinga ahli statistik. Dia membuka salah satu telapak tangannya dan menunjukkan realisasinya, tetapi tidak memberi tahu Anda hasil dari flip koin. Proses ini menghasilkan distribusi campuran.X1X2α
Di sisi lain, kombinasi linear dapat dipahami dalam konteks yang sama. Konsultan statistik hanya mengambil realisasi, mengalikan yang pertama dengan dan yang kedua dengan , menambahkan hasilnya dan menunjukkannya kepada Anda.α(1−α)