Intuisi tentang entropi bersama

9

Saya kesulitan membangun intuisi tentang entropi bersama. = ketidakpastian dalam distribusi bersama ; = ketidakpastian dalam ; = ketidakpastian dalam . $H(X,Y)$ $p(x,y)$ $H(X)$ $p_x(x)$ $H(Y)$ $p_y(y)$

Jika H (X) tinggi maka distribusinya lebih tidak pasti dan jika Anda mengetahui hasil distribusi tersebut maka Anda memiliki lebih banyak informasi! Jadi H (X) juga mengukur informasi.

Sekarang kita dapat menunjukkan $H(X,Y) \leq H(X) + H(Y)$

Tetapi jika Anda tahu Anda bisa mendapatkan dan sehingga dalam beberapa hal memiliki informasi lebih banyak daripada dan , jadi bukankah ketidakpastian yang terkait dengan p (x, y) lebih dari jumlah ketidakpastian individu? $p(x,y)$ $p_x(x)$ $p_y(y)$ $p(x,y)$ $p_x(x)$ $p_y(y)$

information-theory mutual-information

— pengguna21455
sumber

7

sebagai aturan umum, informasi tambahan tidak pernah meningkatkan entropi, yang secara resmi dinyatakan sebagai:

H (X | Y) \leq H (X) *

$\begin{equation} H(X|Y) \leq H(X) \, \, \, * \end{equation}$

kesetaraan berlaku jika dan adalah independen, yang menyiratkan . $X$ $Y$ $H(X|Y) = H(X)$

Hasil ini dapat digunakan untuk membuktikan entropi gabungan . Untuk menunjukkannya, pertimbangkan kasus sederhana . Menurut aturan rantai, kita dapat menulis entropi join seperti di bawah ini $H(X_1, X_2, ..., X_n) \leq \sum_{i=1}^{n} H(X_i)$ $H(X,Y)$

H (X, Y) = H (X | Y) + H (Y)

$\begin{equation} H(X,Y) = H(X|Y) + H(Y) \end{equation}$

Mempertimbangkan ketidaksetaraan , tidak pernah meningkatkan entropi variabel , dan karenanya . Menggunakan induksi satu dapat menggeneralisasi hasil ini ke kasus-kasus yang melibatkan lebih dari dua variabel. $*$ $H(X|Y)$ $X$ $H(X,Y) \leq H(X) + H(Y)$

Semoga ini membantu mengurangi ambiguitas (atau entropi Anda) tentang entropi bersama!

— omidi
sumber

4

Ada sudut pandang lain dari entropi Shannon. Bayangkan Anda ingin menebak pertanyaan apa nilai konkret variabel. Untuk mempermudah, bayangkan bahwa nilai hanya dapat mengambil delapan nilai yang berbeda , dan semua sama-sama kemungkinan. $\left(0,1,..., 8\right)$

Cara paling efisien adalah dengan melakukan pencarian biner. Pertama Anda bertanya apakah lebih besar atau kurang dari 4. Kemudian membandingkannya dengan 2 atau 6, dan seterusnya. Secara total Anda tidak akan membutuhkan lebih dari tiga pertanyaan (yang merupakan jumlah bit dari distribusi konkret ini).

Kita bisa melanjutkan analogi untuk kasus dua variabel. Jika mereka tidak independen, maka mengetahui nilai salah satunya membantu Anda membuat tebakan yang lebih baik (rata-rata) untuk pertanyaan berikutnya (ini tercermin dalam hasil yang ditunjukkan oleh omidi ). Karenanya, entropi lebih rendah, kecuali mereka benar-benar independen, di mana Anda perlu menebak nilainya secara mandiri. Mengatakan bahwa entropi berarti lebih rendah (untuk contoh konkret ini) bahwa Anda perlu membuat lebih sedikit pertanyaan secara rata-rata (yaitu lebih sering Anda membuat tebakan yang baik).

— jpmuc
sumber

2

Tampaknya Anda membuat pemikiran "jika lebih banyak informasi ketika diketahui, maka lebih banyak entropi ketika tidak diketahui". Ini bukan intuisi yang benar, karena, jika distribusinya tidak diketahui, kita bahkan tidak tahu entropinya. Jika distribusi diketahui, maka entropi menghitung jumlah informasi yang diperlukan untuk menggambarkan ketidakpastian tentang realisasi variabel acak, yang tetap tidak diketahui (kita hanya tahu struktur di sekitar ketidakpastian ini, dengan mengetahui distribusi). Entropi tidak menghitung informasi "hadir" dalam distribusi. Sebaliknya: semakin banyak informasi "termasuk" dalam distribusi, semakin sedikit informasi "yang dibutuhkan" untuk menggambarkan ketidakpastian, dan semakin sedikitentropinya adalah. Pertimbangkan distribusi seragam: berisi informasi yang sangat sedikit , karena semua nilai yang mungkin dari variabel tersebut dapat disetel: oleh karena itu ia memiliki entropi maksimum di antara semua distribusi dengan dukungan terbatas.

Adapun Entropi Bersama, Anda dapat menganggapnya sebagai berikut: distribusi bersama berisi informasi tentang apakah dua variabel tergantung atau tidak, ditambah informasi yang cukup untuk memperoleh distribusi marjinal. Distribusi marginal tidak mengandung informasi tentang apakah dua variabel acak tergantung atau independen. Jadi distribusi bersama memiliki lebih banyak informasi, dan memberi kita lebih sedikit ketidakpastian seputar variabel acak yang terlibat:

$\rightarrow$ $\rightarrow$ $\rightarrow$

— Alecos Papadopoulos
sumber

(X, Y)

$(X,Y)$

H (X, Y)

$H(X,Y)$

H (X) + H (Y)

$H(X) + H(Y)$

Ya, itulah intinya.

— Alecos Papadopoulos