Mengapa Entropy dimaksimalkan ketika distribusi probabilitas seragam?


32

Saya tahu bahwa entropi adalah ukuran keacakan dari suatu proses / variabel dan dapat didefinisikan sebagai berikut. untuk variabel acak set : - . Dalam buku tentang Entropi dan Teori Informasi oleh MacKay, ia memberikan pernyataan ini dalam Ch2XAH(X)=xiAp(xi)log(p(xi))

Entropi dimaksimalkan jika p seragam.

Secara intuitif, saya bisa memahaminya, seperti jika semua titik data dalam set dipilih dengan probabilitas yang sama ( menjadi kardinalitas set ), maka keacakan atau entropi meningkat. Tetapi jika kita tahu bahwa beberapa titik di himpunan akan terjadi dengan probabilitas lebih dari yang lain (katakanlah dalam kasus distribusi normal, di mana konsentrasi maksimum titik data berada di sekitar rata-rata dan area standar deviasi kecil di sekitarnya, maka keacakan atau entropi harus berkurang.A1/mmAA

Tetapi apakah ada bukti matematis untuk ini? Seperti persamaan untuk saya membedakannya sehubungan dengan dan mengaturnya ke 0 atau sesuatu seperti itu.H(X)p(x)

Di samping catatan, apakah ada hubungan antara entropi yang terjadi teori informasi dan perhitungan entropi dalam kimia (termodinamika)?


2
Pertanyaan ini dijawab (secara sepintas) di stats.stackexchange.com/a/49174/919 .
whuber

Saya menjadi agak bingung dengan pernyataan lain yang diberikan dalam buku Christopher Bishops yang menyatakan bahwa "untuk variabel nyata tunggal, distribusi yang memaksimalkan entropi adalah Gaussian." Ini juga menyatakan bahwa "distribusi multivariat dengan entropi maksimum, untuk kovarian tertentu, adalah sebuah Gaussian". Bagaimana pernyataan ini valid? Bukankah entropi distribusi seragam selalu maksimal?
user76170

6
Maksimalisasi selalu dilakukan dengan tunduk pada kendala pada solusi yang mungkin. Ketika kendala adalah bahwa semua probabilitas harus lenyap di luar batas yang telah ditentukan, solusi entropi maksimum seragam. Ketika sebaliknya kendala adalah bahwa ekspektasi dan varians harus sama dengan nilai yang telah ditentukan, solusi ME adalah Gaussian. Pernyataan yang Anda kutip harus dibuat dalam konteks tertentu di mana kendala ini dinyatakan atau setidaknya dipahami secara implisit.
whuber

2
Saya mungkin juga harus menyebutkan bahwa kata "entropi" berarti sesuatu yang berbeda dalam pengaturan Gaussian daripada di pertanyaan aslinya di sini, karena kemudian kita membahas entropi distribusi kontinu . Ini "diferensial entropi" adalah hewan yang berbeda dari entropi distribusi diskrit. Perbedaan utama adalah bahwa entropi diferensial tidak invarian di bawah perubahan variabel.
whuber

Jadi yang berarti bahwa maksimisasi selalu berkenaan dengan kendala? Bagaimana jika tidak ada kendala? Maksudku, tidak bisakah ada pertanyaan seperti ini? Distribusi probabilitas mana yang memiliki entropi maksimum?
user76170

Jawaban:


25

Secara heuristik, fungsi kepadatan probabilitas pada dengan entropi maksimum ternyata adalah yang sesuai dengan jumlah pengetahuan paling sedikit dari , dengan kata lain distribusi Seragam.{x1,x2,..,.xn}{x1,x2,..,.xn}

Sekarang, untuk bukti yang lebih formal pertimbangkan hal berikut:

Fungsi kepadatan probabilitas pada adalah sekumpulan bilangan real non-negatif yang menambahkan hingga 1. Entropi adalah fungsi kontinu dari -tuple , dan titik-titik ini terletak pada subset kompak dari , jadi ada -tuple di mana entropi dimaksimalkan. Kami ingin menunjukkan ini terjadi pada dan tidak ada tempat lain.{x1,x2,..,.xn}p1,...,pnn(p1,...,pn)Rn( 1 / n , . . . , 1 / n )n(1/n,...,1/n)

Misalkan tidak semuanya sama, katakan . (Jelas ) Kami akan menemukan kepadatan probabilitas baru dengan entropi yang lebih tinggi. Ini kemudian mengikuti, karena entropi dimaksimalkan pada beberapa -tuple, entropi itu secara unik dimaksimalkan pada -tuple dengan untuk semua .p 1 < p 2 n 1 n n p i = 1 / n ipjp1<p2n1nnpi=1/ni

Sejak , untuk positif kecil, kami memiliki . Entropi minus entropi dari sama dengan ε p 1 + ε < p 2 - ε { p 1 + ε , p 2 - ε , p 3 , . . . , P n } { p 1 , p 2 , p 3 , . . . , p n }p1<p2εp1+ε<p2ε{p1+ε,p2ε,p3,...,pn}{p1,p2,p3,...,pn}

ε-p1log(1+ε

p1log(p1+εp1)εlog(p1+ε)p2log(p2εp2)+εlog(p2ε)
Untuk melengkapi buktinya, kami ingin menunjukkan ini positif untuk cukup kecil . Tulis ulang persamaan di atas sebagai ε
p1log(1+εp1)ε(logp1+log(1+εp1))p2log(1εp2)+ε(logp2+log(1εp2))

Mengingat bahwa untuk kecil , persamaan di atas adalah yang positif ketika cukup kecil sejak .x - ε - ε log p 1 + ε + ε log p 2 + O ( ε 2 ) = ε log ( p 2 / p 1 ) + O ( ε 2 ) ε p 1 < p 2log(1+x)=x+O(x2)x

εεlogp1+ε+εlogp2+O(ε2)=εlog(p2/p1)+O(ε2)
εp1<p2

Bukti yang kurang ketat adalah sebagai berikut:

Pertimbangkan dulu Lemma berikut:

Biarkan dan kontinu fungsi kepadatan probabilitas pada interval di bilangan real, dengan dan pada . Kami memiliki jika kedua integral ada. Selain itu, ada persamaan jika dan hanya jika untuk semua .q ( x ) I p 0 q > 0 I - I p log p d x - Saya p log q d xp(x)q(x)Ip0q>0I

IplogpdxIplogqdx
p(x)=q(x)x

Sekarang, misalkan menjadi fungsi kerapatan probabilitas pada , dengan . Membiarkan untuk semua , yang merupakan entropi . Karena itu, kata kami, , dengan kesetaraan jika dan hanya jika seragam.p{x1,...,xn}pi=p(xi)qi=1/ni

i=1npilogqi=i=1npilogn=logn
qh(p)h(q)p

Juga, wikipedia juga memiliki diskusi singkat tentang ini: wiki


11
Saya mengagumi upaya untuk menyajikan bukti dasar (bebas Kalkulus). Demonstrasi satu garis yang ketat tersedia melalui ketimpangan AM-GM tertimbang dengan mencatat bahwa = dengan memegang persamaan jika semua sama, QED. ( 1exp(H)1/pi(1pi)pipi1pi=n1/pi
whuber

Saya tidak mengerti bagaimana dapat sama dengan . lognlogn
user1603472

4
@ user1603472 maksudmu ? Ini karenai=1npilogn=logni=1npilogn=logni=1npi=logn×1
HBeel

@Roland saya menarik luar jumlah karena tidak tergantung pada . Maka jumlahnya sama dengan karena adalah densitas fungsi massa probabilitas. logni1p1,,pn
HBeel

Penjelasan yang sama dengan perincian lebih lanjut dapat ditemukan di sini: math.uconn.edu/~kconrad/blurbs/analysis/entropypost.pdf
Roland

14

Entropi dalam fisika dan teori informasi tidak berhubungan. Mereka lebih berbeda dari namanya, namun jelas ada hubungan di antara mereka. Tujuan dari metrik entropi adalah untuk mengukur jumlah informasi. Lihat jawaban saya dengan grafik di sini untuk menunjukkan bagaimana perubahan entropi dari distribusi seragam ke yang berpunuk.

Alasan mengapa entropi dimaksimalkan untuk distribusi yang seragam adalah karena itu dirancang demikian! Ya, kami sedang membangun ukuran untuk kurangnya informasi sehingga kami ingin menetapkan nilai tertinggi untuk distribusi yang paling tidak informatif.

Contoh. Saya bertanya, " Bung, di mana mobil saya ?" Jawaban Anda adalah "di suatu tempat di AS antara Samudra Atlantik dan Pasifik." Ini adalah contoh distribusi seragam. Mobil saya bisa berada di mana saja di AS. Saya tidak mendapatkan banyak informasi dari jawaban ini.

Namun, jika Anda mengatakan kepada saya "Saya melihat mobil Anda satu jam yang lalu di Rute 66 menuju dari Washington, DC" - ini bukan distribusi seragam lagi. Mobil itu lebih cenderung berada dalam jarak 60 mil dari DC, daripada di mana pun di dekat Los Angeles. Jelas ada lebih banyak informasi di sini.

Oleh karena itu, ukuran kita harus memiliki entropi tinggi untuk jawaban pertama dan lebih rendah untuk jawaban kedua. Seragam tersebut haruslah distribusi yang paling tidak informatif, pada dasarnya jawaban "Saya tidak tahu".


7

Argumen matematis didasarkan pada ketidaksetaraan Jensen untuk fungsi cekung. Yaitu, jika adalah fungsi cekung pada dan adalah titik dalam , maka: f(x)[a,b]y1,yn[a,b]nf(y1+ynn)f(y1)++f(yn)

Terapkan ini untuk fungsi cekung dan Jensen ketidaksetaraan untuk dan Anda memiliki buktinya. Perhatikan bahwa mendefinisikan distribusi probabilitas diskrit, jadi jumlahnya adalah 1. Apa yang Anda dapatkan adalah , dengan kesetaraan untuk distribusi seragam.f(x)=xlog(x)yi=p(xi)p(xi)log(n)i=1np(xi)log(p(xi))


1
Saya benar-benar menemukan bukti ketidaksetaraan Jensen menjadi bukti yang jauh lebih dalam dari pada konsep AM-GM.
Casebash

4

Di samping catatan, apakah ada hubungan antara entropi yang terjadi teori informasi dan perhitungan entropi dalam kimia (termodinamika)?

Ya ada! Anda dapat melihat karya Jaynes dan banyak lainnya mengikuti karyanya (seperti di sini dan di sini , misalnya).

Tetapi gagasan utamanya adalah bahwa mekanika statistik (dan bidang lain dalam sains juga) dapat dipandang sebagai kesimpulan yang kita lakukan tentang dunia .

Sebagai bacaan lebih lanjut, saya akan merekomendasikan buku Ariel Caticha tentang topik ini.


1

Penjelasan intuitif:

Jika kita menempatkan lebih banyak massa probabilitas ke dalam satu peristiwa variabel acak, kita harus mengambil beberapa dari peristiwa lain. Yang satu akan memiliki lebih sedikit konten informasi dan lebih banyak berat, yang lain lebih banyak konten informasi dan lebih sedikit berat. Oleh karena itu entropi yang menjadi konten informasi yang diharapkan akan turun karena acara dengan konten informasi yang lebih rendah akan lebih berat.

Sebagai kasus ekstrim bayangkan satu peristiwa mendapatkan probabilitas hampir satu, maka peristiwa lainnya akan memiliki probabilitas gabungan hampir nol dan entropi akan sangat rendah.


0

Gagasan utama: ambil turunan parsial dari setiap , atur semuanya menjadi nol, pecahkan sistem persamaan linear.pi

Ambil sejumlah terbatas mana sebagai contoh. Nyatakan .pii=1,...,nq=1i=0n1pi

H=i=0n1pilogpi(1q)logqHln2=i=0n1pilnpi(1q)lnq
Hpi=lnqpi=0
Kemudian untuk setiap , yaitu, .q=piip1=p2=...=pn


Saya senang Anda menunjukkan ini adalah "ide utama," karena itu hanya bagian dari analisis. Bagian lain - yang mungkin tidak intuitif dan sebenarnya sedikit lebih rumit - adalah untuk memverifikasi ini adalah minimum global dengan mempelajari perilaku entropi karena satu atau lebih dari menyusut ke nol. pi
Whuber
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.