Secara heuristik, fungsi kepadatan probabilitas pada dengan entropi maksimum ternyata adalah yang sesuai dengan jumlah pengetahuan paling sedikit dari , dengan kata lain distribusi Seragam.{x1,x2,..,.xn}{x1,x2,..,.xn}
Sekarang, untuk bukti yang lebih formal pertimbangkan hal berikut:
Fungsi kepadatan probabilitas pada adalah sekumpulan bilangan real non-negatif yang menambahkan hingga 1. Entropi adalah fungsi kontinu dari -tuple , dan titik-titik ini terletak pada subset kompak dari , jadi ada -tuple di mana entropi dimaksimalkan. Kami ingin menunjukkan ini terjadi pada dan tidak ada tempat lain.{x1,x2,..,.xn}p1,...,pnn(p1,...,pn)Rn( 1 / n , . . . , 1 / n )n(1/n,...,1/n)
Misalkan tidak semuanya sama, katakan . (Jelas ) Kami akan menemukan kepadatan probabilitas baru dengan entropi yang lebih tinggi. Ini kemudian mengikuti, karena entropi dimaksimalkan pada beberapa -tuple, entropi itu secara unik dimaksimalkan pada -tuple dengan untuk semua .p 1 < p 2 n ≠ 1 n n p i = 1 / n ipjp1<p2n≠1nnpi=1/ni
Sejak , untuk positif kecil, kami memiliki . Entropi minus entropi dari sama dengan ε p 1 + ε < p 2 - ε { p 1 + ε , p 2 - ε , p 3 , . . . , P n } { p 1 , p 2 , p 3 , . . . , p n }p1<p2εp1+ε<p2−ε{p1+ε,p2−ε,p3,...,pn}{p1,p2,p3,...,pn}
ε-p1log(1+ε
−p1log(p1+εp1)−εlog(p1+ε)−p2log(p2−εp2)+εlog(p2−ε)
Untuk melengkapi buktinya, kami ingin menunjukkan ini positif untuk cukup kecil . Tulis ulang persamaan di atas sebagai
ε−p1log(1+εp1)−ε(logp1+log(1+εp1))−p2log(1−εp2)+ε(logp2+log(1−εp2))
Mengingat bahwa untuk kecil , persamaan di atas adalah
yang positif ketika cukup kecil sejak .x - ε - ε log p 1 + ε + ε log p 2 + O ( ε 2 ) = ε log ( p 2 / p 1 ) + O ( ε 2 ) ε p 1 < p 2log(1+x)=x+O(x2)x
−ε−εlogp1+ε+εlogp2+O(ε2)=εlog(p2/p1)+O(ε2)
εp1<p2
Bukti yang kurang ketat adalah sebagai berikut:
Pertimbangkan dulu Lemma berikut:
Biarkan dan kontinu fungsi kepadatan probabilitas pada interval
di bilangan real, dengan dan pada . Kami memiliki
jika kedua integral ada. Selain itu, ada persamaan jika dan hanya jika untuk semua .q ( x ) I p ≥ 0 q > 0 I - ∫ I p log p d x ≤ - ∫ Saya p log q d xp(x)q(x)Ip≥0q>0I
−∫Iplogpdx≤−∫Iplogqdx
p(x)=q(x)x
Sekarang, misalkan menjadi fungsi kerapatan probabilitas pada , dengan . Membiarkan untuk semua ,
yang merupakan entropi . Karena itu, kata kami, , dengan kesetaraan jika dan hanya jika seragam.p{x1,...,xn}pi=p(xi)qi=1/ni
−∑i=1npilogqi=∑i=1npilogn=logn
qh(p)≤h(q)p
Juga, wikipedia juga memiliki diskusi singkat tentang ini: wiki