Divergensi Kullback-Leibler bukanlah metrik yang tepat, karena tidak simetris dan juga, tidak memenuhi ketidaksetaraan segitiga. Jadi "peran" yang dimainkan oleh dua distribusi berbeda, dan penting untuk mendistribusikan peran ini sesuai dengan fenomena dunia nyata yang diteliti.
Ketika kami menulis (OP telah menghitung ekspresi menggunakan basis-2 logaritma)
K(P||Q)=∑ilog2(pi/qi)pi
kami menganggap distribusi sebagai "target distribusi" (biasanya dianggap sebagai distribusi yang sebenarnya), yang kami perkirakan dengan menggunakan distribusi Q.PQ
Sekarang,
∑sayacatatan2( halsaya/ qsaya) halsaya= ∑sayacatatan2( halsaya) halsaya- ∑sayacatatan2( qsaya) halsaya= - H( P) - EP( ln( Q ) )
di mana adalah entropi Shannon dari distribusi P dan - E P ( ln ( Q ) ) disebut "lintas-entropi P dan Q " -juga tidak simetris.H(P)P−EP(ln(Q))PQ
Penulisan
K(P||Q)=H(P,Q)−H(P)
(di sini juga, urutan di mana kita menulis distribusi dalam ekspresi hal-hal lintas-entropi, karena juga tidak simetris), memungkinkan kita untuk melihat bahwa KL-Divergence mencerminkan peningkatan entropi selama entropi tidak dapat dihindari distribusi .P
Jadi, tidak , KL-divergensi lebih baik tidak diartikan sebagai "ukuran jarak" antara distribusi, tetapi sebagai ukuran peningkatan entropi karena penggunaan perkiraan untuk distribusi yang benar daripada distribusi yang benar itu sendiri .
Jadi kita berada di tanah Teori Informasi. Untuk mendengarnya dari master (Cover & Thomas) "
... jika kita mengetahui distribusi dari variabel acak, kita dapat membuat kode dengan panjang deskripsi rata-rata H ( P ) . Sebaliknya, jika kita menggunakan kode untuk distribusi Q , kita akan membutuhkan bit H ( P ) + K ( P | | Q ) rata-rata untuk menggambarkan variabel acak.PH(P)QH(P)+K(P||Q)
Kata orang bijak yang sama
... itu bukan jarak sebenarnya antara distribusi karena tidak simetris dan tidak memuaskan ketidaksetaraan segitiga. Meskipun demikian, sering kali berguna untuk menganggap entropi relatif sebagai "jarak" antara distribusi.
Tetapi pendekatan yang terakhir ini berguna terutama ketika seseorang mencoba untuk meminimalkan KL-divergence untuk mengoptimalkan beberapa prosedur estimasi. Untuk interpretasi nilai numeriknya sendiri , itu tidak berguna, dan orang harus memilih pendekatan "peningkatan entropi".
Untuk distribusi khusus dari pertanyaan (selalu menggunakan basis-2 logaritma)
K(P||Q)=0.49282,H(P)=1.9486
QP