Setelah banyak memukulkan Cross Validated, saya masih tidak merasa seperti saya lebih dekat untuk memahami perbedaan KL di luar bidang teori informasi. Agak aneh jika seseorang dengan latar belakang matematika lebih mudah memahami penjelasan teori informasi.
Untuk menguraikan pemahaman saya dari latar belakang teori informasi: Jika kita memiliki variabel acak dengan jumlah hasil yang terbatas, ada pengkodean optimal yang memungkinkan kita untuk mengkomunikasikan hasilnya dengan orang lain dengan rata-rata pesan terpendek (saya menemukan ini termudah untuk gambar dalam hal bit). Panjang pesan yang diharapkan yang perlu dikomunikasikan hasilnya diberikan oleh jika pengkodean optimal digunakan. Jika Anda menggunakan pengodean sub optimal, maka KL divergence memberi tahu kami rata-rata berapa lama lagi pesan kami.
Saya suka penjelasan ini, karena secara intuitif berhubungan dengan asimetri divergensi KL. Jika kita memiliki dua sistem yang berbeda, yaitu dua koin yang dimuat berbeda, mereka akan memiliki penyandian optimal yang berbeda. Saya entah bagaimana secara naluriah merasa bahwa menggunakan pengkodean sistem kedua untuk yang pertama adalah "sama buruknya" dengan menggunakan pengkodean sistem pertama untuk yang kedua. Tanpa melalui proses berpikir tentang bagaimana saya meyakinkan diri sendiri, saya sekarang cukup senang bahwa memberi Anda ini "panjang pesan ekstra diharapkan", ketika menggunakan pengkodean untuk .
Namun, sebagian besar definisi divergensi KL, termasuk Wikipedia kemudian membuat pernyataan (menjaga ini dalam istilah diskrit sehingga dapat dibandingkan dengan interpretasi teori informasi yang bekerja jauh lebih baik dalam istilah diskrit sebagai bit diskrit) bahwa jika kita memiliki dua probabilitas diskrit distribusi, lalu KL memberikan beberapa metrik "betapa berbedanya mereka". Saya belum melihat penjelasan tunggal tentang bagaimana kedua konsep ini bahkan terkait. Saya sepertinya ingat dalam bukunya tentang inferensi, Dave Mackay membuat poin tentang bagaimana kompresi dan inferensi data pada dasarnya adalah hal yang sama, dan saya menduga pertanyaan saya benar-benar terkait dengan ini.
Terlepas dari apakah itu benar atau tidak, pertanyaan yang saya pikirkan adalah seputar masalah kesimpulan. (Keeping things discrete), jika kita memiliki dua sampel radioaktif, dan kita tahu bahwa salah satunya adalah bahan tertentu dengan radioaktivitas yang diketahui (ini adalah fisika yang meragukan tetapi mari kita berpura-pura bahwa alam semesta bekerja seperti itu) dan dengan demikian kita tahu distribusi "benar" klik radioaktif yang harus kita ukur harus poissonian dengan dikenal , apakah adil untuk membangun distribusi empiris untuk kedua sampel dan membandingkan divergensi KL-nya dengan distribusi yang diketahui dan mengatakan semakin rendah kemungkinan bahan itu?
Beranjak dari fisika yang meragukan, jika saya tahu dua sampel ditarik dari distribusi yang sama tetapi saya tahu mereka tidak dipilih secara acak, akan membandingkan divergensi KL mereka dengan yang dikenal, distribusi global memberi saya rasa "seberapa bias" sampel tersebut , relatif terhadap satu dan lainnya?
Dan akhirnya, jika jawaban untuk pertanyaan sebelumnya adalah ya, lalu mengapa? Apakah mungkin untuk memahami hal-hal ini dari sudut pandang statistik saja tanpa membuat (mungkin renggang) koneksi ke teori informasi?