Teori Informasi Elemen buku teks memberi kita contoh:
Sebagai contoh, jika kita tahu p distribusi sebenarnya dari variabel acak, kita bisa membuat kode dengan panjang deskripsi rata-rata H (p). Sebaliknya, jika kita menggunakan kode untuk distribusi q, kita akan membutuhkan rata-rata H (p) + D (p | | q) untuk menggambarkan variabel acak.
Untuk memparafrasekan pernyataan di atas, kita dapat mengatakan bahwa jika kita mengubah distribusi informasi (dari q ke p) kita memerlukan bit ekstra D (p || q) untuk mengkodekan distribusi yang baru.
Sebuah ilustrasi
Izinkan saya mengilustrasikan ini menggunakan satu aplikasi dalam pemrosesan bahasa alami.
Pertimbangkan bahwa sekelompok besar orang, berlabel B, adalah mediator dan masing-masing dari mereka diberi tugas untuk memilih kata benda dari turkey
, animal
dan book
dan mengirimkan ke C. Ada nama pria A yang dapat mengirimkan masing-masing email ke memberi mereka beberapa petunjuk. Jika tidak ada seorang pun di grup yang menerima email, mereka dapat mengangkat alis mereka dan ragu-ragu untuk sementara mempertimbangkan kebutuhan C. Dan probabilitas setiap opsi yang dipilih adalah 1/3. Distribusi yang benar-benar seragam (jika tidak, itu mungkin berhubungan dengan preferensi mereka sendiri dan kami mengabaikannya).
Tetapi jika mereka diberi kata kerja, seperti baste
, 3/4 dari mereka dapat memilih turkey
dan 3/16 memilih animal
dan 1/16 memilih book
. Lalu berapa banyak informasi dalam bit yang diperoleh masing-masing mediator setelah mereka tahu kata kerjanya? Ini:
D(p(nouns|baste)||p(nouns))=∑x∈{turkey,animal,book}p(x|baste)log2p(x|baste)p(x)=34∗log23413+316∗log231613+116∗log211613=0.5709 bits
Tapi bagaimana jika kata kerja yang diberikan adalah read
? Kita dapat membayangkan bahwa mereka semua akan memilih book
tanpa ragu-ragu , maka perolehan informasi rata-rata untuk setiap mediator dari kata kerja read
adalah:
D(p(nouns|read)||p(nouns))=∑x∈{book}p(x|read)log2p(x|read)p(x)=1∗log2113=1.5849 bits
Kita dapat melihat bahwa kata kerjanya read
dapat memberi lebih banyak informasi kepada para mediator. Dan itulah yang dapat diukur oleh entropi relatif.
Mari kita lanjutkan kisah kita. Jika C mencurigai bahwa kata benda itu mungkin salah karena A mengatakan kepadanya bahwa ia mungkin telah melakukan kesalahan dengan mengirimkan kata kerja yang salah ke mediator. Lalu berapa banyak informasi dalam bit yang dapat diberikan sepotong berita buruk seperti C?
1) jika kata kerja yang diberikan oleh A adalah baste
:
D(p(nouns)||p(nouns|baste))=∑x∈{turkey,animal,book}p(x)log2p(x)p(x|baste)=13∗log21334+13∗log213316+13∗log213116=0.69172 bits
2) tetapi bagaimana jika kata kerjanya read
?
D(p(nouns)||p(nouns|baste))=∑x∈{book,∗,∗}p(x)log2p(x)p(x|baste)=13∗log2131+13∗log2130+13∗log2130=∞ bits
Karena C tidak pernah tahu apa yang akan menjadi dua kata benda lainnya dan setiap kata dalam kosa kata akan mungkin.
Kita dapat melihat bahwa divergensi KL asimetris.
Saya harap saya benar, dan jika tidak tolong beri komentar dan bantu koreksi saya. Terima kasih sebelumnya.