Ini bukan bidang saya, jadi beberapa renungan:
Saya akan mulai dengan konsep kejutan . Apa artinya terkejut? Biasanya, itu berarti sesuatu terjadi yang tidak diharapkan terjadi. Jadi, kejutan itu konsep probabilistik dan dapat dijelaskan seperti itu (IJ Good telah menulis tentang itu). Lihat juga Wikipedia dan Kejutan Bayesian .
Ambil kasus tertentu dari situasi ya / tidak, sesuatu dapat terjadi atau tidak. Ini terjadi dengan probabilitas p . Katakanlah, jika p = 0,9 dan itu terjadi, Anda tidak benar-benar terkejut. Jika p=0.05 dan itu terjadi, Anda agak terkejut. Dan jika p=0.0000001 dan itu terjadi, Anda benar-benar terkejut. Jadi, ukuran alami dari "nilai kejutan dalam hasil yang diamati" adalah beberapa fungsi (anti) monoton dari probabilitas apa yang terjadi. Tampaknya wajar (dan berfungsi dengan baik ...) untuk mengambil logaritma probabilitas dari apa yang terjadi, dan kemudian kita membuang tanda minus untuk mendapatkan angka positif. Juga, dengan mengambil logaritma kami berkonsentrasi pada urutan kejutan, dan, dalam praktiknya, probabilitas sering hanya diketahui sesuai pesanan, kurang lebih .
Jadi, kita mendefinisikan
Surprise(A)=−logp(A)
mana A adalah hasil yang diamati, dan p(A) adalah probabilitasnya.
Sekarang kita bisa bertanya apa kejutan yang diharapkan . Biarkan X menjadi variabel acak Bernoulli dengan probabilitas hal . Ini memiliki dua kemungkinan hasil, 0 dan 1. Nilai kejutan masing-masing adalah
Kejutan ( 0 )Kejutan ( 1 )= - log( 1 - p )= - loghal
jadi kejutan ketika mengamatiXsendiri merupakan variabel acak dengan harapan
p ⋅ - logp + ( 1 - p ) ⋅ - log( 1 - p )
dan itu adalah --- mengejutkan! --- entropiX! Jadi entropidiharapkan kejutan!
Sekarang, pertanyaan ini adalah tentang entropi maksimum . Mengapa ada orang yang ingin menggunakan distribusi entropi maksimum? Yah, itu pasti karena mereka ingin terkejut secara maksimal! Mengapa ada yang mau itu?
Cara untuk melihatnya adalah sebagai berikut: Anda ingin belajar tentang sesuatu, dan untuk tujuan itu Anda menyiapkan beberapa pengalaman belajar (atau percobaan ...). Jika Anda sudah tahu segalanya tentang topik ini, Anda dapat selalu memprediksi dengan sempurna, jadi jangan pernah terkejut. Maka Anda tidak pernah mendapatkan pengalaman baru, jadi jangan belajar sesuatu yang baru (tapi Anda sudah tahu segalanya --- tidak ada yang bisa dipelajari, jadi tidak apa-apa). Dalam situasi yang lebih khas yang membuat Anda bingung, tidak dapat memprediksi dengan sempurna, ada kesempatan belajar! Ini mengarah pada gagasan bahwa kita dapat mengukur "jumlah pembelajaran yang mungkin" dengan kejutan yang diharapkan , yaitu entropi. Jadi, memaksimalkan entropi tidak lain adalah memaksimalkan kesempatan untuk belajar. Itu terdengar seperti konsep yang berguna, yang dapat berguna dalam merancang eksperimen dan hal-hal semacam itu.
Contoh puitis adalah yang terkenal
Jika Anda tahu machine, dann er adalah erzählen ...
Satu contoh praktis: Anda ingin merancang sistem untuk pengujian online (artinya online bahwa tidak semua orang mendapatkan pertanyaan yang sama, pertanyaan dipilih secara dinamis tergantung pada jawaban sebelumnya, sehingga dioptimalkan, dalam beberapa cara, untuk setiap orang).
Jika Anda membuat pertanyaan yang terlalu sulit, sehingga tidak pernah dikuasai, Anda tidak belajar apa pun. Itu menunjukkan Anda harus menurunkan tingkat kesulitan. Apa tingkat kesulitan optimal, yaitu tingkat kesulitan yang memaksimalkan laju pembelajaran? Biarkan probabilitas jawaban yang benar menjadi hal . Kami ingin nilai hal yang memaksimalkan entropi Bernoulli. Tapi itu p=0.5 . Jadi, Anda bertujuan untuk menyatakan pertanyaan di mana kemungkinan mendapatkan jawaban yang benar (dari orang itu) adalah 0,5.
Kemudian kasus variabel acak kontinu X . Bagaimana kita bisa terkejut dengan mengamati X ? Probabilitas dari setiap hasil tertentu {X=x} adalah nol, definisi −logp tidak berguna. Tetapi kita akan terkejut jika probabilitas mengamati sesuatu seperti x kecil, yaitu, jika nilai fungsi kerapatan f( x ) kecil (dengan asumsi f adalah kontinu). Itu mengarah pada definisi
Kejutan ( x ) = - logf( x )
Dengan definisi itu, kejutan yang diharapkan dari mengamati X adalah
E{ - logf( X) } = - ∫f( x ) logf( x )dx
yaitu, kejutan diharapkan dari mengamatiX adalah entropi diferensial dariX . Ini juga dapat dilihat sebagai kemungkinan loglikel yang diharapkan.
X