Banyak deskripsi entropi yang membingungkan membingungkan dengan cara ini karena entropi tidak cukup rapi dan rapi seperti yang kadang-kadang disajikan. Secara khusus, definisi standar entropi Shannon menetapkan bahwa itu hanya berlaku ketika, seperti Wikipedia katakan, "informasi karena peristiwa independen adalah aditif."
Dengan kata lain, peristiwa independen harus independen secara statistik . Jika tidak, maka Anda harus menemukan representasi data yang menentukan peristiwa dengan cara yang membuat mereka benar-benar independen. Jika tidak, Anda akan melebih-lebihkan entropi.
Dengan kata lain, entropi Shannon hanya berlaku untuk distribusi probabilitas benar, dan tidak untuk proses acak secara umum. Untuk contoh konkret proses yang tidak sesuai dengan asumsi entropi Shannon, pertimbangkan ...
Proses Markov
Proses Markov menghasilkan serangkaian acara di mana peristiwa terbaru disampel dari distribusi yang bergantung pada satu atau lebih peristiwa sebelumnya. Jelas sekali sejumlah besar fenomena dunia nyata dimodelkan dengan lebih baik sebagai proses Markov daripada sebagai distribusi probabilitas independen yang terpisah. Misalnya: teks yang sedang Anda baca sekarang!
Laju entropi Shannon yang dihitung secara naif dari proses Markov akan selalu lebih besar atau sama dengan laju entropi sebenarnya dari proses tersebut. Untuk mendapatkan entropi proses yang sebenarnya, Anda harus memperhitungkan ketergantungan statistik di antara berbagai peristiwa. Dalam kasus sederhana, rumus untuk itu terlihat seperti ini :
H( S) = - Âsayahalsaya∑j halsaya( j ) loghalsaya( j )
Ini juga dapat direpresentasikan seperti ini :
H( Y) = - Âsaya jμsayaPsaya jlogPsaya j
Sekali lagi mengutip Wikipedia, di sini " μsaya adalah distribusi asimtotik dari rantai" - yaitu, probabilitas keseluruhan bahwa peristiwa tertentu akan terjadi selama horizon panjang.
Ini semua adalah cara yang rumit untuk mengatakan bahwa bahkan ketika Anda dapat menghitung probabilitas keseluruhan dari suatu peristiwa tertentu, urutan peristiwa tertentu lebih mungkin daripada yang lain dihasilkan oleh proses Markov. Jadi misalnya, tiga untaian kata bahasa Inggris berikut ini semakin kecil kemungkinannya:
- Mereka berlari ke pohon
- Pohon itu berlari ke arah mereka
- Pohon mereka berlari
Tetapi entropi Shannon akan menilai ketiga string sebagai sama-sama mungkin. Entropi proses Markov memperhitungkan perbedaannya, dan sebagai hasilnya, ia memberikan tingkat entropi yang lebih rendah untuk proses tersebut.
Tingkat entropi tergantung pada model
Jika Anda memperbesar jalan keluar, inilah gambaran besarnya: laju entropi dari urutan peristiwa tertentu dari sumber yang tidak diketahui bergantung pada model. Anda akan menetapkan tingkat entropi yang berbeda untuk serangkaian acara tertentu tergantung pada bagaimana Anda memodelkan proses yang menghasilkannya.
Dan sangat sering, model proses Anda tidak akan benar. Ini bukan masalah yang sederhana atau mudah untuk dipecahkan. Pada kenyataannya, secara umum, tidak mungkin untuk menetapkan tingkat entropi yang benar ke urutan peristiwa yang cukup panjang dan kompleks jika Anda tidak tahu apa proses yang mendasarinya sebenarnya. Ini adalah hasil sentral dalam teori informasi algoritmik .
Apa yang dimaksud dalam praktik adalah bahwa dengan sumber yang tidak diketahui dari urutan kejadian, model yang berbeda akan menghasilkan entropi yang berbeda, dan tidak mungkin untuk mengetahui mana yang benar dalam jangka panjang - meskipun yang menetapkan entropi terendah mungkin yang terbaik.