Pertimbangkan Bayesian posterior . Secara asimptotik, maksimum terjadi pada estimasi MLE , yang hanya memaksimalkan kemungkinan .
Semua konsep ini — prior Bayesian, memaksimalkan kemungkinan — terdengar super berprinsip dan sama sekali tidak sewenang-wenang. Tidak ada catatan yang terlihat.
Namun MLE meminimalkan divergensi KL antara distribusi nyata dan , yaitu, meminimalkan
Woah — darimana log ini berasal? Kenapa KL divergence pada khususnya?
Sebagai contoh, mengapa meminimalkan perbedaan yang tidak sesuai dengan konsep super berpose dan termotivasi dari poses Bayesian dan memaksimalkan kemungkinan di atas?
Tampaknya ada sesuatu yang istimewa tentang divergensi dan / atau log KL dalam konteks ini. Tentu saja, kita bisa melempar tangan kita ke udara dan mengatakan itu memang matematika. Tetapi saya curiga mungkin ada intuisi yang lebih dalam atau koneksi untuk mengungkap.