Meminimalkan cross entropy sering digunakan sebagai tujuan pembelajaran dalam model generatif di mana p adalah distribusi yang benar dan q adalah distribusi yang dipelajari.
Entropi silang p dan q sama dengan entropi p ditambah divergensi KL antara p dan q.
H(p,q)=H(p)+DKL(p||q)
Anda dapat menganggap sebagai konstanta karena berasal langsung dari data pelatihan dan tidak dipelajari oleh model. Jadi, hanya istilah divergensi KL yang penting. Motivasi untuk divergensi KL sebagai jarak antara distribusi probabilitas adalah bahwa ia memberi tahu Anda berapa banyak bit informasi yang diperoleh dengan menggunakan p distribusi alih-alih perkiraan q.H(p)p
Perhatikan bahwa divergensi KL bukan metrik jarak yang tepat. Untuk satu hal, itu tidak simetris pada p dan q. Jika Anda membutuhkan metrik jarak untuk distribusi probabilitas, Anda harus menggunakan sesuatu yang lain. Tetapi, jika Anda menggunakan kata "jarak" secara informal maka Anda dapat menggunakan KL divergence.