Jawaban:
Anda akan memerlukan beberapa kondisi untuk mengklaim kesetaraan antara meminimalkan entropi silang dan meminimalkan divergensi KL. Saya akan meletakkan pertanyaan Anda di bawah konteks masalah klasifikasi menggunakan cross entropy sebagai fungsi kerugian.
Mari kita ingat bahwa entropi digunakan untuk mengukur ketidakpastian sistem, yang didefinisikan sebagai
Misalnya, acara A I will die eventually
hampir pasti (mungkin kita dapat memecahkan masalah penuaan kata almost
), oleh karena itu memiliki entropi rendah yang hanya memerlukan informasi the aging problem cannot be solved
untuk membuatnya yakin. Namun, peristiwa B The president will die in 50 years
jauh lebih tidak pasti daripada A, sehingga perlu lebih banyak informasi untuk menghilangkan ketidakpastian.
Sekarang lihat definisi KL divergensi antara peristiwa A dan B
Untuk menghubungkan cross entropy dengan entropy dan KL divergence, kami meresmikan cross entropy dalam hal peristiwa A dan B sebagai
Pertanyaan selanjutnya mengikuti secara alami bagaimana entropi dapat berupa konstanta. Dalam tugas pembelajaran mesin, kita mulai dengan dataset (dilambangkan sebagai) yang merupakan masalah yang harus dipecahkan, dan tujuan pembelajaran adalah untuk membuat model estimasi distribusi (dilambangkan sebagai ) sedekat mungkin dengan distribusi masalah yang sebenarnya (dilambangkan sebagai ).
tidak diketahui dan diwakili oleh . Karena itu di dunia yang ideal, kami harapkan
Saya kira itu karena model biasanya bekerja dengan sampel yang dikemas dalam mini-batch. Untuk KL divergence dan Cross-Entropy, relasinya dapat ditulis sebagai
Di banyak proyek pembelajaran mesin, minibatch terlibat untuk mempercepat pelatihan, di mana dari minibatch mungkin berbeda dari global . Dalam kasus seperti itu, Cross-Entropy relatif lebih kuat dalam praktiknya sementara divergensi KL membutuhkan H (p) yang lebih stabil untuk menyelesaikan pekerjaannya.
Inilah yang saya pikirkan:
dimana dan adalah dua distribusi probabilitas. Dalam pembelajaran mesin, kita biasanya tahu, yang merupakan distribusi target. Misalnya, dalam masalah klasifikasi biner,, jadi jika , dan , dan sebaliknya. Diberikan masing-masingdimana adalah jumlah total poin dalam dataset, kami biasanya ingin meminimalkan perbedaan KL antara distribusi target dan perkiraan distribusi kami , dirata-rata atas semua . (Kami melakukannya dengan menyetel parameter model kami. Jadi, untuk setiap contoh pelatihan, model ini memuntahkan distribusi di atas label kelas dan .) Untuk setiap contoh, karena target ditetapkan, distribusinya tidak pernah berubah. Jadi, konstan untuk masing-masing , terlepas dari apa parameter model kami saat ini adalah. Jadi, minimizer dari sama dengan minimizer dari .
Jika Anda punya situasi di mana dan keduanya variabel (katakanlah, di mana dan dua variabel laten) dan ingin mencocokkan kedua distribusi, maka Anda harus memilih antara meminimalkan dan meminimalkan . Ini karena meminimalkan menyiratkan memaksimalkan sambil meminimalkan menyiratkan meminimalkan . Untuk melihat yang terakhir, kita bisa menyelesaikan persamaan () untuk :
Di VI, Anda harus memilih antara meminimalkan dan , yang tidak sama karena divergensi KL tidak simetris. Jika kita sekali lagi mengobati seperti diketahui, lalu meminimalkan akan menghasilkan distribusi yang tajam dan fokus pada satu atau beberapa area sambil meminimalkan akan menghasilkan distribusi yang luas dan mencakup berbagai domain . Sekali lagi, yang terakhir adalah karena meminimalkan menyiratkan memaksimalkan entropi .