Saya mengerti bahwa diberikan satu set pengamatan independen yang Maximum Likelihood Estimator (atau, sama, MAP dengan datar / seragam sebelumnya) yang mengidentifikasi parameter yang menghasilkan distribusi Model p_ {Model} \ kiri (\, \ cdot \,; \ mathbf {θ} \ kanan) yang paling cocok dengan pengamatan itu adalah
atau, lebih nyaman
dan lihat peran yang dapat dimainkan dalam mendefinisikan fungsi kerugian untuk jaringan saraf dalam multi-kelas, di mana sesuai dengan parameter jaringan yang dapat dilatih (misalnya, dan pengamatan adalah pasangan dari aktivasi input dan label kelas yang benar sesuai , = { }, dengan mengambil
Apa yang saya tidak mengerti adalah bagaimana ini berhubungan dengan apa yang disebut "cross entropy" dari output (vectorized) yang benar, , dan aktivasi output yang sesuai dari jaringan, yang digunakan dalam praktek ketika mengukur kesalahan / kerugian selama pelatihan . Ada beberapa masalah terkait:
Aktivasi "sebagai probabilitas"
Salah satu langkah dalam membangun hubungan antara MLE dan cross entropy adalah menggunakan aktivasi output "seolah-olah" mereka adalah probabilitas. Tapi itu tidak jelas bagi saya bahwa mereka, atau setidaknya bahwa mereka berada.
Dalam menghitung kesalahan pelatihan - khususnya, menyebutnya "kehilangan lintas entropi" - diasumsikan bahwa (setelah menormalkan aktivasi menjadi 1)
atau
supaya kita bisa menulis
dan dengan demikian
Tetapi sementara ini tentu saja membuat probabilitas (sejauh ada sesuatu), ia tidak menempatkan batasan pada aktivasi lainnya.
Bisakah benar-benar dikatakan PMF dalam kasus itu? Apakah ada sesuatu yang membuat tidak pada kenyataannya probabilitas (dan hanya "seperti" mereka )?
Batasan kategorisasi
Langkah penting di atas dalam menyamakan MLE dengan lintas-entropi bergantung sepenuhnya pada struktur "satu-panas" dari yang mencirikan masalah pembelajaran multi-kelas (label tunggal). Struktur lain apa pun untuk akan membuat tidak mungkin untuk mendapatkan dari ke .
Apakah persamaan MLE dan minimalisasi lintas-entropi terbatas pada kasus-kasus di mana adalah "satu-panas"?
Peluang pelatihan dan prediksi yang berbeda
Selama prediksi, hampir selalu demikian
yang menghasilkan probabilitas prediksi yang benar yang berbeda dari probabilitas yang dipelajari selama pelatihan kecuali jika itu dapat diandalkan
Apakah ini dapat diandalkan? Apakah itu kemungkinan kira-kira setidaknya benar? Atau adakah argumen lain yang membenarkan persamaan ini dari nilai aktivasi yang dipelajari pada posisi label dengan probabilitas bahwa nilai maksimum dari aktivasi yang dipelajari terjadi di sana?
Teori entropi dan informasi
Bahkan dengan asumsi bahwa masalah di atas ditangani dan aktivasi adalah PMF yang valid (atau dapat diperlakukan secara bermakna seperti itu), sehingga peran yang dimainkan oleh lintas entropi dalam menghitung tidak bermasalah, tidak jelas untuk saya mengapa sangat membantu atau bermakna untuk berbicara tentang entropi dari , karena entropi Shanon berlaku untuk spesifik jenis pengkodean , yang bukan yang digunakan dalam pelatihan jaringan.
Apa peran yang dimainkan oleh entropi teoritik informasi dalam menginterpretasikan fungsi biaya, sebagai lawan dari sekadar menyediakan alat (dalam bentuk entropi silang) untuk menghitung satu (yang sesuai dengan MLE)?
softmax_cross_entropy_with_logits
: mereka menghitung dan karenanya yang mendefinisikan jaringan "yang dirancang untuk" menghasilkan probabilitas (setidaknya di lokasi label). Tidak?