Dalam literatur pembelajaran mesin, untuk mewakili distribusi probabilitas, fungsi softmax sering digunakan. Apakah ada alasan untuk ini? Mengapa fungsi lain tidak digunakan?
Dalam literatur pembelajaran mesin, untuk mewakili distribusi probabilitas, fungsi softmax sering digunakan. Apakah ada alasan untuk ini? Mengapa fungsi lain tidak digunakan?
Jawaban:
Dari perspektif optimasi, ia memiliki beberapa properti yang bagus dalam hal diferensiabilitas. Untuk banyak masalah pembelajaran mesin, ini sangat cocok untuk klasifikasi 1-of-N.
Dari perspektif pembelajaran yang mendalam: Orang juga dapat berargumen bahwa dalam teori, menggunakan jaringan yang dalam dengan pengklasifikasi softmax di atas dapat mewakili fungsi probabilitas N-kelas di atas ruang fitur karena MLP memiliki properti Universal Approximation .
Softmax juga merupakan generalisasi dari fungsi sigmoid logistik dan oleh karena itu ia membawa sifat-sifat sigmoid seperti kemudahan diferensiasi dan berada dalam kisaran 0-1. Output dari fungsi sigmoid logistik juga antara 0 dan 1 dan karenanya secara alami merupakan pilihan yang cocok untuk mewakili probabilitas. Turunannya juga dinilai dalam hal outputnya sendiri. Namun, jika fungsi Anda memiliki keluaran vektor, Anda perlu menggunakan fungsi Softmax untuk mendapatkan distribusi probabilitas di atas vektor keluaran. Ada beberapa keuntungan lain dari menggunakan Softmax yang telah disebutkan oleh Indie AI, meskipun itu tidak selalu berhubungan dengan teori Universal Approxim karena Softmax bukan fungsi yang hanya digunakan untuk Neural Networks.
Referensi