Fungsi softmax, yang biasa digunakan dalam jaringan saraf untuk mengubah bilangan real menjadi probabilitas, adalah fungsi yang sama dengan distribusi Boltzmann, distribusi probabilitas atas energi untuk ensembel partikel dalam kesetimbangan termal pada suhu T yang diberikan dalam termodinamika.
Saya dapat melihat beberapa alasan heuristik yang jelas mengapa ini praktis:
- Tidak masalah jika nilai input negatif, softmax menampilkan nilai positif yang berjumlah satu.
- Itu selalu dapat dibedakan, yang berguna untuk backpropagation.
- Ini memiliki parameter 'suhu' yang mengendalikan seberapa lunak jaringan seharusnya terhadap nilai-nilai kecil (ketika T sangat besar, semua hasil kemungkinan sama besar, ketika sangat kecil, hanya nilai dengan input terbesar yang dipilih).
Apakah fungsi Boltzmann hanya digunakan sebagai softmax untuk alasan praktis, atau apakah ada hubungan yang lebih dalam dengan fisika termodinamika / statistik?