Seberapa dalam hubungan antara fungsi softmax dalam ML dan distribusi Boltzmann dalam termodinamika?

12

Fungsi softmax, yang biasa digunakan dalam jaringan saraf untuk mengubah bilangan real menjadi probabilitas, adalah fungsi yang sama dengan distribusi Boltzmann, distribusi probabilitas atas energi untuk ensembel partikel dalam kesetimbangan termal pada suhu T yang diberikan dalam termodinamika.

Saya dapat melihat beberapa alasan heuristik yang jelas mengapa ini praktis:

Tidak masalah jika nilai input negatif, softmax menampilkan nilai positif yang berjumlah satu.
Itu selalu dapat dibedakan, yang berguna untuk backpropagation.
Ini memiliki parameter 'suhu' yang mengendalikan seberapa lunak jaringan seharusnya terhadap nilai-nilai kecil (ketika T sangat besar, semua hasil kemungkinan sama besar, ketika sangat kecil, hanya nilai dengan input terbesar yang dipilih).

Apakah fungsi Boltzmann hanya digunakan sebagai softmax untuk alasan praktis, atau apakah ada hubungan yang lebih dalam dengan fisika termodinamika / statistik?

machine-learning neural-networks softmax

— ahura
sumber

1

Saya tidak mengerti mengapa ini menarik banyak suara - ini adalah pertanyaan yang masuk akal.

— Matt Krause

2

+1 ke @ MattKrause — NN pasti sesuai topik, seperti — saya kira — fisika statistik.

— Sean Easter

Saya dapat melihat bagaimana pertanyaannya lebih 'terbuka' daripada kebanyakan pertanyaan SO, dalam arti bahwa saya tidak mencari solusi untuk suatu masalah, tetapi pengetahuan yang lebih umum. Namun, saya tidak bisa memikirkan tempat yang lebih baik untuk menanyakannya atau cara yang lebih spesifik untuk menanyakannya.

— Ahura

3

Setahu saya tidak ada alasan yang lebih dalam, terlepas dari kenyataan bahwa banyak orang yang menggunakan JST di luar tahap Perceptron adalah fisikawan.

Terlepas dari manfaat yang disebutkan, pilihan khusus ini memiliki lebih banyak keuntungan. Seperti disebutkan, ia memiliki parameter tunggal yang menentukan perilaku keluaran. Yang pada gilirannya dapat dioptimalkan atau disetel dengan sendirinya.

Singkatnya, ini adalah fungsi yang sangat berguna dan terkenal yang mencapai semacam 'regularisasi', dalam arti bahkan nilai input terbesar pun dibatasi.

Tentu saja ada banyak fungsi lain yang mungkin memenuhi persyaratan yang sama, tetapi mereka kurang dikenal di dunia fisika. Dan sebagian besar waktu, mereka lebih sulit digunakan.

— kerub
sumber

2

fungsi softmax juga digunakan dalam pemodelan pilihan diskrit, itu sama dengan model logit, jika Anda berasumsi ada fungsi utilitas yang terkait dengan setiap kelas, dan fungsi utilitas sama dengan output jaringan saraf + istilah kesalahan mengikuti Gumbel distribusi, probabilitas milik kelas sama dengan fungsi softmax dengan jaringan saraf sebagai input. Lihat: https://eml.berkeley.edu/reprints/mcfadden/zarembka.pdf

ada alternatif untuk model logit, seperti model probit, di mana istilah kesalahan diasumsikan mengikuti distribusi normal standar, yang merupakan asumsi yang lebih baik. Namun, kemungkinannya tidak dapat dipecahkan dan mahal untuk dipecahkan, oleh karena itu tidak umum digunakan dalam jaringan saraf

— John
sumber