Salah satu hyperparameter untuk jaringan LSTM adalah suhu. Apa itu?

machine-learning neural-networks

— Justin Shenk
sumber

Temperatur adalah hiperparameter LSTMs (dan jaringan saraf umumnya) yang digunakan untuk mengontrol keacakan prediksi dengan menskalakan log sebelum menerapkan softmax. Misalnya, di Magenta TensorFlow ini implementasi dari LSTMs, suhu mewakili berapa banyak untuk membagi logits oleh sebelum komputasi Softmax tersebut.

Ketika suhu 1, kami menghitung softmax langsung pada logit (output unscaled dari lapisan sebelumnya), dan menggunakan suhu 0,6 model menghitung softmax pada , menghasilkan nilai yang lebih besar. Melakukan softmax pada nilai yang lebih besar membuat LSTMlebih percaya diri(lebih sedikit input diperlukan untuk mengaktifkan lapisan output) tetapi jugalebih konservatifdalam sampelnya (lebih kecil kemungkinannya untuk sampel dari kandidat yang tidak mungkin). Menggunakan suhu yang lebih tinggi menghasilkan distribusi probabilitas yang lebih lembut di atas kelas, dan membuat RNN lebih "mudah bergairah" dengan sampel, menghasilkanlebih banyak keragamandan jugalebih banyak kesalahan. $\frac{logits}{0.6}$

Jaringan saraf menghasilkan probabilitas kelas dengan vektor logit mana dengan melakukan fungsi softmax untuk menghasilkan vektor probabilitas dengan membandingkan dengan log lainnya. . $\mathbf{z}$ $\mathbf{z} =$ $(z_1,\ldots,z_n)$ $\mathbf{q} = (q_1,\ldots,q_n)$ $z_i$

$q_i = \frac{\exp{(z_i/T)}}{\sum_j\exp{(z_j/T)}}\tag{1}$

$T$

Fungsi softmax menormalkan kandidat pada setiap iterasi jaringan berdasarkan nilai eksponensial mereka dengan memastikan output jaringan semuanya antara nol dan satu pada setiap catatan waktu.

Oleh karena itu suhu meningkatkan sensitivitas terhadap kandidat probabilitas rendah. Dalam LSTM, kandidat, atau sampel, dapat berupa surat, kata, atau not musik, misalnya:

$\tau \to \infty$ $\tau \to 0^{+}$

- dari artikel Wikipedia tentang fungsi softmax

Referensi

Hinton, Geoffrey, Oriol Vinyals, dan Jeff Dean. "Menyaring pengetahuan dalam jaringan saraf." arXiv preprint arXiv: 1503.02531 (2015). arXiv

— Justin Shenk
sumber

Ini dalam singgungan dengan distribusi Boltzmann (atau distribusi Gibbs) - distribusi probabilitas yang digunakan dalam mekanika statistik.

— mc2

Apa itu Suhu di LSTM (dan jaringan saraf umumnya)?

Referensi