Latar Belakang: Saya sedang mempelajari Bab 6 Pembelajaran Jauh oleh Ian Goodfellow dan Yoshua Bengio dan Aaron Courville. Pada bagian 6.2.2.2 (halaman 182 dari 183 yang dapat dilihat di sini ) penggunaan sigmoid untuk output termotivasi.
Untuk meringkas beberapa materi yang mereka biarkan menjadi neuron output sebelum aktivasi diterapkan di mana adalah output dari lapisan tersembunyi sebelumnya, adalah vektor bobot dan adalah bias skalar. Vektor input dinotasikan (yang adalah fungsi dari) dan nilai output dinotasikan mana adalah fungsi sigmoid. Buku ini ingin mendefinisikan distribusi probabilitas di atas menggunakan nilai . Dari paragraf kedua halaman 183:h w b x h y = ϕ ( z ) ϕ y z
Kami menghilangkan ketergantungan pada untuk saat ini untuk membahas bagaimana mendefinisikan distribusi probabilitas di atas menggunakan nilai . Sigmoid dapat dimotivasi dengan membangun distribusi probabilitas yang tidak dinormalkan , yang tidak berjumlah 1. Kita kemudian dapat membaginya dengan konstanta yang sesuai untuk mendapatkan distribusi probabilitas yang valid. Jika kita mulai dengan asumsi bahwa probabilitas log yang tidak dinormalisasi adalah linear dalam dan , kita dapat secara eksponensial untuk mendapatkan probabilitas yang tidak dinormalisasi. Kami kemudian menormalkan untuk melihat bahwa ini menghasilkan distribusi Bernoulli yang dikendalikan oleh transformasi sigmoidal z: y z ˜ P ( y ) y z log ˜ P ( y )
Pertanyaan: Saya bingung tentang dua hal, terutama yang pertama:
- Dari mana asumsi awal berasal? Mengapa probabilitas log yang tidak normal linear dalam dan ? Dapatkah seseorang memberi saya sedikit informasi tentang bagaimana penulis memulai dengan ?z log ˜ P ( y ) = y z
- Bagaimana mengikuti baris terakhir?