Saya sedang mengerjakan makalah Cho 2014 yang memperkenalkan arsitektur encoder-decoder untuk pemodelan seq2seq.
Dalam makalah, mereka tampaknya menggunakan probabilitas input yang diberikan output (atau kemungkinan negatif-log) sebagai fungsi kerugian untuk input panjang dan output panjang :
Namun, saya pikir saya melihat beberapa masalah dengan menggunakan ini sebagai fungsi kerugian:
- Tampaknya menganggap guru memaksa selama pelatihan (yaitu, alih-alih menggunakan dugaan decoder untuk posisi sebagai input untuk iterasi berikutnya, ia menggunakan token yang dikenal.
- Itu tidak akan menghukum urutan panjang. Karena probabilitasnya adalah dari hingga dari output, jika decoder menghasilkan urutan yang lebih lama, semua setelah pertama tidak akan menjadi faktor kerugian.
- Jika model memprediksi token awal String, fungsi kerugian masih membutuhkan langkah-langkah - yang berarti kita menghasilkan output berdasarkan "bermacam-macam" model yang tidak terlatih. Tampaknya ceroboh.
Apakah ada masalah ini yang valid? Jika demikian, apakah ada kemajuan dalam fungsi kerugian yang lebih lanjut?