Saya membaca makalah normalisasi batch (BN) (1) dan tidak mengerti perlunya menggunakan moving average untuk melacak akurasi model dan bahkan jika saya menerima bahwa itu adalah hal yang benar untuk dilakukan, saya tidak mengerti apa yang sebenarnya mereka lakukan.
Menurut pemahaman saya (yang salah saya), makalah ini menyebutkan bahwa itu menggunakan statistik populasi daripada mini-batch, statistik setelah model selesai pelatihan. Setelah beberapa diskusi tentang perkiraan yang tidak bias (yang tampaknya bersinggungan dengan saya dan tidak mengerti mengapa itu berbicara tentang itu) mereka pergi dan berkata:
Sebagai gantinya menggunakan rata-rata bergerak, kami melacak akurasi model saat ia berlatih.
Itu adalah bagian yang membingungkan saya. Mengapa mereka melakukan rata-rata bergerak untuk memperkirakan keakuratan model dan atas kumpulan data apa?
Biasanya apa yang dilakukan orang untuk memperkirakan generalisasi model mereka, mereka hanya melacak kesalahan validasi model mereka (dan berpotensi menghentikan penurunan gradien mereka untuk mengatur). Namun, tampaknya normalisasi batch melakukan sesuatu yang sama sekali berbeda. Dapatkah seseorang mengklarifikasi apa dan mengapa melakukan sesuatu yang berbeda?
1 : Ioffe S. dan Szegedy C. (2015),
"Normalisasi Batch: Mempercepat Pelatihan Jaringan Dalam dengan Mengurangi Pergeseran Kovarian Internal",
Prosiding Konferensi Internasional ke-32 tentang Pembelajaran Mesin , Lille, Prancis, 2015.
Jurnal Penelitian Pembelajaran Mesin: Volume W&CP 37