Dua poin:
- Putus sekolah juga biasanya dibandingkan dengan ansambel jaringan saraf. Tampaknya ia memiliki beberapa manfaat kinerja pelatihan dan rata-rata beberapa jaringan saraf.
- Putus sekolah lebih mudah dikalibrasi daripada regularisasi. Hanya ada satu hiperparameter yang merupakan tingkat putus sekolah dan banyak orang menggunakan 0,5 saat pelatihan (dan kemudian 1,0 pada evaluasi tentu saja :)), lihat misalnya contoh TensorFlow ini .
Bagaimanapun, saya sedikit skeptis terhadap studi empiris neural networks. Ada terlalu banyak hyperparameter untuk fine tune, dari topologi jaringan ke prosedur optimasi gradient descent hingga fungsi aktivasi dan apa pun yang Anda uji seperti regularisasi. Kemudian, semuanya stochastic dan biasanya kenaikan kinerja sangat kecil sehingga Anda hampir tidak dapat menguji perbedaan secara statistik. Banyak penulis bahkan tidak repot melakukan pengujian statistik. Mereka hanya melakukan validasi silang rata-rata dan mendeklarasikan model apa pun yang memiliki perolehan poin desimal tertinggi untuk menjadi pemenang.
Anda dapat menemukan studi yang mempromosikan dropout hanya untuk dikontradiksikan oleh regularisasi yang mempromosikan lainnya.
Saya pikir itu semua bermuara pada preferensi estetika. Dropout IMHO terdengar lebih masuk akal secara biologis daripada regularisasi. Tampaknya juga lebih mudah untuk melakukan kalibrasi. Jadi, saya pribadi lebih suka kalau menggunakan framework seperti TensorFlow. Jika kita harus menggunakan jaringan saraf kita sendiri, yang sering kita lakukan, kita akan menggunakan regularisasi karena lebih mudah diimplementasikan.