Catatan: Kasing adalah n >> p
Saya membaca Elemen Pembelajaran Statistik dan ada berbagai menyebutkan tentang cara "benar" untuk melakukan validasi silang (misalnya halaman 60, halaman 245). Secara khusus, pertanyaan saya adalah bagaimana mengevaluasi model akhir (tanpa set tes terpisah) menggunakan k-fold CV atau bootstrap ketika telah ada pencarian model? Tampaknya dalam sebagian besar kasus (algoritme ML tanpa pemilihan fitur yang disematkan) akan ada
- Langkah pemilihan fitur
- Langkah pemilihan parameter meta (misalnya parameter biaya dalam SVM).
Pertanyaan saya:
- Saya telah melihat bahwa langkah pemilihan fitur dapat dilakukan di mana pemilihan fitur dilakukan pada seluruh pelatihan dan disisihkan. Kemudian, menggunakan k-fold CV, algoritma pemilihan fitur digunakan di setiap flip (mendapatkan fitur yang berbeda mungkin dipilih setiap kali) dan kesalahan rata-rata. Kemudian, Anda akan menggunakan fitur yang dipilih menggunakan semua data (yang disisihkan) untuk melatih mode terakhir, tetapi gunakan kesalahan dari validasi silang sebagai perkiraan kinerja model di masa mendatang. APAKAH INI BENAR?
- Ketika Anda menggunakan validasi silang untuk memilih parameter model, lalu bagaimana cara memperkirakan kinerja model sesudahnya? APAKAH PROSES YANG SAMA SESUAI DENGAN # 1 DI ATAS ATAU HARUS ANDA MENGGUNAKAN CV YANG SESUAI TAMPILKAN PADA HALAMAN 54 ( pdf ) ATAU SESUATU YANG LAIN?
- Ketika Anda melakukan kedua langkah (pengaturan fitur dan parameter) ..... lalu apa yang Anda lakukan? loop bersarang kompleks?
- Jika Anda memiliki sampel penahan terpisah, apakah masalah itu hilang dan Anda dapat menggunakan validasi silang untuk memilih fitur dan parameter (tanpa khawatir karena perkiraan kinerja Anda akan berasal dari set penahan)?