Apakah data normalisasi (memiliki nol rata-rata dan standar deviasi kesatuan) sebelum melakukan validasi silang k-fold berulang-ulang memiliki konsekuensi negatif seperti overfitting?
Catatan: ini untuk situasi di mana #cases> total #features
Saya mengubah beberapa data saya menggunakan transformasi log, kemudian menormalkan semua data seperti di atas. Saya kemudian melakukan pemilihan fitur. Selanjutnya saya menerapkan fitur yang dipilih dan data yang dinormalisasi ke cross-validasi 10 kali lipat untuk mencoba dan memperkirakan kinerja classifier umum dan khawatir bahwa menggunakan semua data untuk menormalkan mungkin tidak tepat. Haruskah saya menormalkan data tes untuk setiap lipatan menggunakan data normalisasi yang diperoleh dari data pelatihan untuk lipatan itu?
Pendapat apa pun diterima dengan penuh syukur! Mohon maaf jika pertanyaan ini tampak jelas.
Sunting: Pada pengujian ini (sesuai dengan saran di bawah) saya menemukan bahwa normalisasi sebelum CV tidak membuat banyak perbedaan kinerja-bijaksana bila dibandingkan dengan normalisasi dalam CV.