Saya mohon berbeda dalam pertanyaan ini dengan pendapat @ AmiTavory dan juga dengan Elemen Pembelajaran Statistik.
Berasal dari bidang terapan dengan ukuran sampel sangat rendah, saya memiliki pengalaman yang juga langkah-langkah pra-pemrosesan tanpa pengawasan dapat menimbulkan bias yang parah.
Di bidang saya yang akan paling sering PCA untuk pengurangan dimensi sebelum classifier dilatih. Meskipun saya tidak dapat menampilkan data di sini, saya telah melihat PCA + (cross validated LDA) vs cross validated (PCA + LDA) meremehkan tingkat kesalahan sekitar urutan besarnya . (Ini biasanya merupakan indikator bahwa PCA tidak stabil.)
Adapun argumentasi "keuntungan tidak adil" dari Elemen, jika varians dari kasus uji + diuji, kami berakhir dengan fitur yang bekerja dengan baik dengan pelatihan dan kasus uji. Jadi, kami menciptakan ramalan yang terpenuhi dengan sendirinya di sini yang merupakan penyebab dari bias yang terlalu optimistis. Bias ini rendah jika Anda memiliki ukuran sampel yang cukup nyaman.
Jadi saya merekomendasikan pendekatan yang sedikit lebih konservatif daripada Elemen:
- perhitungan preprocessing yang mempertimbangkan lebih dari satu kasus perlu dimasukkan dalam validasi: yaitu mereka dihitung hanya pada set pelatihan masing-masing (dan kemudian diterapkan pada data uji)
- langkah preprocessing yang mempertimbangkan masing-masing kasus sendiri (Saya spektroskopi: contoh akan menjadi koreksi dasar dan normalisasi intensitas, yang merupakan normalisasi baris-bijaksana) dapat ditarik keluar dari validasi silang selama mereka sebelum langkah pertama yang menghitung untuk beberapa kasus.
Yang sedang berkata, juga cross valiation hanyalah jalan pintas untuk melakukan studi validasi yang tepat. Dengan demikian, Anda dapat berdebat dengan kepraktisan:
Anda dapat memeriksa apakah pra-pemrosesan dalam pertanyaan menghasilkan hasil yang stabil (Anda dapat melakukannya misalnya dengan validasi silang). Jika Anda merasa sudah sangat stabil dengan ukuran sampel yang lebih rendah, IMHO Anda mungkin berpendapat bahwa tidak banyak bias akan diperkenalkan dengan menariknya keluar dari validasi silang.
Namun, mengutip pengawas sebelumnya: Waktu perhitungan bukanlah argumen ilmiah.
Saya sering pergi untuk "menyelinap pratinjau" beberapa lipatan dan beberapa iterasi untuk validasi silang untuk memastikan semua kode (termasuk ringkasan / grafik hasil) dan kemudian meninggalkannya pada malam hari atau akhir pekan atau lebih di server untuk lebih validasi silang berbutir halus.