Saya memiliki dataset yang memiliki beberapa set label biner. Untuk setiap set label, saya melatih classifier, mengevaluasinya dengan validasi silang. Saya ingin mengurangi dimensi menggunakan analisis komponen utama (PCA). Pertanyaanku adalah:
Apakah mungkin untuk melakukan PCA satu kali untuk seluruh dataset dan kemudian menggunakan dataset baru dengan dimensi yang lebih rendah untuk validasi silang seperti dijelaskan di atas? Atau apakah saya perlu melakukan PCA terpisah untuk setiap set pelatihan (yang berarti melakukan PCA terpisah untuk setiap classifier dan untuk setiap lipatan validasi silang)?
Di satu sisi, PCA tidak menggunakan label apa pun. Di sisi lain, itu memang menggunakan data uji untuk melakukan transformasi, jadi saya khawatir itu bisa membiaskan hasilnya.
Saya harus menyebutkan bahwa selain menyelamatkan saya beberapa pekerjaan, melakukan PCA sekali pada seluruh dataset akan memungkinkan saya untuk memvisualisasikan dataset untuk semua set label sekaligus. Jika saya memiliki PCA yang berbeda untuk setiap set label, saya perlu memvisualisasikan setiap set label secara terpisah.
caret
paket: PCA dan k-fold Cross Validation in Caret .