Untuk kompetisi Kaggle baru-baru ini, saya (secara manual) mendefinisikan 10 fitur tambahan untuk set pelatihan saya, yang kemudian akan digunakan untuk melatih classifier hutan acak. Saya memutuskan untuk menjalankan PCA pada dataset dengan fitur-fitur baru, untuk melihat bagaimana mereka dibandingkan satu sama lain. Saya menemukan bahwa ~ 98% varians dibawa oleh komponen pertama (vektor eigen pertama). Saya kemudian melatih classifier beberapa kali, menambahkan satu fitur pada suatu waktu, dan menggunakan cross-validation dan RMS error untuk membandingkan kualitas klasifikasi. Saya menemukan bahwa klasifikasi ditingkatkan dengan setiap fitur tambahan, dan bahwa hasil akhir (dengan semua 10 fitur baru) jauh lebih baik daripada yang pertama dijalankan dengan (katakanlah) 2 fitur.
Mengingat bahwa PCA mengklaim ~ 98% varians ada di komponen pertama dataset saya, mengapa kualitas klasifikasi meningkat sangat banyak?
Apakah ini berlaku untuk pengklasifikasi lain? RF berskala lintas banyak inti, jadi ini jauh lebih cepat untuk melatih daripada (katakanlah) SVM.
Bagaimana jika saya telah mengubah dataset menjadi ruang "PCA", dan menjalankan classifier pada ruang yang diubah. Bagaimana hasil saya berubah?