Saya memiliki dataset dengan sebagian besar variabel keuangan (120 fitur, 4k contoh) yang sebagian besar sangat berkorelasi dan sangat bising (indikator teknis, misalnya) jadi saya ingin memilih sekitar maks 20-30 untuk digunakan nanti dengan pelatihan model (klasifikasi biner - bertambah berkurang).
Saya sedang berpikir tentang menggunakan hutan acak untuk peringkat fitur. Apakah ide yang baik untuk menggunakannya secara rekursif? Sebagai contoh, katakanlah di babak pertama saya menjatuhkan 20% terburuk, kedua juga dan seterusnya sampai saya mendapatkan jumlah fitur yang diinginkan. Haruskah saya menggunakan validasi silang dengan RF? (Ini intuitif bagi saya untuk tidak menggunakan CV karena sudah cukup banyak yang dilakukan RF.)
Juga jika saya menggunakan hutan acak haruskah saya menggunakannya sebagai pengklasifikasi untuk biner atau regresi untuk kenaikan / penurunan aktual untuk mendapatkan fitur penting?
Omong-omong, model yang ingin saya coba setelah pemilihan fitur adalah: SVM, jaring saraf, regresi tertimbang secara lokal, dan hutan acak. Saya terutama bekerja di Python.
built-in
atribut RandomForestClassifier dalam sklearn
nama feature_importances_
....? Anda akan melihatnya di tautan.