Jadi, saya punya matriks sekitar 60 x 1000. Saya melihatnya sebagai 60 objek dengan 1000 fitur; 60 objek dikelompokkan menjadi 3 kelas (a, b, c). 20 objek di setiap kelas, dan kita tahu klasifikasi sebenarnya. Saya ingin melakukan pembelajaran terawasi pada set 60 contoh pelatihan ini, dan saya tertarik pada akurasi classifier (dan metrik terkait) serta pemilihan fitur pada 1000 fitur.
Pertama, bagaimana nomenklaturu?
Sekarang pertanyaan sebenarnya:
Saya bisa melempar hutan acak seperti yang dinyatakan, atau sejumlah pengklasifikasi lainnya. Tapi ada kehalusan - saya benar-benar hanya peduli tentang membedakan kelas c dari kelas a dan b. Saya dapat menggabungkan kelas a dan b, tetapi adakah cara yang baik untuk menggunakan pengetahuan a priori bahwa semua objek non-c kemungkinan membentuk dua kelompok yang berbeda? Saya lebih suka menggunakan hutan acak atau varian darinya, karena terbukti efektif pada data yang mirip dengan tambang. Tetapi saya dapat diyakinkan untuk mencoba beberapa pendekatan lain.