Saya bertanya-tanya, apakah ada heuristik pada sejumlah fitur versus jumlah pengamatan. Jelas, jika sejumlah fitur sama dengan jumlah pengamatan, model akan sesuai. Dengan menggunakan metode jarang (LASSO, elastic net) kita dapat menghapus beberapa fitur untuk mengurangi model.
Pertanyaan saya adalah (secara teoritis): sebelum kita menggunakan metrik untuk menilai pemilihan model, adakah pengamatan empiris yang mengaitkan jumlah fitur yang optimal dengan jumlah pengamatan?
Misalnya: untuk masalah klasifikasi biner dengan 20 instance di setiap kelas, apakah ada batasan atas jumlah fitur yang digunakan?