Apakah ada yang punya pengalaman dengan pendekatan untuk memilih jumlah komponen utama yang jarang dimasukkan dalam model regresi?
Apakah ada yang punya pengalaman dengan pendekatan untuk memilih jumlah komponen utama yang jarang dimasukkan dalam model regresi?
Jawaban:
Meskipun saya tidak memiliki wawasan langsung tentang pertanyaan Anda, saya menemukan beberapa makalah penelitian , yang mungkin menarik bagi Anda. Itu, tentu saja, jika saya mengerti benar bahwa Anda berbicara tentang PCA yang jarang , regresi komponen utama dan topik terkait. Dalam hal ini, berikut adalah makalahnya:
Hasil validasi silang juga digunakan untuk menentukan jumlah dimensi optimal untuk ruang LSI. Terlalu sedikit dimensi yang tidak memanfaatkan kekuatan prediksi data; sementara terlalu banyak dimensi menyebabkan pemasangan yang berlebihan. Gambar. 4 menunjukkan distribusi kesalahan rata-rata untuk model dengan jumlah dimensi LSI yang berbeda. Model dengan ruang LSI empat dimensi menghasilkan jumlah kesalahan rata-rata paling sedikit dan jumlah kesalahan rata-rata paling sedikit, sehingga model akhir dibangun menggunakan ruang LSI empat dimensi.
Saya dapat memposting salinan jika Anda bukan anggota ieee.
Ini dari makalah yang saya tulis di tingkat sarjana. Saya memiliki masalah di mana saya perlu memutuskan berapa dimensi (Latent Semantic Indexing mirip dengan PCA) untuk digunakan dalam model regresi logistik saya. Apa yang saya lakukan adalah memilih metrik (yaitu tingkat kesalahan ketika menggunakan probabilitas penandaan .5) dan melihat distribusi untuk tingkat kesalahan ini untuk model yang berbeda dilatih pada jumlah dimensi yang berbeda. Saya kemudian memilih model dengan tingkat kesalahan terendah. Anda bisa menggunakan metrik lain seperti area di bawah kurva ROC.
Anda juga bisa menggunakan sesuatu seperti regresi bertahap untuk memilih jumlah dimensi untuk Anda. Jenis regresi apa yang Anda bentuk secara spesifik?
Apa yang kamu maksud dengan btw jarang?