Pengantar:
Saya memiliki dataset dengan "p besar, n kecil masalah" klasik. Jumlah sampel yang tersedia n = 150 sedangkan jumlah prediktor yang mungkin p = 400. Hasilnya adalah variabel kontinu.
Saya ingin menemukan deskriptor yang paling "penting", yaitu, yang merupakan kandidat terbaik untuk menjelaskan hasil dan membantu membangun teori.
Setelah penelitian tentang topik ini saya menemukan LASSO dan Elastic Net umumnya digunakan untuk kasus p besar, n kecil. Beberapa prediktor saya sangat berkorelasi dan saya ingin mempertahankan pengelompokan mereka dalam penilaian yang penting, oleh karena itu, saya memilih Elastic Net . Saya kira saya bisa menggunakan nilai absolut dari koefisien regresi sebagai ukuran kepentingan (tolong perbaiki saya jika saya salah; dataset saya distandarisasi).
Masalah:
Karena jumlah sampel saya kecil, bagaimana saya bisa mencapai model yang stabil?
Pendekatan saya saat ini adalah menemukan parameter tuning terbaik (lambda dan alpha) dalam pencarian grid pada 90% dari dataset dengan 10 kali lipat cross-validasi rata-rata skor MSE. Kemudian saya melatih model dengan parameter tuning terbaik pada seluruh 90% dataset. Saya dapat mengevaluasi model saya menggunakan R kuadrat pada ketidaksepakatan 10% dari dataset (yang hanya berjumlah 15 sampel).
Menjalankan berulang kali prosedur ini, saya menemukan perbedaan besar dalam penilaian kuadrat R. Selain itu, jumlah prediktor non-zeroed bervariasi serta koefisien mereka.
Bagaimana saya bisa mendapatkan penilaian yang lebih stabil dari kepentingan prediktor dan penilaian yang lebih stabil dari kinerja model akhir?
Dapatkah saya berulang kali menjalankan prosedur saya untuk membuat sejumlah model, dan kemudian koefisien regresi rata-rata? Atau haruskah saya menggunakan jumlah kemunculan alat prediksi dalam model sebagai skor kepentingannya?
Saat ini, saya mendapatkan sekitar 40-50 prediktor non-zeroed. Haruskah saya menghukum sejumlah prediktor lebih keras untuk stabilitas yang lebih baik?