Saya memiliki masalah regresi dengan variabel 5-6k. Saya membagi data saya menjadi 3 set yang tidak tumpang tindih: pelatihan, validasi, dan pengujian. Saya melatih hanya menggunakan set pelatihan, dan menghasilkan banyak model regresi linier yang berbeda dengan memilih serangkaian 200 variabel yang berbeda untuk masing-masing model (saya mencoba sekitar 100k subset seperti itu). Saya menilai model sebagai . Dengan menggunakan kriteria ini, saya akhirnya memilih model. Ternyata model yang dipilih memiliki R ^ 2 yang sangat mirip pada pelatihan dan data validasi. Namun, ketika saya mencoba model ini pada data pengujian, ia memiliki R ^ 2 jauh lebih rendah . Jadi sepertinya saya entah bagaimana overfitting pada data pelatihan dan validasi. Ada ide tentang bagaimana saya bisa mendapatkan model yang lebih kuat?
Saya mencoba meningkatkan ukuran data pelatihan, tetapi itu tidak membantu. Saya berpikir mungkin menyusutkan ukuran setiap subset.
Saya telah mencoba menggunakan regularisasi. Namun, model yang saya peroleh menggunakan laso atau jaring elastis memiliki R ^ 2 yang jauh lebih rendah pada set pelatihan serta set validasi, dibandingkan dengan model yang saya peroleh dengan melakukan pendekatan pemilihan subset. Oleh karena itu, saya tidak mempertimbangkan model-model ini, karena saya berasumsi bahwa jika Model A berkinerja lebih baik daripada Model B di kedua set pelatihan serta set validasi, Model A jelas lebih baik daripada Model B. Saya akan sangat ingin tahu jika Anda tidak setuju dengan ini.
Pada catatan terkait, apakah menurut Anda adalah kriteria yang buruk untuk memilih model saya?