Prosedur pemilihan variabel berbasis data umum (misalnya, maju, mundur, bertahap, semua himpunan bagian) cenderung menghasilkan model dengan sifat yang tidak diinginkan, termasuk:
- Koefisien yang bias jauh dari nol.
- Kesalahan standar yang terlalu kecil dan interval kepercayaan yang terlalu sempit.
- Uji statistik dan nilai-p yang tidak memiliki makna yang diiklankan.
- Perkiraan kecocokan model yang terlalu optimis.
- Termasuk istilah-istilah yang dapat menjadi tidak berarti (mis., Pengecualian dari syarat-syarat rendah).
Namun, prosedur pemilihan variabel tetap ada. Mengingat masalah dengan pemilihan variabel, mengapa prosedur ini diperlukan? Apa yang memotivasi penggunaannya?
Beberapa proposal untuk memulai diskusi ....
- Keinginan untuk koefisien regresi yang dapat ditafsirkan? (Salah arah dalam model dengan banyak infus?)
- Hilangkan varians yang diperkenalkan oleh variabel yang tidak relevan?
- Menghilangkan kovarians / redundansi yang tidak perlu di antara variabel independen?
- Mengurangi jumlah estimasi parameter (masalah daya, ukuran sampel)
Apakah ada yang lain? Apakah masalah ditangani oleh teknik pemilihan variabel lebih atau kurang penting daripada masalah prosedur pemilihan variabel diperkenalkan? Kapan mereka harus digunakan? Kapan mereka tidak digunakan?