Ini adalah bidang statistik yang disebut pemilihan model. Banyak penelitian dilakukan di bidang ini dan tidak ada jawaban yang pasti dan mudah.
Anggap Anda memiliki , dan dan Anda ingin tahu apakah Anda harus memasukkan istilah dalam model. Dalam situasi seperti ini, model Anda yang lebih pelit bersarang dalam model yang lebih rumit. Dengan kata lain, variabel , dan (model pelit) adalah subset dari variabel , dan (model kompleks). Dalam membangun model, Anda memiliki (setidaknya) salah satu dari dua tujuan utama berikut:X1,X2X3X23X1,X2X3X1,X2,X3X23
- Menjelaskan data: Anda mencoba untuk memahami bagaimana beberapa set variabel mempengaruhi variabel respon atau Anda tertarik pada bagaimana efek sementara mengontrol efek dariX1YX2,...Xp
- Predict : Anda ingin memprediksi secara akurat , tanpa peduli apa atau berapa banyak variabel dalam model AndaYY
Jika tujuan Anda adalah nomor 1, maka saya merekomendasikan Tes Rasio Kemungkinan (LRT). LRT digunakan ketika Anda memiliki model bersarang dan Anda ingin tahu "apakah data secara signifikan lebih mungkin berasal dari model kompleks daripada model parsimoni?". Ini akan memberi Anda wawasan tentang model mana yang lebih baik menjelaskan hubungan antara data Anda.
Jika tujuan Anda adalah nomor 2, maka saya merekomendasikan beberapa jenis teknik cross-validation (CV) ( -fold CV, CV keluar-keluar, CV pelatihan-tes) tergantung pada ukuran data Anda. Singkatnya, metode ini membangun model pada subset data Anda dan memprediksi hasilnya pada data yang tersisa. Pilih model yang melakukan pekerjaan terbaik memprediksi data yang tersisa.k