Jadi saya mengerti bahwa pemilihan variabel adalah bagian dari pemilihan model. Tapi apa sebenarnya yang terdiri dari pemilihan model? Apakah lebih dari yang berikut:
1) pilih distribusi untuk model Anda
2) pilih variabel penjelas,?
Saya bertanya ini karena saya membaca artikel Burnham & Anderson: AIC vs BIC di mana mereka berbicara tentang AIC dan BIC dalam pemilihan model. Membaca artikel ini saya menyadari bahwa saya telah memikirkan 'pemilihan model' sebagai 'pemilihan variabel' (ref. Komentar Apakah BIC mencoba menemukan model yang benar? )
Kutipan dari artikel di mana mereka berbicara tentang 12 model dengan peningkatan derajat "generalitas" dan model ini menunjukkan "efek tapering" (Gambar 1) ketika KL-Informasi diplot terhadap 12 model:
FILOSOFI DAN MODEL TARGET YANG BERBEDA ... Meskipun target BIC adalah model yang lebih umum daripada model target untuk AIC, model yang paling sering dipilih di sini oleh BIC akan lebih umum daripada Model 7 kecuali n sangat besar. Mungkin Model 5 atau 6. Diketahui (dari banyak makalah dan simulasi dalam literatur) bahwa dalam konteks efek tapering (Gambar 1), AIC berkinerja lebih baik daripada BIC. Jika ini adalah konteks analisis data nyata seseorang, maka AIC harus digunakan.
Bagaimana BIC bisa memilih model yang lebih kompleks daripada AIC dalam pemilihan model yang saya tidak mengerti! Apa yang spesifik adalah "pemilihan model" dan kapan secara spesifik BIC memilih model yang lebih "umum" daripada AIC?
Jika kita berbicara tentang pemilihan variabel, maka BIC harus selalu memilih model dengan jumlah variabel terendah, benar? Istilah dalam BIC akan selalu menghukum variabel tambahan lebih dari istilah di AIC. Tetapi bukankah ini tidak masuk akal ketika " target BIC adalah model yang lebih umum daripada model target untuk AIC "?
EDIT :
Dari diskusi di komentar di Apakah ada alasan untuk lebih suka AIC atau BIC daripada yang lain? kita melihat diskusi kecil antara @Michael Chernick dan @ user13273 di komentar, membuat saya percaya bahwa ini adalah sesuatu yang tidak sepele:
Saya pikir lebih tepat untuk menyebut diskusi ini sebagai pilihan "fitur" atau "kovariat". Bagi saya, pemilihan model jauh lebih luas yang melibatkan spesifikasi distribusi kesalahan, bentuk fungsi tautan, dan bentuk kovariat. Ketika kita berbicara tentang AIC / BIC, kita biasanya dalam situasi di mana semua aspek pembangunan model diperbaiki, kecuali pemilihan kovariat. - user13273 13 Agustus 12 pada 21:17
Memutuskan kovariat tertentu untuk dimasukkan ke dalam model biasanya mengikuti istilah pemilihan model dan ada sejumlah buku dengan pemilihan model dalam judul yang terutama memutuskan kovariat model / parameter apa yang akan dimasukkan ke dalam model. - Michael Chernick 24 Agustus 12 pada 14:44