Dari apa yang saya pahami, pemilihan variabel berdasarkan nilai-p (setidaknya dalam konteks regresi) sangat cacat. Tampaknya pemilihan variabel berdasarkan AIC (atau serupa) juga dianggap cacat oleh beberapa, untuk alasan yang sama, meskipun ini tampaknya agak tidak jelas (mis. Lihat pertanyaan saya dan beberapa tautan pada topik ini di sini: Apa sebenarnya "pemilihan model bertahap"? ).
Tetapi katakan Anda menggunakan salah satu dari dua metode ini untuk memilih serangkaian prediktor terbaik dalam model Anda.
Burnham dan Anderson 2002 (Pemilihan Model dan Inferensi Multimodel: Pendekatan Informasi-Teoretis Praktis, halaman 83) menyatakan bahwa seseorang tidak boleh mencampur pemilihan variabel berdasarkan AIC dengan yang berdasarkan pada pengujian hipotesis : "Tes hipotesis nol dan pendekatan informasi-teoretis harus tidak digunakan bersama; mereka adalah paradigma analisis yang sangat berbeda. "
Di sisi lain, Zuur et al. 2009 (Model Efek Campuran dengan Ekstensi dalam Ekologi dengan R, halaman 541) tampaknya menganjurkan penggunaan AIC untuk pertama-tama menemukan model optimal, dan kemudian melakukan "fine tuning" menggunakan pengujian hipotesis : "Kerugiannya adalah bahwa AIC bisa konservatif , dan Anda mungkin perlu menerapkan beberapa penyempurnaan (menggunakan pengadaan pengujian hipotesis dari pendekatan satu) setelah AIC memilih model yang optimal. "
Anda dapat melihat bagaimana ini membuat pembaca kedua buku bingung tentang pendekatan mana yang harus diikuti.
1) Apakah ini hanya "kamp" pemikiran statistik dan topik ketidaksepakatan di antara para ahli statistik? Apakah salah satu dari pendekatan ini hanya "ketinggalan jaman" sekarang, tetapi dianggap tepat pada saat penulisan? Atau apakah ada yang salah sejak awal?
2) Apakah akan ada skenario di mana pendekatan ini akan sesuai? Misalnya, saya berasal dari latar belakang biologis, di mana saya sering mencoba menentukan variabel mana, jika ada, yang tampaknya memengaruhi atau mendorong respons saya. Saya sering memiliki sejumlah kandidat variabel penjelas dan saya berusaha mencari mana yang "penting" (dalam istilah relatif). Juga, perhatikan bahwa himpunan variabel prediktor kandidat sudah direduksi menjadi variabel yang dianggap memiliki relevansi biologis, tetapi ini mungkin masih mencakup 5-20 kandidat prediksi.