Saya pikir pendekatan ini salah, tetapi mungkin akan lebih membantu jika saya menjelaskan alasannya. Ingin mengetahui model terbaik yang diberikan beberapa informasi tentang sejumlah besar variabel cukup dimengerti. Selain itu, ini adalah situasi di mana orang tampaknya menemukan diri mereka secara teratur. Selain itu, banyak buku teks (dan kursus) tentang regresi mencakup metode seleksi bertahap, yang menyiratkan bahwa mereka harus sah. Sayangnya, tidak demikian, dan pemasangan situasi dan tujuan ini cukup sulit untuk dinavigasi dengan sukses. Berikut ini adalah daftar masalah dengan prosedur pemilihan model bertahap otomatis (dikaitkan dengan Frank Harrell, dan disalin dari sini ):
- Ini menghasilkan nilai R-squared yang bias buruk menjadi tinggi.
- Tes F dan chi-squared yang dikutip di sebelah setiap variabel pada hasil cetak tidak memiliki distribusi yang diklaim.
- Metode ini menghasilkan interval kepercayaan untuk efek dan nilai prediksi yang sangat sempit; lihat Altman dan Andersen (1989).
- Ini menghasilkan nilai-p yang tidak memiliki makna yang tepat, dan koreksi yang tepat untuk mereka adalah masalah yang sulit.
- Ini memberikan koefisien regresi yang bias yang membutuhkan penyusutan (koefisien untuk variabel yang tersisa terlalu besar; lihat Tibshirani [1996]).
- Ini memiliki masalah parah dengan adanya kolinearitas.
- Ini didasarkan pada metode (misalnya, uji F untuk model bersarang) yang dimaksudkan untuk digunakan untuk menguji hipotesis yang telah ditentukan.
- Meningkatkan ukuran sampel tidak banyak membantu; lihat Derksen dan Keselman (1992).
- Itu memungkinkan kita untuk tidak memikirkan masalahnya.
- Ini menggunakan banyak kertas.
Pertanyaannya adalah, apa yang buruk dari prosedur ini / mengapa masalah ini terjadi? Kebanyakan orang yang telah mengambil kursus regresi dasar akrab dengan konsep regresi dengan rata-rata , jadi inilah yang saya gunakan untuk menjelaskan masalah ini. (Meskipun ini mungkin tampak di luar topik pada awalnya, bersabarlah, saya berjanji itu relevan.)
Bayangkan seorang pelatih lintasan SMA pada hari pertama ujicoba. Tiga puluh anak-anak muncul. Anak-anak ini memiliki tingkat kemampuan intrinsik yang mendasari di mana pelatih, atau siapa pun, tidak memiliki akses langsung. Alhasil, sang pelatih melakukan satu-satunya hal yang bisa ia lakukan, yaitu membuat mereka semua berlari 100 meter. Waktu mungkin merupakan ukuran kemampuan intrinsik mereka dan diambil seperti itu. Namun, mereka probabilistik; sebagian dari seberapa baik seseorang melakukannya berdasarkan pada kemampuan aktualnya dan sebagian lagi bersifat acak. Bayangkan bahwa situasi sebenarnya adalah sebagai berikut:
set.seed(59)
intrinsic_ability = runif(30, min=9, max=10)
time = 31 - 2*intrinsic_ability + rnorm(30, mean=0, sd=.5)
Hasil balapan pertama ditampilkan pada gambar berikut bersama dengan komentar pelatih kepada anak-anak.
Perhatikan bahwa mempartisi anak-anak berdasarkan waktu lomba mereka menyisakan kemampuan intrinsik mereka - fakta ini sangat penting. Setelah memuji beberapa orang, dan meneriaki beberapa orang lain (seperti yang cenderung dilakukan para pelatih), ia meminta mereka berlari lagi. Inilah hasil balapan kedua dengan reaksi pelatih (disimulasikan dari model yang sama di atas):
Perhatikan bahwa kemampuan intrinsik mereka identik, tetapi waktu melambung relatif terhadap ras pertama. Dari sudut pandang pelatih, mereka yang dia berteriak cenderung untuk meningkatkan, dan mereka yang dia memuji cenderung lebih buruk (saya mengadaptasi contoh konkret ini dari kutipan Kahneman yang tercantum pada halaman wiki), meskipun sebenarnya regresi ke mean adalah matematika sederhana. konsekuensi dari kenyataan bahwa pelatih memilih atlet untuk tim berdasarkan pada pengukuran yang sebagian acak.
Sekarang, apa hubungannya ini dengan teknik pemilihan model otomatis (misalnya, bertahap)? Mengembangkan dan mengkonfirmasi model berdasarkan dataset yang sama kadang-kadang disebut pengerukan data. Meskipun ada beberapa hubungan mendasar di antara variabel-variabel, dan hubungan yang lebih kuat diharapkan menghasilkan skor yang lebih kuat (misalnya, t-statistik yang lebih tinggi), ini adalah variabel acak dan nilai-nilai yang diwujudkan mengandung kesalahan. Jadi, ketika Anda memilih variabel berdasarkan memiliki nilai realisasi yang lebih tinggi (atau lebih rendah), mereka mungkin seperti itu karena nilai sebenarnya yang mendasarinya, kesalahan, atau keduanya. Jika Anda melanjutkan dengan cara ini, Anda akan terkejut seperti pelatih setelah balapan kedua. Ini benar apakah Anda memilih variabel berdasarkan memiliki t-statistik tinggi, atau interelasi rendah. Benar, menggunakan AIC lebih baik daripada menggunakan nilai-p, karena itu menghukum model untuk kompleksitas, tetapi AIC itu sendiri adalah variabel acak (jika Anda menjalankan penelitian beberapa kali dan sesuai dengan model yang sama, AIC akan terpental seperti yang lainnya). Sayangnya,
Saya harap ini membantu.