Dalam bidang psikologi dan bidang lainnya bentuk regresi bertahap sering digunakan yang melibatkan hal-hal berikut:
- Lihatlah prediktor yang tersisa (tidak ada dalam model pada awalnya) dan identifikasi prediktor yang menghasilkan perubahan r-square terbesar;
- Jika nilai p dari perubahan r-square kurang dari alpha (biasanya 0,05), maka sertakan prediktor itu dan kembali ke langkah 1, jika tidak hentikan.
Misalnya, lihat prosedur ini di SPSS .
Prosedur ini secara rutin dikritik karena berbagai alasan (lihat diskusi ini di situs web Stata dengan referensi ).
Secara khusus, situs web Stata merangkum beberapa komentar oleh Frank Harrell. Saya tertarik dengan klaim:
[regresi bertahap] menghasilkan nilai R-kuadrat yang sangat bias menjadi tinggi.
Secara khusus, beberapa penelitian saya saat ini berfokus pada memperkirakan populasi r-square . Dengan populasi r-square, saya merujuk pada persentase varians yang dijelaskan oleh persamaan penghasil data populasi dalam populasi. Banyak literatur yang saya ulas telah menggunakan prosedur regresi bertahap dan saya ingin tahu apakah estimasi yang diberikan bias dan jika demikian seberapa banyak. Secara khusus, sebuah studi khas akan memiliki 30 prediktor, n = 200, alfa masuknya 0,05, dan estimasi r-square sekitar 0,50.
Apa yang saya tahu:
- Secara asimptotik, setiap prediktor dengan koefisien bukan nol akan menjadi prediktor signifikan secara statistik, dan r-square akan sama dengan r-square yang disesuaikan. Dengan demikian, regresi bertahap asimptotik harus memperkirakan persamaan regresi yang benar dan populasi yang benar r-square.
- Dengan ukuran sampel yang lebih kecil, kemungkinan penghilangan beberapa prediktor akan menghasilkan r-square yang lebih kecil daripada semua prediktor yang dimasukkan dalam model. Tetapi juga bias r-square yang biasa untuk sampel data akan meningkatkan r-square. Jadi, pemikiran naif saya adalah bahwa secara potensial, kedua kekuatan yang berlawanan ini dapat dalam kondisi tertentu menghasilkan r-square yang tidak bias. Dan lebih umum, arah bias akan bergantung pada berbagai fitur data dan kriteria inklusi alfa.
- Menetapkan kriteria inklusi alfa yang lebih ketat (mis., 01, .001, dll.) Harus lebih rendah dari perkiraan yang diperkirakan r-kuadrat karena kemungkinan menyertakan prediktor apa pun dalam setiap generasi data akan lebih kecil.
- Secara umum, r-square adalah estimasi bias populasi ke atas r-square dan tingkat bias ini meningkat dengan lebih banyak prediktor dan ukuran sampel yang lebih kecil.
Pertanyaan
Jadi akhirnya, pertanyaan saya:
- Sejauh mana r-square dari hasil regresi bertahap dalam estimasi bias populasi r-square?
- Sejauh mana bias ini terkait dengan ukuran sampel, jumlah prediktor, kriteria inklusi alfa atau sifat data?
- Apakah ada referensi tentang topik ini?