Populasi r-square dapat didefinisikan dengan asumsi skor tetap atau skor acak:
Skor tetap: Ukuran sampel dan nilai-nilai tertentu dari prediktor dijaga tetap. Jadi, adalah proporsi varians yang dijelaskan dalam hasil oleh persamaan regresi populasi ketika nilai prediktor dijaga konstan.
Skor acak: Nilai-nilai khusus dari prediktor diambil dari distribusi. Dengan demikian, mengacu pada proporsi varian yang dijelaskan dalam hasil dalam populasi di mana nilai prediktor sesuai dengan distribusi populasi prediktor.
Saya sebelumnya pernah bertanya tentang apakah perbedaan ini membuat banyak perbedaan dengan perkiraan . Saya juga bertanya secara umum tentang cara menghitung estimasi yang tidak bias dari .
Saya bisa melihat bahwa ketika ukuran sampel semakin besar perbedaan antara skor tetap dan skor acak menjadi kurang penting. Namun, saya mencoba mengonfirmasi apakah disesuaikan dirancang untuk memperkirakan skor tetap atau skor acak .
Pertanyaan
- Apakah dirancang dirancang untuk memperkirakan skor tetap atau skor acak ?ρ 2
- Apakah ada penjelasan berprinsip tentang bagaimana rumus untuk r-square yang disesuaikan berhubungan dengan satu atau bentuk lain dari ?
Latar belakang kebingungan saya
Ketika saya membaca Yin dan Fan (2001, p.206) mereka menulis:
Salah satu asumsi dasar dari model regresi berganda adalah bahwa nilai-nilai variabel independen dikenal konstanta dan ditetapkan oleh peneliti sebelum percobaan. Hanya variabel dependen yang bebas bervariasi dari sampel ke sampel. Model regresi itu disebut model regresi linier tetap .
Namun, dalam ilmu sosial dan perilaku, nilai-nilai variabel independen jarang ditetapkan oleh para peneliti dan juga mengalami kesalahan acak. Oleh karena itu, model regresi kedua untuk aplikasi telah disarankan, di mana variabel dependen dan independen diizinkan bervariasi (Binder, 1959; Park & Dudycha, 1974). Model itu disebut model acak (atau model koreksi). Meskipun estimasi kemungkinan maksimum dari koefisien regresi yang diperoleh dari model acak dan tetap adalah sama dengan asumsi normalitas, distribusinya sangat berbeda. Model acak sangat kompleks sehingga diperlukan lebih banyak penelitian sebelum dapat diterima sebagai pengganti model regresi linier tetap yang umum digunakan. Oleh karena itu, model tetap biasanya diterapkan, bahkan ketika asumsi tidak terpenuhi sepenuhnya (Claudy, 1978). Aplikasi model regresi tetap dengan asumsi dilanggar akan menyebabkan "overfitting," karena kesalahan acak yang diperkenalkan dari data sampel yang kurang sempurna cenderung dikapitalisasi dalam proses. Sebagai hasilnya, koefisien korelasi berganda sampel diperoleh dengan cara yang cenderung melebih-lebihkan korelasi ganda populasi yang sebenarnya (Claudy, 1978; Cohen & Cohen, 1983; Cummings, 1982).
Jadi saya tidak jelas apakah pernyataan di atas mengatakan bahwa penyesuaian mengkompensasi kesalahan yang diperkenalkan oleh model acak atau apakah ini hanya peringatan di kertas yang menandai keberadaan model acak, tetapi kertas itu akan fokus pada model tetap.
Referensi
- Yin, P., & Fan, X. (2001). Memperkirakan penyusutan dalam regresi berganda: Perbandingan metode analitik yang berbeda. Jurnal Pendidikan Eksperimental, 69 (2), 203-224. PDF