Apakah R-square yang disesuaikan berusaha untuk memperkirakan skor tetap atau populasi skor acak r-kuadrat?

Populasi r-square dapat didefinisikan dengan asumsi skor tetap atau skor acak: $\rho^2$

Skor tetap: Ukuran sampel dan nilai-nilai tertentu dari prediktor dijaga tetap. Jadi, adalah proporsi varians yang dijelaskan dalam hasil oleh persamaan regresi populasi ketika nilai prediktor dijaga konstan. $\rho^2_f$
Skor acak: Nilai-nilai khusus dari prediktor diambil dari distribusi. Dengan demikian, mengacu pada proporsi varian yang dijelaskan dalam hasil dalam populasi di mana nilai prediktor sesuai dengan distribusi populasi prediktor. $\rho^2_r$

Saya sebelumnya pernah bertanya tentang apakah perbedaan ini membuat banyak perbedaan dengan perkiraan $\rho^2$ . Saya juga bertanya secara umum tentang cara menghitung estimasi yang tidak bias dari $\rho^2$ .

Saya bisa melihat bahwa ketika ukuran sampel semakin besar perbedaan antara skor tetap dan skor acak menjadi kurang penting. Namun, saya mencoba mengonfirmasi apakah disesuaikan dirancang untuk memperkirakan skor tetap atau skor acak . $R^2$ $\rho^2$

Pertanyaan

Apakah dirancang dirancang untuk memperkirakan skor tetap atau skor acak ? $R^2$ $\rho^2$
Apakah ada penjelasan berprinsip tentang bagaimana rumus untuk r-square yang disesuaikan berhubungan dengan satu atau bentuk lain dari ? $\rho^2$

Latar belakang kebingungan saya

Ketika saya membaca Yin dan Fan (2001, p.206) mereka menulis:

Salah satu asumsi dasar dari model regresi berganda adalah bahwa nilai-nilai variabel independen dikenal konstanta dan ditetapkan oleh peneliti sebelum percobaan. Hanya variabel dependen yang bebas bervariasi dari sampel ke sampel. Model regresi itu disebut model regresi linier tetap .

Namun, dalam ilmu sosial dan perilaku, nilai-nilai variabel independen jarang ditetapkan oleh para peneliti dan juga mengalami kesalahan acak. Oleh karena itu, model regresi kedua untuk aplikasi telah disarankan, di mana variabel dependen dan independen diizinkan bervariasi (Binder, 1959; Park & Dudycha, 1974). Model itu disebut model acak (atau model koreksi). Meskipun estimasi kemungkinan maksimum dari koefisien regresi yang diperoleh dari model acak dan tetap adalah sama dengan asumsi normalitas, distribusinya sangat berbeda. Model acak sangat kompleks sehingga diperlukan lebih banyak penelitian sebelum dapat diterima sebagai pengganti model regresi linier tetap yang umum digunakan. Oleh karena itu, model tetap biasanya diterapkan, bahkan ketika asumsi tidak terpenuhi sepenuhnya (Claudy, 1978). Aplikasi model regresi tetap dengan asumsi dilanggar akan menyebabkan "overfitting," karena kesalahan acak yang diperkenalkan dari data sampel yang kurang sempurna cenderung dikapitalisasi dalam proses. Sebagai hasilnya, koefisien korelasi berganda sampel diperoleh dengan cara yang cenderung melebih-lebihkan korelasi ganda populasi yang sebenarnya (Claudy, 1978; Cohen & Cohen, 1983; Cummings, 1982).

Jadi saya tidak jelas apakah pernyataan di atas mengatakan bahwa penyesuaian mengkompensasi kesalahan yang diperkenalkan oleh model acak atau apakah ini hanya peringatan di kertas yang menandai keberadaan model acak, tetapi kertas itu akan fokus pada model tetap. $R^2$

Referensi

Yin, P., & Fan, X. (2001). Memperkirakan penyusutan dalam regresi berganda: Perbandingan metode analitik yang berbeda. Jurnal Pendidikan Eksperimental, 69 (2), 203-224. PDF $R^2$

regression estimation r-squared

— Jeromy Anglim
sumber

Raju et al (1997) mencatat itu

Pedhazur (1982) dan Mitchell & Klimoski (1986) berpendapat bahwa hasilnya
relatif tidak terpengaruh oleh model [tetap-x atau acak-x] yang dipilih ketika Ns setidaknya berukuran sedang (sekitar 50).

$R^2$ $\rho^2$

Formula Fixed X: Beberapa formula disebutkan termasuk formula yang diusulkan oleh Yehezkiel (1930) yang merupakan standar dalam sebagian besar perangkat lunak statistik:

{\hat{ρ}}_{(E)}^{2} = 1 - \frac{N - 1}{N - hal - 1} (1 - R^{2})

$\hat{\rho}_{(E)}^2 = 1 - \frac{N-1}{N-p-1}(1-R^2)$

$R^2$ $\rho^2$

Rumus X acak:

Olkin dan Pratt (1958) mengusulkan formula

{\hat{ρ}}_{(HAI P)}^{2} = 1 - [\frac{N - 3}{N - hal - 1}] (1 - R^{2}) F [1, 1; \frac{N - hal + 1}{2}; (1 - R^{2})]

$\hat{ \rho}^2 _{(OP)} = 1 - \left[ {\frac{{N - 3}}{{N - p - 1}}} \right](1 - {R^2})F\left[ {1,1;\frac{{N - p + 1}}{2};(1 - {R^2})} \right]$

Raju et al (1997) menjelaskan bagaimana berbagai formula lain, seperti Pratt dan Herzberg "adalah perkiraan untuk fungsi hypergeometrik yang diharapkan". Misalnya, rumus Pratt adalah

{\hat{ρ}}_{(P)}^{2} = 1 - \frac{(N - 3) (1 - R^{2})}{N - hal - 1} [1 + \frac{2 (1 - R^{2})}{N - hal - 2.3}]

${\hat \rho}^2_{(P)} = 1 - \frac{{(N - 3)(1 - {R^2})}}{{N - p - 1}}\left[ {1 + \frac{{2(1 - {R^2})}}{{N - p - 2.3}}} \right]$

$R^2_{adj}$ $R^2_{adj}$ $R^2_{adj}$ dari 0,2910. Seperti kutipan awal Raju et al tentang perbedaan antara rumus tetap dan acak-x yang paling relevan dengan ukuran sampel kecil, tabel Leach dan Hansen menunjukkan bagaimana perbedaan antara rumus x-tetap Yehezkiel dan rumus acak-x Olkin dan Pratt yang paling menonjol dalam ukuran sampel kecil, khususnya yang kurang dari 50.

Referensi

Leach, LF, & Henson, RK (2003). Penggunaan dan dampak efek R2 yang disesuaikan dalam penelitian regresi yang dipublikasikan. Dalam pertemuan tahunan Asosiasi Penelitian Pendidikan Barat Daya, San Antonio, TX. PDF
Mitchell, TW, & Klimoski, RJ (1986). Memperkirakan validitas estimasi lintas validitas. Jurnal Psikologi Terapan, 71 , 311-317.
Pedhazur, EJ (1982). Regresi Berganda dalam Penelitian Perilaku (edisi kedua) New York: Holt, Rinehart, dan Winston.
Raju, NS, Bilgic, R., Edwards, JE, & Fleer, PF (1997). Tinjauan metodologi: Estimasi validitas populasi dan cross-validity, dan penggunaan bobot yang sama dalam prediksi. Pengukuran Psikologis Terapan, 21 (4), 291-305.

— Jeromy Anglim
sumber