Bagaimana cara memilih antara berbagai formula Adjusted


15

Saya telah memikirkan formula R-squared yang disesuaikan yang diusulkan oleh:

  • Yehezkiel (1930), yang saya percaya adalah yang saat ini digunakan dalam SPSS.

    Radjusted2=1(N1)(Np1)(1R2)
  • Olkin dan Pratt (1958)

    Runbiased2=1(N3)(1R2)(Np1)2(N3)(1R2)2(Np1)(Np+1)

Dalam keadaan apa (jika ada) saya lebih suka 'disesuaikan' ke 'tidak bias' ?R2

Referensi

  1. Yehezkiel, M. (1930). Metode analisis korelasi . John Wiley and Sons, New York.
  2. Olkin I., Pratt JW (1958). Estimasi Tidak Koefisien Koefisien Korelasi Tertentu. Sejarah Statistik Matematika , 29 (1), 201-211.

Jawaban:


5

Tanpa ingin mengambil kredit untuk jawaban @ttnphns, saya ingin memindahkan jawaban dari komentar (terutama mengingat bahwa tautan ke artikel telah mati). Jawaban Matt Krause memberikan diskusi yang bermanfaat tentang perbedaan antara dan R 2 a d j tetapi tidak membahas keputusan yang menggunakan rumus R 2 a d j dalam kasus apa pun.R2Radj2Radj2

Seperti yang saya bahas dalam jawaban ini , Yin dan Fan (2001) memberikan ikhtisar yang baik tentang berbagai formula untuk memperkirakan varians populasi yang dijelaskan , yang semuanya dapat berpotensi diberi label tipe R 2 yang disesuaikan .ρ2R2

Mereka melakukan simulasi untuk menilai mana dari berbagai disesuaikan formula r-square memberikan yang terbaik estimasi berisi untuk ukuran sampel yang berbeda, , dan interkorelasi prediktor. Mereka menyarankan agar formula Prattρ2 mungkin merupakan pilihan yang baik, tetapi saya tidak berpikir penelitian ini definitif mengenai masalah ini.

Update: Raju et al (1997) catatan yang disesuaikan formula berbeda berdasarkan apakah mereka dirancang untuk memperkirakan disesuaikan R 2 dengan asumsi tetap x atau acak-x predcitors. Secara khusus, rumus Yehezkiel dirancang untuk memperkirakan ρ 2 dalam konteks tetap-x, dan rumus Olkin-Pratt dan Pratt dirancang untuk memperkirakan ρ 2 dalam konteks acak-x. Tidak ada banyak perbedaan antara rumus Olkin-Pratt dan Pratt. Asumsi tetap-x sejajar dengan eksperimen yang direncanakan, asumsi acak-x sejajar dengan ketika Anda berasumsi bahwa nilai-nilai variabel prediktor adalah sampel dari nilai yang mungkin seperti yang biasanya terjadi dalam studi observasional. LihatR2R2ρ2ρ2 jawaban ini untuk diskusi lebih lanjut . Ada juga tidak banyak perbedaan antara kedua jenis formula karena ukuran sampel menjadi cukup besar (lihat di sini untuk diskusi tentang ukuran perbedaan ).

Ringkasan Aturan Jempol

  • Jika Anda mengasumsikan bahwa pengamatan Anda untuk variabel prediktor adalah sampel acak dari suatu populasi, dan Anda ingin memperkirakan untuk populasi penuh dari kedua prediktor dan kriteria (yaitu asumsi acak-x) maka gunakan rumus Olkin-Pratt (atau rumus Pratt).ρ2
  • Jika Anda menganggap bahwa pengamatan Anda sudah pasti atau Anda tidak ingin menggeneralisasi di luar tingkat prediksi Anda yang diamati, maka perkirakan dengan rumus Yehezkiel.ρ2
  • Jika Anda ingin tahu tentang prediksi sampel menggunakan persamaan regresi sampel, maka Anda ingin melihat beberapa bentuk prosedur validasi silang.

Referensi

  • Raju, NS, Bilgic, R., Edwards, JE, & Fleer, PF (1997). Tinjauan metodologi: Estimasi validitas populasi dan validitas silang, dan penggunaan bobot yang sama dalam prediksi. Pengukuran Psikologis Terapan, 21 (4), 291-305.
  • Yin, P., & Fan, X. (2001). Memperkirakan penyusutan dalam regresi berganda: Perbandingan metode analitik yang berbeda. Jurnal Pendidikan Eksperimental, 69 (2), 203-224. PDFR2

13

R2R2R2R2 is an attempt to solve this problem by adjusting the R2 value according to the number of parameters in the model.

They therefore have slightly different purposes. R2 describes how well different data sets fit a model. You might write something like "The model described above accurately predicts the performance of Part A (r2=0.9), but not Widget B (r2=0.05) under standard test conditions." Adjusted R2 describes how well different models fit the same data (or similar data). For example, "Results from the short and long-form questionnaire predicted customer's annual spending equally well (Adjusted R2 = 0.8 for both)."


2
Thanks, I found that to be a very clear explanation of the difference between R-squared and adjusted R-squared. In your view how does unbiased R-squared fit into this picture?
user1205901 - Reinstate Monica

5
There are indeed various formulas to estimate the population R^2. See for example studyforquals.pbworks.com/f/yin.pdf. Fisher's (= Wherry's) "Adjusted R^2" is said to be slightly negatively biased (it is still dependent on sample size while not dependent on number of predictors), so Olkin-Pratt version is probably somewhat better.
ttnphns

1
@ttnphns, maybe that should be an answer instead of a comment. To me, it seems to address the original question more than this answer.
gung - Reinstate Monica

1
The R2 value computed from a sample will be slightly smaller than the "true" population value. The plot on page 6/138 of uv.es/psicologica/articulos1.03/9.ZUMBO.pdf showing how the bias varies with sample size and R2 value. The Olkin-Pratt formula corrects for this sample size bias. There seem to be two versions of the Olkin-Pratt formula floating around, one of which also corrects for the number of parameters (see ttnphns link). In fact, that paper contains several tables which will help you choose a correction method for your specific application, so it's worth a look.
Matt Krause

1
@ttnphns, I agree with Gung! You should write up an answer and take some credit. Also, can you confirm what I wrote? JStor is acting strange today and won't let me read the original Olkin and Pratt paper.
Matt Krause
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.