Ada beberapa kebingungan di kepala saya tentang dua jenis penduga nilai populasi dari koefisien korelasi Pearson.
A. Fisher (1915) menunjukkan bahwa untuk populasi normal bivariat, empiris adalah penaksir bias negatif dari , meskipun bias bisa dibilang cukup besar hanya untuk ukuran sampel kecil ( ). Sampel meremehkan dalam arti bahwa ia lebih dekat ke daripada . (Kecuali ketika yang terakhir adalah atau , untuk kemudian adalah berisi.) Beberapa hampir estimator berisi dari telah diusulkan, yang terbaik mungkin menjadi Olkin dan Pratt (1958) mengoreksi :
B. Dikatakan bahwa dalam regresi diamati melebih-lebihkan populasi yang sesuai R-square. Atau, dengan regresi sederhana, itu adalah bahwa r 2 overestimates ρ 2 . Berdasarkan fakta itu, saya telah melihat banyak teks yang mengatakan bahwa r adalah bias positif relatif terhadap ρ , yang berarti nilai absolut: r lebih jauh dari 0 daripada ρ (apakah pernyataan itu benar?). Teks mengatakan itu adalah masalah yang sama dengan estimasi berlebihan dari parameter standar deviasi dengan nilai sampelnya. Ada banyak formula untuk "menyesuaikan" mengamati R 2lebih dekat ke parameter populasinya, adj Wherry (1931) menjadi yang paling terkenal (tapi bukan yang terbaik). Akar tersebut disesuaikan r 2 adj disebut menyusut r :
Hadir adalah dua penduga yang berbeda dari . Sangat berbeda: yang pertama mengembang r , yang kedua mengempiskan r . Bagaimana cara mendamaikan mereka? Di mana menggunakan / melaporkan satu dan di mana - yang lainnya?
Secara khusus, dapatkah benar bahwa penaksir "menyusut" juga (hampir) tidak bias, seperti yang "tidak bias", tetapi hanya dalam konteks yang berbeda - dalam konteks regresi yang asimetris. Sebab, dalam regresi OLS kami menganggap nilai-nilai satu sisi (prediktor) sebagai tetap, hadir tanpa kesalahan acak dari sampel ke sampel? (Dan untuk menambahkan di sini, regresi tidak perlu normalitas bivariat .)