Koefisien korelasi biasanya ditulis dengan huruf kapital tetapi terkadang tidak. Saya ingin tahu apakah benar-benar ada perbedaan antara dan ? Dapatkah berarti sesuatu yang lain daripada koefisien korelasi?
Koefisien korelasi biasanya ditulis dengan huruf kapital tetapi terkadang tidak. Saya ingin tahu apakah benar-benar ada perbedaan antara dan ? Dapatkah berarti sesuatu yang lain daripada koefisien korelasi?
Jawaban:
Notasi mengenai hal ini tampaknya sedikit berbeda.
digunakan dalam konteks korelasi berganda dan disebut "koefisien korelasi berganda". Ini adalah korelasi antara respons yang diamati dan dipasang oleh model. The umumnya diperkirakan dari beberapa variabel prediktor , misalnya mana intercept dan slope koefisien telah diperkirakan dari data . Perhatikan bahwa .Y Y X i Y = β 0 + β 1 X 1 + β 2 X 2 β i 0 ≤ R ≤ 1
Simbol adalah "koefisien korelasi sampel" yang digunakan dalam kasus bivariat - yaitu ada dua variabel, dan - dan biasanya berarti korelasi antara dan dalam sampel Anda. Anda dapat memperlakukan ini sebagai perkiraan korelasiX Y X Y antara dua variabel dalam populasi yang lebih luas. Untuk mengkorelasikan dua variabel, tidak perlu mengidentifikasi mana yang merupakan prediktor dan mana yang merupakan respons. Memang jika Anda menemukan korelasi antara Y dan X itu akan sama dengan korelasi antara X dan Y , karena korelasi itusimetris. Perhatikan bahwa ketika simbol r digunakan dengan cara ini, dengan r < 0 (korelasi negatif) jika kedua variabel memiliki hubungan yang menurun secara linear (saat salah satu naik, yang lain cenderung turun).
Dimana notasi menjadi tidak konsisten adalah ketika ada dua variabel, dan Y , dan regresi linier sederhana dilakukan. Ini berarti mengidentifikasi satu variabel, Y , sebagai variabel respon, dan lainnya, X , sebagai variabel prediktor, dan pas model Y = β 0 + β 1 X . Beberapa orang juga menggunakan simbol r untuk menunjukkan korelasi antara Y dan Y sementara yang lain (untuk konsistensi dengan regresi berganda) write R. Perhatikan bahwa korelasi antara respons yang diamati dan yang dipasang tentu lebih besar dari atau sama dengan nol. Ini adalah salah satu alasan saya tidak seperti penggunaan simbol dalam hal ini: korelasi antara X dan Y mungkin negatif, sedangkan korelasi antara Y dan Y adalah positif (pada kenyataannya itu hanya akan menjadi modulus dari korelasi antara X dan Y ) namun keduanya dapat ditulis dengan simbol r . Saya telah melihat beberapa buku teks, dan artikel Wikipedia, beralih hampir secara bergantian antara dua makna r dan menganggapnya tidak perlu membingungkan. Saya lebih suka menggunakan simbol Runtuk korelasi antara dan Y di kedua regresi tunggal dan ganda.
Dalam kedua sederhana dan beberapa regresi, maka selama ada istilah intercept dipasang di model, antara Y dan Y hanya akar kuadrat dari koefisien determinasi R 2 (sering disebut "proporsi varians menjelaskan" atau serupa). Dalam kasus regresi linier sederhana secara khusus, maka mana saya menulis untuk korelasi antara X dan Y , dan R 2 dapat mewakili baik koefisien determinasi regresi atau kuadrat korelasi antara dan Y . Karena - 1 ≤ r ≤ 1 dan 0 ≤ R ≤ 1 , ini berarti bahwa R = | r | . Jadi misalnya, jika Anda mendapatkan korelasi antara X dan Y dari r = - 0,7 maka korelasi antara Y dan dipasang Y dari regresi linier sederhana Y = β 0 + β 1 Xakan menjadi dan koefisien determinasi akan menjadi R 2 = 0,49 yaitu hampir setengah variasi dalam respons akan dijelaskan oleh model Anda.
Jika tidak ada istilah intersep yang dimasukkan dalam model, maka simbol adalah ambigu. Biasanya ini dimaksudkan sebagai koefisien determinasi, tetapi ini umumnya akan dihitung dengan cara yang berbeda dari biasanya , jadi berhati-hatilah saat membaca output dari perangkat lunak statistik Anda. Maka itu tidak lagi sama dengan kuadrat dari korelasi ganda R , juga dalam kasus bivariat tidak akan sama dengan r 2 !