Korelasi adalah kovarians standar , yaitu kovarians x dan y dibagi dengan standar deviasi x dan y . Izinkan saya menggambarkannya.
Secara longgar, statistik dapat diringkas sebagai model yang cocok untuk data dan menilai seberapa baik model menggambarkan poin data tersebut ( Hasil = Model + Kesalahan ). Salah satu cara untuk melakukannya adalah dengan menghitung jumlah penyimpangan, atau residu (res) dari model:
res=∑(xi−x¯)
Banyak perhitungan statistik didasarkan pada ini, termasuk. koefisien korelasi (lihat di bawah).
Berikut ini adalah contoh dataset yang dibuat R
(residual ditunjukkan sebagai garis merah dan nilainya ditambahkan di sebelahnya):
X <- c(8,9,10,13,15)
Y <- c(5,4,4,6,8)
Dengan melihat setiap titik data secara individual dan mengurangi nilainya dari model (misalnya rata-rata; dalam kasus ini X=11
dan Y=5.4
), orang dapat menilai keakuratan model. Bisa dikatakan model tersebut melebih-lebihkan nilai sebenarnya. Namun, ketika menjumlahkan semua penyimpangan dari model, kesalahan total cenderung menjadi nol , nilai-nilai membatalkan satu sama lain karena ada nilai-nilai positif (model meremehkan titik data tertentu) dan nilai-nilai negatif (model melebih-lebihkan data tertentu titik). Untuk mengatasi masalah ini, jumlah penyimpangan dikuadratkan dan sekarang disebut jumlah kuadrat ( SS ):
SS=∑(xi−x¯)(xi−x¯)=∑(xi−x¯)2
n−1s2
s2=SSn−1=∑(xi−x¯)(xi−x¯)n−1=∑(xi−x¯)2n−1
Untuk kenyamanan, akar kuadrat dari varians sampel dapat diambil, yang dikenal sebagai standar deviasi sampel:
s=s2−−√=SSn−1−−−√=∑(xi−x¯)2n−1−−−−−−−√
Sekarang, kovarians menilai apakah dua variabel terkait satu sama lain. Nilai positif menunjukkan bahwa ketika satu variabel menyimpang dari rata-rata, variabel lainnya menyimpang dalam arah yang sama.
covx,y=∑(xi−x¯)(yi−y¯)n−1
r
r=covx,ysxsy=∑(x1−x¯)(yi−y¯)(n−1)sxsy
r=0.87X
Y
Singkat cerita, ya perasaan Anda benar tapi saya harap jawaban saya dapat memberikan beberapa konteks.