Untuk menguraikan komentar saya, saya biasa mengajar kovarians sebagai ukuran variasi rata-rata (rata-rata) antara dua variabel, misalnya dan .yxy
Sangat berguna untuk mengingat rumus dasar (mudah dijelaskan, tidak perlu berbicara tentang harapan matematika untuk kursus pengantar):
cov(x,y)=1n∑i=1n(xi−x¯)(yi−y¯)
sehingga kita melihat dengan jelas bahwa setiap pengamatan, , dapat berkontribusi positif atau negatif terhadap kovarians, tergantung pada produk deviasi mereka dari rata-rata dua variabel, dan . Perhatikan bahwa saya tidak berbicara tentang besarnya di sini, tetapi hanya tentang tanda kontribusi pengamatan ke-i.ˉ x ˉ y(xi,yi)x¯y¯
Inilah yang saya gambarkan dalam diagram berikut. Data buatan dihasilkan menggunakan model linier (kiri, ; kanan, , di mana diambil dari distribusi gaussian dengan rata-rata nol dan , dan dari distribusi seragam pada interval ).y=1.2x+εy=0.1x+εεSD=2x[0,20]
Bilah vertikal dan horizontal masing-masing mewakili rata-rata dan . Itu berarti bahwa alih-alih "melihat pengamatan individu" dari asal , kita dapat melakukannya dari . Ini sama dengan terjemahan pada sumbu x dan y. Dalam sistem koordinat baru ini, setiap pengamatan yang terletak di kuadran kanan atas atau kiri bawah berkontribusi positif terhadap kovarians, sedangkan pengamatan yang terletak di dua kuadran lain berkontribusi negatif terhadapnya. Dalam kasus pertama (kiri), kovarians sama dengan 30,11 dan distribusi di empat kuadran diberikan di bawah ini:xy(0,0)(x¯,y¯)
+ -
+ 30 2
- 0 28
Jelas, ketika di atas rata-rata, maka lakukan sesuai (wrt. ). Eye-balling bentuk awan 2D titik, ketika nilai meningkatkan nilai cenderung meningkat juga. (Tapi ingat kita juga bisa menggunakan fakta bahwa ada hubungan yang jelas antara kovarians dan kemiringan garis regresi, yaitu .)xiyiy¯xyb=Cov(x,y)/Var(x)
Dalam kasus kedua (kanan, sama ), kovarians sama dengan 3,54 dan distribusi lintas kuadran lebih "homogen" seperti yang ditunjukkan di bawah ini:xi
+ -
+ 18 14
- 12 16
Dengan kata lain, ada peningkatan jumlah kasus di mana dan tidak covary dalam arah yang sama wrt. cara mereka.xiyi
Perhatikan bahwa kita dapat mengurangi kovarians dengan menskalakan atau . Di panel kiri, kovarians (atau ) dikurangi sepuluh kali lipat (3,01). Karena unit-unit pengukuran dan penyebaran dan (relatif terhadap kemampuannya) menyulitkan untuk menafsirkan nilai kovarians dalam istilah absolut, kami biasanya skala kedua variabel dengan standar deviasi mereka dan mendapatkan koefisien korelasi. Ini berarti bahwa selain memusatkan kembali scatterplot key ( x / 10 , y ) ( x , y / 10 )xy(x/10,y)(x,y/10)xy(x,y)(x¯,y¯)kami juga menskala unit x dan y dalam hal standar deviasi, yang mengarah ke ukuran yang lebih dapat ditafsirkan dari kovarisasi linier antara dan .xy