Persyaratan jenis pertanyaan ini menurut saya agak aneh. Berikut adalah konsep / rumus matematika , namun saya ingin membicarakannya dalam beberapa konteks yang sama sekali tidak memiliki simbol matematika. Saya juga berpikir harus dinyatakan bahwa aljabar aktual yang diperlukan untuk memahami formula, saya pikir, harus diajarkan kepada sebagian besar individu sebelum pendidikan tinggi (tidak diperlukan pemahaman tentang aljabar matriks, hanya aljabar sederhana yang cukup).
Jadi, pada awalnya alih-alih mengabaikan rumus dan membicarakannya dalam beberapa jenis analogi magis dan heuristik, mari kita lihat rumusnya dan mencoba menjelaskan masing-masing komponen dalam langkah-langkah kecil. Perbedaan dalam hal kovarians dan korelasi, ketika melihat formula, harus menjadi jelas. Sedangkan berbicara dalam hal analogi dan heuristik saya curiga akan mengaburkan dua konsep yang relatif sederhana dan perbedaan mereka dalam banyak situasi.
Jadi mari kita mulai dengan rumus untuk kovarians sampel (ini baru saja saya ambil dan adopsi dari wikipedia);
1n−1∑ni=1(xi−x¯)(yi−y¯)
Untuk mempercepat semua orang, mari kita secara eksplisit mendefinisikan semua elemen dan operasi dalam formula.
- xi dan adalah masing-masing pengukuran dari dua atribut terpisah dari pengamatan yang samayi
- x¯ dan adalah rata-rata (atau rata-rata) dari setiap atributy¯
- Untuk , katakan saja ini berarti kita membagi hasil akhir dengan .1n−1n−1
- ∑ni=1 mungkin merupakan simbol asing bagi sebagian orang, jadi mungkin akan berguna untuk menjelaskan operasi ini. Ini hanyalah jumlah dari semua memisahkan pengamatan, dan merupakan jumlah total pengamatan.in
Pada titik ini, saya mungkin memperkenalkan contoh sederhana, untuk menunjukkan elemen dan operasi untuk berbicara. Jadi misalnya, mari kita membuat tabel, di mana setiap baris sesuai dengan pengamatan (dan dan diberi label dengan tepat). Orang mungkin akan membuat contoh-contoh ini lebih spesifik (mis. Katakanlah mewakili usia dan mewakili berat), tetapi untuk diskusi kita di sini seharusnya tidak masalah.xyxy
x y
---
2 5
4 8
9 3
5 6
0 8
Pada titik ini jika Anda merasa operasi penjumlahan dalam rumus mungkin belum sepenuhnya dipahami, Anda bisa memperkenalkannya lagi dalam konteks yang jauh lebih sederhana. Katakan saja sekarang bahwa sama dengan mengatakan dalam contoh ini;∑ni=1(xi)
x
--
2
4
9
5
+ 0
--
20
Sekarang kekacauan itu harus dibereskan, dan kita dapat mengerjakan bagian kedua dari rumus, . Sekarang, dengan asumsi orang sudah tahu apa artinya, dan berdiri untuk, dan saya akan mengatakan, menjadi munafik dari komentar saya sendiri sebelumnya di posting, orang bisa merujuk ke mean dalam hal heuristik sederhana (misalnya tengah distribusi). Satu kemudian dapat mengambil proses ini satu operasi pada suatu waktu. Pernyataan(xi−x¯)(yi−y¯)x¯y¯(xi−x¯)hanya memeriksa penyimpangan / jarak antara setiap pengamatan, dan rata-rata semua pengamatan untuk atribut tertentu. Karenanya ketika pengamatan lebih jauh dari rata-rata, operasi ini akan diberi nilai yang lebih tinggi. Satu kemudian dapat merujuk kembali ke tabel contoh yang diberikan, dan hanya menunjukkan operasi pada vektor pengamatan.x
x x_bar (x - x_bar)
2 4 -2
4 4 0
9 4 5
5 4 1
0 4 -4
Operasi ini sama untuk vektor , tetapi hanya untuk penguatan Anda dapat menyajikan operasi itu juga.y
y y_bar (y - y_bar)
5 6 -1
8 6 2
3 6 -3
6 6 0
8 6 2
Sekarang, istilah dan tidak boleh ambigu, dan kita bisa pergi ke operasi berikutnya, mengalikan hasil ini bersama-sama, . Seperti gung tunjukkan dalam komentar, ini sering disebut produk silang (mungkin contoh yang berguna untuk memunculkan kembali jika seseorang memperkenalkan aljabar matriks dasar untuk statistik).(xi−x¯)(yi−y¯)(xi−x¯)⋅(yi−y¯)
Perhatikan apa yang terjadi ketika mengalikan, jika dua pengamatan keduanya jarak yang jauh di atas rata-rata, pengamatan yang dihasilkan akan memiliki nilai positif yang lebih besar (hal yang sama berlaku jika kedua pengamatan adalah jarak yang jauh di bawah rata-rata, seperti mengalikan dua negatif sama dengan positif). Juga perhatikan bahwa jika satu pengamatan tinggi di atas rata-rata dan yang lain jauh di bawah rata-rata, nilai yang dihasilkan akan besar (secara absolut) dan negatif (sebagai kali positif negatif sama dengan angka negatif). Akhirnya catat bahwa ketika suatu nilai sangat dekat dengan rata-rata untuk pengamatan yang manapun, mengalikan kedua nilai tersebut akan menghasilkan angka yang kecil. Sekali lagi kita bisa menyajikan operasi ini dalam sebuah tabel.
(x - x_bar) (y - y_bar) (x - x_bar)*(y - y_bar)
-2 -1 2
0 2 0
5 -3 -15
1 0 0
-4 2 -8
Sekarang jika ada ahli statistik di ruangan mereka harus mendidih dengan antisipasi pada saat ini. Kita dapat melihat semua elemen yang terpisah dari apa itu kovarian, dan bagaimana hal itu dihitung ikut berperan. Sekarang yang harus kita lakukan adalah merangkum hasil akhir pada tabel sebelumnya, dibagi dengan dan voila , kovarian seharusnya tidak lagi bersifat mistis (semua dengan hanya mendefinisikan satu simbol Yunani).n−1
(x - x_bar)*(y - y_bar)
-----------------------
2
0
-15
0
+ -8
-----
-21
-21/(5-1) = -5.25
Pada titik ini Anda mungkin ingin memperkuat dari mana asal 5, tetapi itu harus sesederhana merujuk kembali ke tabel dan menghitung jumlah pengamatan (mari kita tinggalkan perbedaan antara sampel dan populasi ke waktu lain).
Sekarang, kovarian dalam dan dari dirinya sendiri tidak memberi tahu kita banyak (itu bisa, tetapi pada titik ini tidak perlu untuk pergi ke contoh menarik tanpa menggunakan referensi magis yang tidak ditentukan kepada penonton). Dalam skenario kasus yang baik, Anda tidak perlu menjual mengapa kami harus peduli apa kovarians itu, dalam keadaan lain, Anda mungkin hanya berharap audiens Anda menjadi tawanan dan akan mengambil kata-kata Anda untuk itu. Tetapi, terus mengembangkan perbedaan antara apa itu kovarians dan apa korelasinya, kita bisa merujuk kembali ke rumus untuk korelasi. Untuk mencegah fobia simbol yunani mungkin hanya mengatakan adalah simbol umum yang digunakan untuk mewakili korelasi.ρ
ρ=Cov(x,y)Var(x)Var(y)√
Sekali lagi, untuk mengulangi, pembilang dalam rumus sebelumnya hanyalah kovarians seperti yang baru saja kita definisikan, dan penyebutnya adalah akar kuadrat dari produk varian dari masing-masing seri individual. Jika Anda perlu mendefinisikan varians itu sendiri, Anda bisa saja mengatakan varians itu sama dengan kovarians seri dengan dirinya sendiri (yaitu ). Dan semua konsep yang sama yang Anda perkenalkan dengan kovarians berlaku (yaitu jika suatu seri memiliki banyak nilai yang jauh dari rata-rata, ia akan memiliki varian yang tinggi). Mungkin perhatikan di sini bahwa seri tidak dapat memiliki varian negatif juga (yang secara logis harus mengikuti dari matematika yang disajikan sebelumnya).Cov(x,x)=Var(x)
Jadi satu-satunya komponen baru yang kami perkenalkan adalah dalam penyebutnya, . Jadi kita membagi kovarians yang baru saja kita hitung berdasarkan produk dari varian masing-masing seri. Orang bisa masuk ke dalam perawatan tentang mengapa membagi dengan akan selalu menghasilkan nilai antara -1 dan 1, tapi saya curiga ketidaksetaraan Cauchy-Schwarz harus diabaikan dari agenda untuk diskusi ini. Jadi sekali lagi, saya munafik dan menggunakan beberapa, mengambil kata saya untuk itu , tetapi pada titik ini kita dapat memperkenalkan semua alasan mengapa kita menggunakan koefisien korelasi. Satu kemudian dapat berhubungan pelajaran matematika ini kembali ke heuristik yang telah diberikan dalam laporan lain, seperti respon Peter Flom iniVar(x)Var(y)Var(x)Var(y)−−−−−−−−−−−√ke salah satu pertanyaan lain. Sementara ini dikritik karena memperkenalkan konsep dalam hal pernyataan sebab akibat, pelajaran itu harus menjadi agenda di beberapa titik juga.
Saya mengerti dalam beberapa keadaan tingkat perawatan ini tidak sesuai. Senat membutuhkan ringkasan eksekutif . Dalam hal ini, Anda dapat merujuk kembali ke heuristik sederhana yang telah digunakan orang dalam contoh lain, tetapi Roma tidak dibangun dalam sehari. Dan kepada senat yang meminta ringkasan eksekutif, jika Anda memiliki waktu yang sangat sedikit mungkin Anda harus mengambil kata-kata saya untuk itu, dan membuang formalitas analogi dan poin-poin.