Mengapa korelasi tidak terlalu berguna ketika salah satu variabelnya kategorikal?


14

Ini sedikit pemeriksaan usus, tolong bantu saya melihat apakah saya salah memahami konsep ini, dan dengan cara apa.

Saya memiliki pemahaman fungsional tentang korelasi, tetapi saya merasa sedikit mengerti untuk benar-benar menjelaskan prinsip-prinsip di balik pemahaman fungsional itu.

Seperti yang saya pahami, korelasi statistik (berlawanan dengan penggunaan istilah yang lebih umum) adalah cara untuk memahami dua variabel kontinu dan cara di mana mereka cenderung atau tidak cenderung naik atau turun dengan cara yang sama.

Alasan Anda tidak dapat menjalankan korelasi pada, katakanlah, satu variabel kategori kontinu dan satu adalah karena tidak mungkin untuk menghitung kovarians antara keduanya, karena variabel kategori menurut definisi tidak dapat menghasilkan rata-rata, dan dengan demikian bahkan tidak dapat masuk ke variabel pertama langkah-langkah analisis statistik.

Apakah itu benar?


2
Berikut ini adalah slide kuliah yang diketik dari kelas yang saya ajarkan yang sebagian besar berhubungan dengan populasi (bukan sampel) korelasi dan kovarian orang.virginia.edu/~trb5me/3120_slides/5/5.2/5.2.pdf
Taylor

3
Alasan sederhana, bayangkan Anda bertanya kepada orang-orang "apa warna kesukaan Anda?" dan mereka menjawab "merah", "hijau", "biru", "oranye", "kuning", ..., apa yang dikodekan dalam set data Anda sebagai 1, 2, 3, ... Selanjutnya, Anda menghitung koefisien korelasi antara variabel tersebut dengan kepuasan kerja dan mendapatkan nilai 0,21. Apa artinya? Bisakah Anda memberikan setiap interpretasi bermakna?
Tim


@Aylor: Apa yang kita gunakan ketika kedua variabel kontinu / numerik tetapi salah satunya adalah stokastik dan yang lain tidak, misalnya, jam belajar vs IPK?
MSIS

Jawaban:


16

Korelasi adalah kovarians standar , yaitu kovarians x dan y dibagi dengan standar deviasi x dan y . Izinkan saya menggambarkannya.

Secara longgar, statistik dapat diringkas sebagai model yang cocok untuk data dan menilai seberapa baik model menggambarkan poin data tersebut ( Hasil = Model + Kesalahan ). Salah satu cara untuk melakukannya adalah dengan menghitung jumlah penyimpangan, atau residu (res) dari model:

res=(xix¯)

Banyak perhitungan statistik didasarkan pada ini, termasuk. koefisien korelasi (lihat di bawah).

Berikut ini adalah contoh dataset yang dibuat R(residual ditunjukkan sebagai garis merah dan nilainya ditambahkan di sebelahnya):

X <- c(8,9,10,13,15)  
Y <- c(5,4,4,6,8)

masukkan deskripsi gambar di sini

Dengan melihat setiap titik data secara individual dan mengurangi nilainya dari model (misalnya rata-rata; dalam kasus ini X=11dan Y=5.4), orang dapat menilai keakuratan model. Bisa dikatakan model tersebut melebih-lebihkan nilai sebenarnya. Namun, ketika menjumlahkan semua penyimpangan dari model, kesalahan total cenderung menjadi nol , nilai-nilai membatalkan satu sama lain karena ada nilai-nilai positif (model meremehkan titik data tertentu) dan nilai-nilai negatif (model melebih-lebihkan data tertentu titik). Untuk mengatasi masalah ini, jumlah penyimpangan dikuadratkan dan sekarang disebut jumlah kuadrat ( SS ):

SS=(xix¯)(xix¯)=(xix¯)2

n1s2

s2=SSn1=(xix¯)(xix¯)n1=(xix¯)2n1

Untuk kenyamanan, akar kuadrat dari varians sampel dapat diambil, yang dikenal sebagai standar deviasi sampel:

s=s2=SSn1=(xix¯)2n1

Sekarang, kovarians menilai apakah dua variabel terkait satu sama lain. Nilai positif menunjukkan bahwa ketika satu variabel menyimpang dari rata-rata, variabel lainnya menyimpang dalam arah yang sama.

covx,y=(xix¯)(yiy¯)n1

r

r=covx,ysxsy=(x1x¯)(yiy¯)(n1)sxsy

r=0.87XY

masukkan deskripsi gambar di sini

Singkat cerita, ya perasaan Anda benar tapi saya harap jawaban saya dapat memberikan beberapa konteks.


1
Ini sangat membantu - dalam mencoba memperdalam pemahaman saya sendiri, saya pikir jika saya tidak bisa menjelaskannya kepada seseorang tanpa latar belakang statistik, saya tidak memahaminya sebaik yang saya kira.
Toof

8

Anda (hampir) benar. Kovarian (dan karenanya korelasi juga) hanya dapat dihitung antara variabel numerik. Itu termasuk variabel kontinu tetapi juga variabel numerik diskrit.

Variabel kategorikal dapat digunakan untuk menghitung korelasi hanya dengan memberikan kode numerik yang bermanfaat bagi mereka, tetapi ini tidak mungkin untuk mendapatkan keuntungan praktis - mungkin itu bisa berguna untuk beberapa variabel variabel level dua, tetapi alat lain cenderung lebih cocok.


Untuk menambah poin Pere, koefisien korelasi momen produk Pearson mewakili tingkat hubungan linear antara kedua variabel. Langkah-langkah nonparametrik seperti Spearman rho atau Kendall's tau mencirikan seberapa besar kecenderungan X dan Y untuk meningkat atau menurun bersama (berperilaku
sedemikian

@Pere: Apa yang kita gunakan ketika kita memiliki dua variabel kontinu tetapi hanya satu di antaranya yang Stochastic, misal, Jam dilaksanakan vs. Berat.?
MSIS

1
@ MSIS - Itu seharusnya pertanyaan yang berbeda, tetapi korelasi dapat digunakan bahkan jika satu variabel tidak acak.
Pere

1
@Pere: Saya bertanya, jika Anda tertarik: stats.stackexchange.com/questions/435257/…
MSIS

3

Sama sekali tidak ada yang salah dengan menghitung korelasi di mana salah satu variabelnya kategorikal. Korelasi positif yang kuat akan menyiratkan bahwa menghidupkan atau mematikan variabel kategori Anda tergantung pada konvensi Anda) menyebabkan peningkatan respons. Misalnya ini bisa terjadi ketika menghitung regresi logistik di mana variabelnya kategorikal: memprediksi kemungkinan serangan jantung mengingat komorbiditas pasien seperti diabetes dan bmi. Dalam hal ini BMI akan memiliki korelasi yang sangat kuat dengan serangan jantung. Akankah Anda menyimpulkan bahwa itu tidak berguna?

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.