Masalah dengan korelasi pada observasi lengkap berpasangan
Dalam kasus yang Anda gambarkan, masalah utamanya adalah interpretasi. Karena Anda menggunakan pengamatan lengkap berpasangan, Anda sebenarnya menganalisis kumpulan data yang sedikit berbeda untuk masing-masing korelasi, tergantung pada pengamatan mana yang hilang.
Perhatikan contoh berikut:
a <- c(NA,NA,NA, 5, 6, 3, 7, 8, 3)
b <- c(2, 8, 3, NA,NA,NA, 6, 9, 5)
c <- c(2, 9, 6, 3, 2, 3, NA,NA,NA)
Tiga variabel dalam dataset, a
, b
, dan c
, masing-masing memiliki beberapa nilai yang hilang. Jika Anda menghitung korelasi pada pasangan variabel di sini, Anda hanya akan dapat menggunakan kasus yang tidak memiliki nilai yang hilang untuk kedua variabel tersebut. Dalam hal ini, itu berarti Anda akan menganalisis hanya 3 kasus terakhir untuk korelasi antara a
dan b
, hanya tiga kasus pertama untuk korelasi antara b
dan c
, dll.
Fakta bahwa Anda menganalisis kasus yang benar-benar berbeda ketika Anda menghitung setiap korelasi berarti bahwa pola korelasi yang dihasilkan dapat terlihat tidak masuk akal. Lihat:
> cor(a,b, use = "pairwise.complete.obs")
[1] 0.8170572
> cor(b,c, use = "pairwise.complete.obs")
[1] 0.9005714
> cor(a,c, use = "pairwise.complete.obs")
[1] -0.7559289
Ini terlihat seperti kontradiksi logis --- a
dan b
sangat berkorelasi positif, dan b
dan c
juga sangat berkorelasi positif, sehingga Anda akan berharap a
dan c
berkorelasi positif juga, tetapi sebenarnya ada asosiasi yang kuat di arah yang berlawanan. Anda dapat melihat mengapa banyak analis tidak suka itu.
Edit untuk menyertakan klarifikasi yang berguna dari whuber:
Perhatikan bahwa bagian dari argumen tergantung pada apa arti korelasi "kuat". Sangat mungkin untuk a
dan b
juga b
dan c
menjadi "sangat berkorelasi positif" sementara ada "asosiasi kuat dalam arah yang berlawanan" antara a
danc
, tetapi tidak cukup ekstrim seperti dalam contoh ini. Inti masalahnya adalah bahwa estimasi korelasi (atau kovarian) matriks mungkin tidak positif-pasti: itulah bagaimana seseorang harus menghitung "kuat".
Masalah dengan jenis orang hilang
Anda mungkin berpikir pada diri sendiri, "Yah, tidak apa-apa untuk hanya berasumsi bahwa kumpulan kasus yang saya miliki untuk setiap korelasi mengikuti kurang lebih pola yang sama yang akan saya dapatkan jika saya memiliki data lengkap?" Dan ya, itu benar --- tidak ada yang salah secara fundamental dengan menghitung korelasi pada subset dari data Anda (walaupun Anda kehilangan presisi dan kekuatan, tentu saja, karena ukuran sampel yang lebih kecil), selama data yang tersedia adalah acak sampel semua data yang akan ada di sana jika Anda tidak memiliki data yang hilang.
Ketika ketidakhadiran itu murni acak, itu disebut MCAR (hilang sepenuhnya secara acak). Dalam hal itu, menganalisis subset dari data yang tidak memiliki ketiadaan tidak akan secara sistematis bias hasil Anda, dan itu tidak mungkin (tetapi bukan tidak mungkin) untuk mendapatkan jenis pola korelasi gila yang saya tunjukkan dalam contoh di atas.
Ketika ketidakhadiran Anda sistematis dalam beberapa hal (sering disingkat MAR atau NI, menggambarkan dua jenis hilang secara sistematis) maka Anda memiliki masalah yang jauh lebih serius, baik dalam hal berpotensi memperkenalkan bias dalam perhitungan Anda dan dalam hal kemampuan Anda untuk menggeneralisasi Anda hasil ke populasi yang menarik (karena sampel yang Anda analisis bukan sampel acak dari populasi, bahkan jika dataset lengkap Anda seharusnya).
Ada banyak sumber daya hebat yang tersedia untuk belajar tentang data yang hilang dan bagaimana menanganinya, tetapi rekomendasi saya adalah Rubin:
klasik ,
dan artikel yang lebih baru