Jika dua variabel memiliki korelasi 0, mengapa mereka tidak selalu independen? Apakah nol variabel berkorelasi independen dalam keadaan khusus? Jika memungkinkan, saya mencari penjelasan yang intuitif, bukan yang sangat teknis.
Jika dua variabel memiliki korelasi 0, mengapa mereka tidak selalu independen? Apakah nol variabel berkorelasi independen dalam keadaan khusus? Jika memungkinkan, saya mencari penjelasan yang intuitif, bukan yang sangat teknis.
Jawaban:
Korelasi mengukur hubungan linier antara dua variabel yang diberikan dan tidak memiliki kewajiban untuk mendeteksi bentuk asosiasi lain apa pun.
Jadi kedua variabel tersebut dapat dikaitkan dengan beberapa cara non-linear lainnya dan korelasi tidak dapat dibedakan dari kasus independen.
Sebagai contoh yang sangat didaktik, artifisial, dan tidak realistis, orang dapat menganggap sedemikian sehingga untuk dan . Perhatikan bahwa mereka tidak hanya terkait, tetapi satu adalah fungsi dari yang lain. Meskipun demikian, korelasinya adalah 0, karena hubungan mereka ortogonal dengan hubungan yang dapat dideteksi korelasi.
Ada kurangnya kekakuan umum dalam penggunaan kata "korelasi" karena alasan sederhana bahwa ia dapat memiliki asumsi dan makna yang sangat berbeda. Penggunaan paling sederhana, paling longgar dan paling umum adalah bahwa ada beberapa asosiasi yang samar-samar, hubungan atau kurangnya independensi antara sepasang variabel acak statis.
Di sini, metrik default yang dimaksud biasanya adalah korelasi Pearson , yang merupakan ukuran standar dari hubungan linear berpasangan antara dua variabel yang didistribusikan secara kontinu. Salah satu penyalahgunaan Pearson yang paling umum adalah melaporkannya sebagai persentase. Ini jelas bukan persentase. The Pearson korelasi, r , berkisar antara -1,0 dan 1,0 di mana 0 berarti tidak ada linear asosiasi. Masalah lain yang tidak begitu dikenal secara luas dengan menggunakan korelasi Pearson sebagai default adalah bahwa itu sebenarnya cukup ketat, ukuran tidak kuat dari linearitas yang memerlukan variasi skala interval sebagai input (lihat makalah Paul Embrechts yang sangat baik tentangKorelasi dan Ketergantungan dalam Manajemen Risiko: Properti dan Perangkap di sini: https://people.math.ethz.ch/~embrecht/ftp/pitfalls.pdf ).
Embrechts mencatat bahwa ada banyak asumsi keliru tentang ketergantungan yang dimulai dengan asumsi struktur dan bentuk geometris yang mendasari hubungan ini:
Kekeliruan ini muncul dari asumsi naif bahwa sifat ketergantungan dari dunia elips juga berlaku di dunia non-elips
Embrechts menunjuk copulas sebagai kelas yang jauh lebih luas dari metrik ketergantungan yang digunakan dalam keuangan dan manajemen risiko, di mana korelasi Pearson hanya satu jenis.
Departemen Statistik Columbia menghabiskan tahun akademik 2013-2014 yang berfokus pada pengembangan pemahaman yang lebih dalam tentang struktur ketergantungan: misalnya, linier, nonlinier, monotonik, pangkat, parametrik, nonparametrik, berpotensi sangat kompleks dan memiliki perbedaan besar dalam penskalaan. Tahun ini berakhir dengan lokakarya dan konferensi 3 hari yang menyatukan sebagian besar kontributor top di bidang ini ( http://datascience.columbia.edu/workshop-and-conference-nonparametric-measures-dependence-apr-28-may- 2 ).
Para kontributor ini termasuk Reshef Brothers, yang sekarang terkenal dengan makalah Science 2011 Mendeteksi Asosiasi Novel dalam Kumpulan Data Besar http://www.uvm.edu/~cdanfort/csc-reading-group/reshef-correlation-science-2011.pdf yang telah banyak dikritik (lihat AndrewGelman.com untuk ikhtisar yang baik, diterbitkan bersamaan dengan acara Columbia: http://andrewgelman.com/2014/03/14/maximal-information-coefisien ). Reshef membahas semua kritik ini dalam presentasi mereka (tersedia di situs web konferensi Columbia), serta algoritma MIC yang jauh lebih efisien.
Banyak ahli statistik terkemuka lainnya yang hadir di acara ini termasuk Gabor Szekely, sekarang di NSF di DC. Szekely mengembangkan korelasi jarak dan jarak parsialnya . Deep Mukhopadhay, Temple U, mempresentasikan Algoritma Statistik Terpadu - sebuah kerangka kerja untuk algoritma terpadu ilmu data - berdasarkan kerja yang dilakukan dengan Eugene Franzen http://www.fox.temple.edu/mcm_people/subhadeep-mukhopadhyay/ . Dan banyak lagi. Bagi saya, salah satu tema yang lebih menarik adalah leverage yang luas dan penggunaan Reproducing Kernel Hilbert Space (RKHS) dan chi-square. Jika ada pendekatan modal untuk struktur ketergantungan pada konferensi ini, itu adalah RKHS.
Buku teks statistik intro yang tipikal adalah asal-asalan dalam perawatan ketergantungan, biasanya mengandalkan presentasi dari set visualisasi yang sama dari hubungan melingkar atau parabola. Teks yang lebih canggih akan menyelidiki Kuartet Anscombe , sebuah visualisasi dari empat set data yang berbeda yang memiliki sifat statistik sederhana yang serupa tetapi hubungan yang sangat berbeda: https://en.wikipedia.org/wiki/Anscombe%27s_quartet
Salah satu hal hebat tentang lokakarya ini adalah banyaknya struktur dan hubungan ketergantungan yang divisualisasikan dan disajikan, jauh melampaui standar, perawatan asal-asalan. Sebagai contoh, Reshefs memiliki lusinan gambar kecil thumbnail yang hanya mewakili sampel kemungkinan nonlinier. Deep Mukhopadhay memiliki visual yang menakjubkan dari hubungan yang sangat kompleks yang lebih mirip dengan pemandangan satelit Himalaya. Penulis buku catatan Statistik dan ilmu data perlu mencatat.
Keluar dari konferensi Columbia dengan pengembangan dan visualisasi dari struktur ketergantungan berpasangan yang sangat kompleks ini, saya dibiarkan mempertanyakan kemampuan model statistik multivariat untuk menangkap nonlinier dan kompleksitas ini.
Ini tergantung pada definisi pasti Anda tentang "korelasi", tetapi tidak terlalu sulit untuk membangun kasus yang merosot. "Independen" dapat berarti sesuatu seperti "tidak ada kekuatan prediksi, sama sekali, pernah" sebanyak "korelasi linear".
Korelasi linear, misalnya, tidak akan menunjukkan ketergantungan pada jika domain adalah .
Pada dasarnya, ketergantungan Y pada X berarti distribusi nilai-nilai Y tergantung pada beberapa cara dari nilai X. Ketergantungan itu dapat pada nilai rata-rata Y (kasus yang biasa disajikan dalam sebagian besar jawaban) atau apa pun karakteristik lain dari Y.
Misalnya, biarkan X menjadi 0 atau 1. Jika X = 0 maka biarkan Y menjadi 0, jika X = 1 biarkan Y menjadi -1, 0 atau 1 (probabilitas yang sama). X dan Y tidak berkorelasi. Pada rata-rata, Y tidak bergantung pada X karena nilai apa pun adalah X, rata-rata Y adalah 0. Tetapi jelas distribusi nilai Y tergantung pada nilai X. Dalam kasus ini, misalnya, varians Y adalah 0 ketika X = 0 dan> 0 ketika X = 1, dengan demikian ada, setidaknya, ketergantungan pada varians, yaitu ada ketergantungan.
Jadi, korelasi linear hanya menunjukkan jenis ketergantungan pada rata-rata (linear dependence), yang pada gilirannya hanya merupakan kasus ketergantungan khusus.