Modul online yang saya pelajari menyatakan bahwa seseorang tidak boleh menggunakan korelasi Pearson dengan data proporsi. Kenapa tidak?
Atau, jika kadang-kadang OK atau selalu OK, mengapa?
Modul online yang saya pelajari menyatakan bahwa seseorang tidak boleh menggunakan korelasi Pearson dengan data proporsi. Kenapa tidak?
Atau, jika kadang-kadang OK atau selalu OK, mengapa?
Jawaban:
Ini untuk kasus ketika beberapa variabel dijumlahkan menjadi 1, dalam setiap pengamatan. Jawaban saya adalah level intuisi; ini disengaja (dan juga, saya bukan ahli data komposisi).
Marilah kita memiliki variabel bernilai positif iid (karenanya tidak berkorelasi nol) yang kemudian kami simpulkan dan hitung ulang sebagai proporsi dari jumlah itu. Kemudian,
each V summing to 1 ( 100%)
Permisi? Saya tidak mengerti kamu. Saya tidak memberikan batasan pada V individu, hanya menjadi sebagian kecil. Namun, kendala awal adalah bahwa contoh saya mengasumsikan korelasi nol sebelum mengubah Vs menjadi pecahan.
Tautan video komentar Anda menetapkan konteks ke komposisi, yang juga dapat disebut campuran. Dalam kasus ini, jumlah proporsi masing-masing komponen bertambah menjadi 1. Misalnya, Udara adalah 78% nitrogen, 21% oksigen, dan 1% lainnya (total 100%). Mengingat bahwa jumlah satu komponen sepenuhnya ditentukan oleh yang lain, setiap dua komponen akan memiliki hubungan multi-linear yang sempurna. Sebagai contoh udara, kami memiliki:
sehingga kemudian:
Jadi jika Anda tahu ada dua komponen, yang ketiga segera diketahui.
Secara umum, kendala pada campuran adalah
Batasan ini membuat tingkat faktor tidak bebas.
Anda dapat menghitung korelasi antara dua komponen, tetapi tidak informatif , karena mereka selalu berkorelasi. Anda dapat membaca lebih lanjut tentang analisis komposisi dalam Menganalisis data yang diukur sebagai komposisi proporsional .
Anda dapat menggunakan korelasi ketika data proporsi berasal dari domain yang berbeda. Katakanlah respons Anda adalah sebagian kecil dari piksel mati pada layar LCD. Anda bisa mencoba menghubungkan ini dengan, katakanlah, fraksi helium yang digunakan dalam langkah pemrosesan kimia layar.
Given that the amount of one component is completely determined by the others, any two components will have a perfect co-linear relationship
tidak jelas. Bisakah Anda mengembangkannya?
Ini adalah pertanyaan yang mendalam, dan satu dengan beberapa kehalusan yang perlu dinyatakan. Saya akan mencoba yang terbaik, tetapi meskipun saya telah menerbitkan tentang topik ini ( Proporsionalitas: Alternatif yang Valid untuk Korelasi untuk Data Relatif ) Saya selalu siap untuk dikejutkan oleh wawasan baru tentang analisis data yang hanya berisi informasi relatif.
Seperti yang ditunjukkan oleh kontributor pada utas ini, korelasi terkenal buruk (di beberapa kalangan) karena menjadi tidak berarti ketika diterapkan pada data komposisi yang muncul ketika satu set komponen dibatasi untuk menambah konstanta (seperti yang kita lihat dengan proporsi, persentase, bagian-per-juta, dll.).
Karl Pearson menciptakan istilah korelasi palsu dengan pemikiran ini. (Catatan: Situs Spurious Correlation Tyler Vigen yang populer tidak banyak membahas tentang korelasi palsu karena kekeliruan " korelasi menyiratkan penyebab ".)
Bagian 1.7 dari Aitchison's (2003) Sebuah Panduan Ringkas untuk Analisis Data Komposisi memberikan ilustrasi klasik mengapa korelasi merupakan ukuran hubungan yang tidak sesuai untuk data komposisi (untuk kenyamanan, dikutip dalam Informasi Tambahan ini .
Data komposisi muncul tidak hanya ketika satu set komponen non-negatif dibuat untuk dijumlahkan menjadi konstan; data dikatakan bersifat komposisi setiap kali mereka hanya membawa informasi relatif.
Saya pikir masalah utama dengan korelasi data yang hanya membawa informasi relatif adalah interpretasi hasil. Ini adalah masalah yang bisa kita ilustrasikan dengan satu variabel; katakanlah "donat yang diproduksi per dolar dari PDB" di seluruh negara di dunia. Jika nilai satu negara lebih tinggi daripada yang lain, apakah itu karena
... siapa yang bisa bilang?
Tentu saja, seperti yang dikatakan orang di utas ini, orang dapat menghitung korelasi jenis-jenis variabel ini sebagai variabel deskriptif. Tapi apa artinya korelasi seperti itu?
Saya punya pertanyaan yang sama. Saya menemukan referensi ini di biorxiv berguna:
Lovell D., V. Pawlowsky-Glahn, J. Egozcue, S. Marguerat, J. Bähler (2014),
"Proporsionalitas: alternatif yang valid untuk korelasi untuk data relatif"
Dalam informasi pendukung makalah ini (Lovell, David, et al.; Doi: dx.doi.org/10.1101/008417), penulis menyebutkan bahwa korelasi antara kelimpahan relatif tidak memberikan informasi dalam beberapa kasus. Mereka memberikan contoh kelimpahan relatif dari dua ekspresi mRNA. Dalam Gambar S2, kelimpahan relatif dari dua mRNA yang berbeda berkorelasi negatif sempurna, meskipun korelasi kedua mRNA ini dalam nilai absolut tidak terkait negatif (titik hijau dan titik ungu).
Mungkin itu bisa membantu Anda.