Jika regresi linier terkait dengan korelasi Pearson, adakah teknik regresi yang terkait dengan korelasi Kendall dan Spearman?

27

Mungkin pertanyaan ini naif, tetapi:

Jika regresi linier terkait erat dengan koefisien korelasi Pearson, adakah teknik regresi yang terkait erat dengan koefisien korelasi Kendall dan Spearman?

— Miroslav Sabo
sumber

3

Sebagai contoh sederhana di mana Anda memiliki satu penjelasan dan variabel dependen: Sebuah linear regresi dari jajaran dari

dan

akan menghasilkan koefisien korelasi Spearman sebagai koefisien regresi. Dan dalam hal ini,

dan

dapat dipertukarkan dalam regresi.

x

$x$

y

$y$

x

$x$

y

$y$

— COOLSerdash

2

Hanya beberapa pemikiran. Kendall's

dan Spearman's

keduanya koefisien korelasi berdasarkan peringkat. Hubungan yang dicari antara

dan

kemudian perlu melibatkan peringkat mereka. Namun, menghitung peringkat memperkenalkan ketergantungan antara pengamatan, yang pada gilirannya memaksakan ketergantungan antara istilah-istilah kesalahan, menghilangkan regresi linier. Namun, dalam pengaturan yang berbeda, memodelkan struktur ketergantungan antara

dan

dengan kopula akan membuat hubungan dengan Kendall

dan / atau Spearman

mungkin, tergantung pada pilihan kopula.

τ

$\tau$

ρ

$\rho$

x

$x$

y

$y$

x

$x$

y

$y$

τ

$\tau$

ρ

$\rho$

— QuantIbex

1

@ QuantIbex apakah ketergantungan itu selalu menyiratkan

?

E [ε_{i} ε_{j}] \neq 0

$E[\varepsilon_i\varepsilon_j]\neq 0$

— shadowtalker

21

Ada cara yang sangat mudah untuk menggunakan hampir semua ukuran korelasi agar sesuai dengan regresi linier, dan yang mereproduksi kuadrat terkecil ketika Anda menggunakan korelasi Pearson.

$\beta$ $y-\beta x$ $x$ $0$

$0$

$\tilde{\beta}$ $y-\tilde{\beta} x$ $x$ $0$

Definisi ini berfungsi, misalnya, dengan segala macam korelasi berdasarkan peringkat dan kuat. Ini juga dapat digunakan untuk mendapatkan interval untuk lereng (dengan cara biasa - dengan menemukan lereng yang menandai batas antara hanya korelasi yang signifikan dan hanya korelasi yang tidak signifikan).

$y-\tilde{\beta}x$

Berikut korelasi yang diplot terhadap kemiringan cardata di R:

masukkan deskripsi gambar di sini

Korelasi Pearson memotong 0 pada kemiringan kuadrat terkecil, 3,932
Korelasi Kendall memotong 0 pada kemiringan Theil-Sen, 3,667
Korelasi Spearman melintasi 0 memberikan kemiringan "garis Spearman" di 3,714

Itu adalah tiga perkiraan kemiringan untuk contoh kita. Sekarang kita perlu penyadapan. Untuk kesederhanaan, saya hanya akan menggunakan residu rata-rata untuk intersep pertama dan median untuk dua lainnya (tidak terlalu penting dalam kasus ini):

           intercept
 Pearson:  -17.573 *     
 Kendall:  -15.667
 Spearman: -16.285

* (perbedaan kecil dari kuadrat terkecil adalah karena kesalahan pembulatan dalam estimasi kemiringan; tidak diragukan lagi ada kesalahan pembulatan yang serupa dalam perkiraan lainnya)

Garis-garis yang sesuai (menggunakan skema warna yang sama seperti di atas) adalah:

masukkan deskripsi gambar di sini

Sunting: Dengan perbandingan, kemiringan kuadran-korelasi adalah 3,333

Baik korelasi Kendall dan korelasi Spearman secara substansial lebih kuat untuk pencilan yang berpengaruh daripada kuadrat terkecil. Lihat di sini untuk contoh dramatis dalam kasus Kendall.

— Glen_b -Reinstate Monica
sumber

(+1) Penjelasan hebat! Apakah ada alasan mengapa Kendall tampaknya lebih disukai daripada Spearman dalam konteks ini (setidaknya dilihat dari fakta bahwa korelasi Kendall sesuai dengan penduga kemiringan yang memiliki nama, Theil-Sen, sedangkan Spearman satu tidak)?

— Amoeba berkata Reinstate Monica

4

Ada sejumlah alasan mengapa hal ini terjadi. Pertama adalah bahwa garis Theil-Sen memiliki penduga yang digambarkan secara sederhana (median dari lereng berpasangan), yang tidak dimiliki Spearman; dalam sampel kecil ini sangat cocok untuk perhitungan tangan. Korelasi Kendall mendekati normalitas lebih cepat dan lebih mudah ditelusur secara matematis . Lihat juga di sini dan di sini .

— Glen_b -Reinstate Monica

20

$X$ $Y$ $Y$

$\chi^2$

Model PO adalah kasus khusus dari keluarga yang lebih umum dari model probabilitas kumulatif (beberapa panggilan tautan kumulatif) termasuk model probit, bahaya proporsional, dan log-log pelengkap. Untuk studi kasus, lihat Bab 15 dari Handout saya .

— Frank Harrell
sumber

4

Aaron Han (1987 dalam ekonometrik) mengusulkan penduga Korelasi Peringkat Maksimum yang cocok dengan model regresi dengan memaksimalkan tau. Dougherty dan Thomas (2012 dalam literatur psikologi) baru-baru ini mengusulkan algoritma yang sangat mirip. Ada banyak pekerjaan di MRC yang menggambarkan sifat-sifatnya.

Aaron K. Han, Analisis non-parametrik dari model regresi umum: Penaksir korelasi peringkat maksimum, Jurnal Ekonometrika, Volume 35, Masalah 2-3, Juli 1987, Halaman 303-316, ISSN 0304-4076, http: // dx.doi.org/10.1016/0304-4076(87)90030-3 . ( http://www.sciencedirect.com/science/article/pii/0304407687900303 )

Dougherty, MR, & Thomas, RP (2012). Pengambilan keputusan yang kuat di dunia nonlinier. Ulasan psikologis, 119 (2), 321. Diperoleh dari http://damlab.umd.edu/pdf%20articles/DoughertyThomas2012Rev.pdf .

— pemain peringkat
sumber