Signifikansi koefisien korelasi rata-rata

Penafian: jika Anda menemukan pertanyaan ini terlalu mirip dengan yang lain, saya senang bisa digabung. Namun, saya tidak menemukan jawaban yang memuaskan di tempat lain (dan belum memiliki "reputasi" untuk berkomentar atau mendukung), jadi saya pikir akan lebih baik untuk mengajukan pertanyaan baru sendiri.

Pertanyaan saya adalah ini. Untuk masing-masing dari 12 subjek manusia, saya telah menghitung koefisien korelasi (Spearman rho) antara 6 level variabel independen X, dan pengamatan yang sesuai dari variabel dependen Y. (Catatan: level X tidak sama di seluruh subjek.) My hipotesis nol adalah bahwa dalam populasi umum, korelasi ini sama dengan nol. Saya telah menguji hipotesis ini dengan dua cara:

Menggunakan uji-satu sampel pada koefisien korelasi yang diperoleh dari 12 subjek saya.
Dengan memusatkan tingkat X saya dan pengamatan Y sedemikian rupa sehingga untuk setiap peserta, rata-rata (X) = 0 dan rata-rata (Y) = 0, dan kemudian menghitung korelasi atas data agregat (72 tingkat X dan 72 pengamatan Y) .

Sekarang, dari membaca tentang bekerja dengan koefisien korelasi (di sini dan di tempat lain) saya sudah mulai ragu apakah pendekatan pertama itu valid. Khususnya, saya telah melihat persamaan berikut muncul di beberapa tempat, disajikan (tampaknya) sebagai uji-t untuk koefisien korelasi rata-rata:

t = \frac{r}{S E_{r}} = \frac{\sqrt{n - 2}}{\sqrt{1 - r^{2}}}

$t = \frac{r}{SE_{r}} = \frac{\sqrt{n-2}}{\sqrt{1-r^{2}}}$

di mana akan menjadi koefisien korelasi rata-rata (dan mari kita asumsikan kita sudah diperoleh ini menggunakan transformasi Fisher pada koefisien per-subjek pertama) dan jumlah observasi. Secara intuitif, ini tampak salah bagi saya karena tidak termasuk ukuran variabilitas antar subjek. Dengan kata lain, jika saya memiliki 3 koefisien korelasi, saya akan mendapatkan statistik t yang sama apakah mereka [0,1, 0,5, 0,9] atau [0,45 0,5 0,55] atau rentang nilai apa pun dengan rata-rata yang sama (dan ) $r$ $n$ $n=3$

Saya menduga, oleh karena itu, bahwa persamaan di atas sebenarnya tidak berlaku ketika menguji signifikansi rata-rata koefisien korelasi, tetapi ketika menguji signifikansi koefisien korelasi tunggal berdasarkan pada pengamatan 2 variabel. $n$

Adakah yang bisa mengonfirmasi intuisi ini atau menjelaskan mengapa ini salah? Juga, jika formula ini tidak berlaku untuk kasus saya, apakah ada yang tahu / pendekatan yang benar? Atau mungkin tes saya sendiri nomor 2 sudah valid? Setiap bantuan sangat dihargai (termasuk petunjuk untuk jawaban sebelumnya yang mungkin saya lewatkan atau salah tafsirkan).

correlation statistical-significance fisher-transform

— Ruben van Bergen
sumber

Pearson's tidak sensitif terhadap transformasi pemusatan dan penskalaan, jadi saya pikir pemusatan tidak relevan dengan pertanyaan Anda. Misalnya, cor ( ) = cor ( ) = cor ( ) = cor ( ).

r

$r$

X, Y

$X,Y$

X, Y - \bar{Y}

$X,Y-\bar{Y}$

X, Y + 1000

$X,Y+1000$

X, Y \times 1000

$X,Y\times 1000$

— Alexis

Saya setuju dengan kamu. Itu sebabnya saya mengartikan pemusatan sebagai "memusatkan setiap variabel secara terpisah sebelum menyatukannya".

— Federico Tedeschi

@FedericoTedeschi Bukankah "memusatkan setiap variabel secara terpisah sebelum menyatukannya" apa arti ?

Y - \bar{Y}

$Y-\bar{Y}$

— Alexis

@Alexis saya telah menjawab kepada Anda di bagian bawah jawaban saya (itu akan terlalu lama untuk menuliskannya di komentar, dan saya juga harus memperbaikinya beberapa kali karena masalah WYSINWYG).

— Federico Tedeschi

Jawaban:

Pendekatan yang lebih baik untuk menganalisis data ini adalah dengan menggunakan model campuran (alias model efek campuran, model hierarkis) dengan subjectsebagai efek acak (mencegat acak atau mencegat acak + kemiringan). Untuk meringkas jawaban saya yang berbeda :

Ini pada dasarnya adalah regresi yang memodelkan hubungan tunggal secara keseluruhan sementara memungkinkan hubungan itu berbeda antara kelompok (subyek manusia). Pendekatan ini mendapat manfaat dari pengumpulan sebagian dan menggunakan data Anda lebih efisien.

— mkt - Pasang kembali Monica
sumber

-1

Saya berasumsi bahwa variabel ( dan ) adalah sama untuk semua individu (sebenarnya saya tidak yakin saya mengerti apa yang Anda maksud dengan mengatakan bahwa levelnya tidak sama di seluruh mata pelajaran: Saya harap Anda merujuk tentang independensi di antara rentang variabel, bukan tentang variabel mana yang diukur untuk setiap individu). Ya, rumus yang Anda tunjukkan berlaku untuk koefisien korelasi antara dua variabel. $12$ $6$ $X$ $6$ $Y$

Dalam poin 2 Anda, Anda berbicara tentang normalisasi: Saya pikir ini masuk akal jika Anda melakukannya untuk masing-masing variabel secara terpisah. Namun, meskipun demikian, masalah dengan pendekatan ini adalah bahwa ia tidak mengontrol ketergantungan individu. $6*2$

Saya percaya pendekatan Anda 1 juga tidak valid, karena itu akan menjadi tes di antara variabel dengan distribusi dengan hanya derajat kebebasan, jadi saya tidak berpikir Anda dapat menerapkan Central Limit Theorem dalam kasus ini. $6$ $t$ $10$

Mungkin, dengan angka yang lebih besar, Anda bisa menggunakan pendekatan efek acak, memungkinkan untuk kemiringan acak dan secara bersamaan menguji koefisien rata-rata nol (dari pada ) dan tidak adanya koefisien acak. Namun saya percaya 6 variabel dan 12 pengamatan tidak cukup untuk melakukannya. $X_i$ $Y_i$

Saya sarankan Anda melihatnya sebagai tes pada 6 nilai (menjadi 12 jika Anda juga mempertimbangkan nilai di bawah diagonal) dari matriks korelasi di antara variabel (baik dan ), yaitu yang ada di diagonal ke-2 (dan ekuivalen dengan kuadran ketiga). Jadi, saya akan membuat tes rasio kemungkinan antara model terbatas dan tidak terbatas. $12$ $X$ $Y$

@Alexis Pemahaman saya adalah bahwa pemusatan , , dengan menggantinya dengan akan masuk akal (saya pikir masuk akal juga untuk membaginya dengan mereka ). Dengan cara ini, variabel dan (dibuat dengan mempertimbangkan seolah-olah merupakan kemunculan variabel unik, dan sama untuk ) semuanya akan memiliki a berarti. Sebaliknya, jika kita membangun dua variabel terlebih dahulu (dibuat dengan mempertimbangkan $X_1, \dots, X_6$ $Y_1, \dots, Y_6$ $X_1^*=X_1-\bar{X_1}, \dots, X_6^*=X_6-\bar{X_6}, Y_1^*=Y_1-\bar{Y_1}, \dots, Y_6^*=Y_6-\bar{Y_6}$ $SE$ $X^*$ $Y^*$ $X_i^*, 1 \leq i \leq 6$ $Y_i^*$ $0$ $X, Y$ $X_i, 1 \leq i \leq 6$ seolah-olah mereka adalah kejadian dari variabel unik, dan sama untuk ), maka tentu saja mengurangi mean (dan juga membagi dengan SE dari dan ) tidak akan mengubah hal-hal. $Y_i$ $X$ $Y$

EDIT 01/01/18

Biarkan menunjukkan variabel dan ( ) individu. Maka, misalkan kita memiliki: $i$ $j$ $1\leq j\leq 12$

$X_{1j}=Y_{1j}=10, \forall j$ ;

$X_{2j}=Y_{2j}=8, \forall j$ ;

$X_{3j}=Y_{3j}=6, \forall j$ ;

$X_{4j}=Y_{4j}=4, \forall j$ ;

$X_{5j}=Y_{5j}=2, \forall j$ ;

$X_{6j}=-Y_{6j}=j, \forall j$ .

Korelasi dalam kasus ini harus . $0.5428$

Jika kita memusatkan setiap variabel, mengingat bahwa, untuk , baik dan tidak memiliki variasi, kita memiliki: . Sedangkan untuk , kita mendapatkan nilai (yaitu, untuk 's: , dan sebaliknya untuk 's). Karena dan , kita mendapatkan: , menyiratkan korelasi . $1 \leq i \leq 5$ $X_i$ $Y_i$ $X_{ij}^*=Y_{ij}^*=0$ $i=6$ $X_{6j}^*=j-6.5, Y_{j6}^*=(13-j)-6.5=6.5-j$ $X$ $-5.5, -4.5, -3.5, -2.5, -1.5, -0.5, 0.5, 1.5, 2.5, 3.5, 4.5, 5.5$ $Y$ $0=-0$ $j-6.5=-(6.5-j)$ $X_{ij}^*=-Y_{ij}^* \forall i,j \rightarrow X^*=-Y^*$ $-1$

— Federico Tedeschi
sumber

Saya setuju dengan Anda, jika kami mengikuti prosedur kedua. Itu sebabnya saya percaya Ruben van Bergen berarti apa yang saya jelaskan dalam prosedur 1. Dalam hal ini, kita memiliki itu: , tetapi tidak umumnya benar. Saya mengedit posting saya untuk menunjukkan contoh tandingan.

c o r (X_{i}, Y_{i}) = c o r (X_{i}^{*}, Y_{i}^{*}), \forall i

$cor(X_i,Y_i)=cor(X_i^*,Y_i^*), \forall i$

c o r (X, Y) = c o r (X^{*}, Y^{*})

$cor(X,Y)=cor(X^*,Y^*)$

— Federico Tedeschi

Nilai yang memberikan korelasi adalah: ; . Tidak masalah apakah korelasinya benar-benar , karena jelas berbeda dari .

0.5428

$0.5428$

X = 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12

$X=10,10,10,10,10,10,10,10,10,10,10,10,8,8,8,8,8,8,8,8,8,8,8,8,6,6,6,6,6,6,6,6,6,6,6,6,4,4,4,4,4,4,4,4,4,4,4,4,2,2,2,2,2,2,2,2,2,2,2,2,1,2,3,4,5,6,7,8,9,10,11,12$

Y = 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 12, 11, 10, 9, 8, 7, 6, 5, 4, 3, 2, 1

$Y=10,10,10,10,10,10,10,10,10,10,10,8,8,8,8,8,8,8,8,8,8,8,8,6,6,6,6,6,6,6,6,6,6,6,6,4,4,4,4,4,4,4,4,4,4,4,4,2,2,2,2,2,2,2,2,2,2,2,2,12,11,10,9,8,7,6,5,4,3,2,1$

0.5428

$0.5428$

- 1

$-1$

— Federico Tedeschi

Korelasi antara dan adalah . Fakta Anda mengatakan bahwa dan mengarah ke benar, tetapi ini hanya berarti , itu adalah sesuatu yang sudah saya tulis.

X^{*} = 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, - 5.5, - 4.5, - 3.5, - 2.5, - 1.5, - 0.5, 0.5, 1.5, 2.5, 3.5, 4.5, 5.5

$X^*=0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,-5.5,-4.5,-3.5,-2.5,-1.5,-0.5,0.5,1.5,2.5,3.5,4.5,5.5$

X^{*} = 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5.5, 4.5, 3.5, 2.5, 1.5, 0.5, - 0.5, - 1.5, - 2.5, - 3.5, - 4.5, - 5.5

$X^*=0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,5.5,4.5,3.5,2.5,1.5,0.5,-0.5,-1.5,-2.5,-3.5,-4.5,-5.5$

- 1

$-1$

X = 1, \dots, 12

$X=1,\dots, 12$

Y = 12, \dots, 1

$Y=12, \dots, 1$

c o r (X, Y) = c o r (X^{*}, Y^{*}) = - 1

$cor(X,Y)=cor(X^*,Y^*)=-1$

c o r (X_{i}, Y_{i}) = c o r (X_{i}^{*}, Y_{i}^{*})

$cor(X_i,Y_i)=cor(X^*_i,Y^*_i)$

— Federico Tedeschi

Tentu saja : ini adalah konsekuensi dari invariansi korelasi dengan transformasi linear. Ini adalah sesuatu yang telah saya sepakati di komentar pertama saya, "Saya setuju dengan Anda. Itulah sebabnya saya menafsirkan keterpusatan sebagai" memusatkan setiap variabel secara terpisah sebelum menyatukan mereka "." - Federico Tedeschi 27 Des 17 'jam 10:27

c o r (X; Y) = c o r (X - \bar{X}; Y - \bar{Y})

$cor(X;Y)=cor(X-\bar{X};Y-\bar{Y})$

— Federico Tedeschi

Mungkin, saya tidak mengerti apa artinya "memusatkan setiap variabel secara terpisah sebelum menyatukannya". Bagi saya, berarti adalah "memusatkan masing-masing variabel secara terpisah sebelum menyatukannya ". Bisakah Anda membantu saya memahami pemahaman kami yang berbeda?

X - \bar{X}

$X - \bar{X}$

X_{1} - \bar{X}, X_{2} - \bar{X}, \dots, X_{n} - \bar{X}

$X_{1} - \bar{X}, X_{2}-\bar{X},\dots, X_{n}-\bar{X}$

— Alexis