Bagaimana rumus untuk menghasilkan variabel acak berkorelasi bekerja?


19

Jika kita memiliki 2 variabel acak normal, tidak berkorelasi maka kita dapat membuat 2 variabel acak berkorelasi dengan rumusX1,X2

Y=ρX1+1ρ2X2

dan kemudian akan memiliki korelasi dengan .ρ X 1YρX1

Adakah yang bisa menjelaskan dari mana formula ini berasal?


1
Diskusi yang luas tentang hal ini dan masalah terkait muncul dalam jawaban saya di stats.stackexchange.com/a/71303 . Di antara hal-hal lain, jelas bahwa (1) asumsi Normalitas tidak relevan dan (2) Anda perlu membuat asumsi tambahan: varian dan harus sama agar korelasi dengan menjadi . X 2 Y X 1 ρX1X2YX1ρ
whuber

Tautan yang sangat menarik. Saya tidak yakin saya mengerti apa yang Anda maksud dengan normalitas menjadi tidak relevan. Jika atau X 2 tidak normal, dan menjadi lebih sulit untuk mengontrol kepadatan Y melalui algoritma Kaiser-Dickman. Ini adalah alasan utama untuk algoritma khusus untuk menghasilkan data berkorelasi tidak normal (misalnya, Headrick, 2002; Ruscio & Kaczetow, 2008; Vale & Maurelli, 1983) Misalnya, bayangkan tujuan Anda adalah untuk menghasilkan X ~ normal, Y ~ uniform , dengan ρ = .5. Menggunakan X 2 ~ seragam menghasilkan Y yang tidak seragam ( Y akhirnya menjadi kombinasi linear dari yang normal dan seragam).X1X2YXYρX2YY
Anthony

@Anthony Pertanyaannya hanya bertanya tentang korelasi , yang murni fungsi dari momen pertama dan kedua. Jawabannya tidak tergantung pada properti distribusi lainnya. Apa yang Anda diskusikan adalah topik yang berbeda sama sekali.
whuber

Jawaban:


17

Misalkan Anda ingin menemukan kombinasi linier dan X 2 sedemikian rupaX1X2

corr(αX1+βX2,X1)=ρ

Perhatikan bahwa jika Anda mengalikan dan β dengan konstanta yang sama (tidak nol), korelasinya tidak akan berubah. Jadi, kita akan menambahkan kondisi untuk mempertahankan varians: var ( α X 1 + β X 2 ) = var ( X 1 )αβvar(αX1+βX2)=var(X1)

Ini setara dengan

ρ=cov(αX1+βX2,X1)var(αX1+βX2)var(X1)=αcov(X1,X1)=var(X1)+βcov(X2,X1)=0var(αX1+βX2)var(X1)=αvar(X1)α2var(X1)+β2var(X2)

Dengan asumsi kedua variabel acak memiliki varian yang sama (ini adalah asumsi penting!) ( ), kita dapatkanvar(X1)=var(X2)

ρα2+β2=α

Ada banyak solusi untuk persamaan ini, jadi sekarang saatnya untuk mengingat kondisi pengawetan ragam:

var(X1)=var(αX1+βX2)=α2var(X1)+β2var(X2)α2+β2=1

Dan ini membawa kita ke

α=ρβ=±1ρ2

UPD . Mengenai pertanyaan kedua: ya, ini dikenal sebagai pemutihan .


9

Persamaannya adalah bentuk bivariat sederhana dari dekomposisi Cholesky . Persamaan yang disederhanakan ini kadang-kadang disebut algoritma Kaiser-Dickman (Kaiser & Dickman, 1962).

X1X2X1X2YX2

Referensi:

Kaiser, HF, & Dickman, K. (1962). Matriks sampel dan skor populasi dan matriks korelasi sampel dari matriks korelasi populasi arbitrer. Psychometrika, 27 (2), 179-182.


2
I suppose you don't need standardized normal variables, just having the same variance should be enough.
Artem Sobolev

2
No, the distribution of Y is not a mixture distribution as you claim.
Dilip Sarwate

Point taken, @Dilip Sarwate. If either X1 or X2 is nonnormal, then Y becomes a linear combination of two variables that might not result in the desired distribution. This is the reason for specialized algorithms (instead of Kaiser-Dickman) for generated non-normal correlated data.
Anthony

3

Correlation coefficient is the cos between two series if they are treated as vectors (with nth data point being nth dimension of a vector). The above formula simply creates a decomposition of a vector into its cosθ, sinθ components (with respect to X1,X2).
if ρ=cosθ , then 1ρ2=±sinθ.

Because if X1,X2 are uncorrelated, the angle between them is a right angle (ie, they can be considered as orthogonal, albeit non-normalized, basis vectors ).


2
Welcome to our site! I believe your post will get more attention if you mark up the mathematical expressions using TEX: enclose them between dollar signs. There's help available when you're editing.
whuber
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.