Matematika yang diperlukan untuk mendapatkan hasil yang tepat adalah berantakan, tetapi kita dapat memperoleh nilai yang tepat untuk koefisien korelasi kuadrat yang diharapkan relatif tanpa rasa sakit. Ini membantu menjelaskan mengapa nilai dekat terus muncul dan mengapa menambah panjang jalan acak tidak akan mengubah banyak hal.n1 / 2n
Ada potensi kebingungan tentang istilah standar. Korelasi absolut yang dirujuk dalam pertanyaan, bersama dengan statistik yang membuatnya - varian dan kovarian - adalah formula yang dapat diterapkan pada pasangan realisasi berjalan acak. Pertanyaannya menyangkut apa yang terjadi ketika kita melihat banyak realisasi independen. Untuk itu, kita perlu mengambil ekspektasi atas proses berjalan acak.
(Edit)
Sebelum kami melanjutkan, saya ingin berbagi beberapa wawasan grafis dengan Anda. Sepasang jalan acak independen adalah jalan acak dalam dua dimensi. Kita dapat memplot jalur yang melangkah dari masing-masing ke . Jika jalur ini cenderung ke bawah (dari kiri ke kanan, diplot pada sumbu XY biasa) kemudian untuk mempelajari nilai absolut korelasi , mari kita meniadakan semua nilai-nilai. Plot jalan-jalan di sumbu berukuran untuk memberikan nilai dan sama dengan standar deviasi dan menempatkan lebih cocok kuadrat-terkecil dari ke( X t , Y t ) X t + 1 , Y t + 1 Y X Y Y X 0 1( X, Y)( Xt, Yt)Xt + 1, Yt + 1YXYYX. Kemiringan garis-garis ini akan menjadi nilai absolut dari koefisien korelasi, selalu berada di antara dan .01
Gambar ini menunjukkan jalan tersebut, masing-masing dengan panjang (dengan perbedaan Normal standar). Lingkaran terbuka kecil menandai titik awal mereka. Lingkaran hitam menandai lokasi terakhir mereka.96015960
Lereng ini cenderung cukup besar. Plot scatter acak sempurna dari banyak titik ini akan selalu memiliki kemiringan yang mendekati nol. Jika kita harus menggambarkan pola yang muncul di sini, kita dapat mengatakan bahwa sebagian besar jalan acak 2D secara bertahap berpindah dari satu lokasi ke lokasi lain. (Namun, ini belum tentu lokasi awal dan titik akhir!) Kira-kira separuh waktu, bahwa migrasi terjadi dalam arah diagonal - dan kemiringannya tinggi.
Sisa posting ini membuat sketsa analisis situasi ini.
Jalan acak adalah urutan jumlah parsial ( W 1 , W 2 , ... , W n ) di mana W i adalah variabel bebas nol rata-rata yang terdistribusi secara identik. Biarkan varian umum mereka menjadi .( Xsaya)( W1, W2, ... , Wn)Wsayaσ2
Dalam realisasi dari jalan tersebut, "varians" akan dihitung seolah-olah ini adalah dataset:x = ( x1, ... , xn)
V( x ) = 1n∑ ( xsaya−x¯)2.
Cara yang bagus untuk menghitung nilai ini adalah dengan mengambil setengah rata-rata dari semua perbedaan kuadrat:
V(x)=1n(n−1)∑j>i(xj−xi)2.
Ketika dipandang sebagai hasil dari random walk dari langkah, harapan inixXn
E(V(X))=1n(n−1)∑j>iE(Xj−Xi)2.
Perbedaannya adalah jumlah variabel iid,
Xj−Xi=Wi+1+Wi+2+⋯+Wj.
Perluas alun-alun dan ambil harapan. Karena independen dan memiliki nol berarti, harapan semua istilah lintas adalah nol. Yang tersisa hanya istilah seperti , yang ekspektasinya adalah . DemikianWkWkσ2
E((Wi+1+Wi+2+⋯+W2j))=(j−i)σ2.
Dengan mudah mengikuti itu
E(V(X))=1n(n−1)∑j>i(j−i)σ2=n+16σ2.
Kovarians antara dua realisasi independen dan lagi dalam arti dataset, bukan variabel acak - dapat dihitung dengan teknik yang sama (tetapi membutuhkan kerja aljabar yang lebih banyak; jumlah quadruple terlibat). Hasilnya adalah kuadrat kovarians yang diharapkanxy
E(C(X,Y)2)=3n6−2n5−3n2+2n480n2(n−1)2σ4.
Akibatnya harapan dari koefisien korelasi kuadrat antara dan , diambil ke langkah, adalahXYn
ρ2(n)=E(C(X,Y)2)E(V(X))2=3403n3−2n2+3n−2n3−n.
Meskipun ini tidak konstan, ia dengan cepat mendekati nilai pembatas . Akar kuadratnya, sekitar , karenanya mendekati nilai absolut yang diharapkan dari (dan meremehkannya).9/400.47ρ(n)
Saya yakin saya telah membuat kesalahan komputasi, tetapi simulasi menunjukkan akurasi asimptotik. Dalam hasil berikut ini menunjukkan histogram untuk simulasi masing-masing, garis merah vertikal menunjukkan rata-rata sedangkan garis biru putus-putus menunjukkan nilai rumus. Jelas itu salah, tetapi asimptotik itu benar. Jelas seluruh distribusi mendekati batas dengan meningkatnya . Demikian pula dengan distribusi(yang merupakan jumlah bunga) akan mendekati batas.ρ2(n)1000ρ2( n)n| ρ(n) |
Ini adalah R
kode untuk menghasilkan gambar.
f <- function(n){
m <- (2 - 3* n + 2* n^2 -3 * n^3)/(n - n^3) * 3/40
}
n.sim <- 1e4
par(mfrow=c(1,4))
for (n in c(3, 10, 30, 100)) {
u <- matrix(rnorm(n*n.sim), nrow=n)
v <- matrix(rnorm(n*n.sim), nrow=n)
x <- apply(u, 2, cumsum)
y <- apply(v, 2, cumsum)
sim <- rep(NA_real_, n.sim)
for (i in 1:n.sim)
sim[i] <- cor(x[,i], y[,i])^2
z <- signif(sqrt(n.sim)*(mean(sim) - f(n)) / sd(sim), 3)
hist(sim,xlab="rho(n)^2", main=paste("n =", n), sub=paste("Z =", z))
abline(v=mean(sim), lwd=2, col="Red")
abline(v=f(n), col="Blue", lwd=2, lty=3)
}