Korelasi mengukur hubungan linear. Dalam konteks informal hubungan berarti sesuatu yang stabil. Ketika kami menghitung korelasi sampel untuk variabel stasioner dan meningkatkan jumlah poin data yang tersedia, korelasi sampel ini cenderung korelasi benar.
Dapat ditunjukkan bahwa untuk harga, yang biasanya adalah jalan acak, korelasi sampel cenderung variabel acak. Ini berarti bahwa tidak peduli berapa banyak data yang kita miliki, hasilnya akan selalu berbeda.
Catatan saya mencoba mengekspresikan intuisi matematika tanpa matematika. Dari sudut pandang matematis, penjelasannya sangat jelas: Contoh momen dari proses stasioner bertemu dalam probabilitas ke konstanta. Contoh momen jalan acak bertemu dengan integral gerakan brown yang merupakan variabel acak. Karena hubungan biasanya dinyatakan sebagai angka dan bukan variabel acak, alasan untuk tidak menghitung korelasi untuk variabel non-stasioner menjadi jelas.
Perbarui Karena kita tertarik korelasi antara dua variabel berasumsi pertama yang mereka datang dari stasioner proses . Stasioneritas menunjukkan bahwa E Z t dan c o v ( Z t , Z t - h ) tidak bergantung pada t . Jadi korelasinyaZt=(Xt,Yt)EZtcov(Zt,Zt−h)t
corr(Xt,Yt)=cov(Xt,Yt)DXtDYt−−−−−−−√
juga tidak tergantung pada , karena semua jumlah dalam formula berasal dari matriks c o v ( Z t ) , yang tidak tergantung pada t . Jadi perhitungan korelasi sampeltcov(Zt)t
merek akal, karena kita mungkin memiliki harapan yang masuk akal bahwa korelasi sampel akan memperkirakanρ=corr(Xt,Yt). Ternyata harapan ini tidak berdasar, karena untuk proses stasioner memuaskan kondisi tertentu kita memilikiρ→
ρ^=1T∑Tt=1(Xt−X¯)(Yt−Y¯)1T2∑Tt=1(Xt−X¯)2∑Tt=1(Yt−Y¯)2−−−−−−−−−−−−−−−−−−−−−−−−−−−√
ρ=corr(Xt,Yt) , sebagai
T → ∞ dalam probabilitas. Selanjutnya
√ρ^→ρT→∞dalam distribusi, sehingga kita dapat menguji hipotesis tentang
ρ.
T−−√(ρ^−ρ)→N(0,σ2ρ)ρ
Sekarang anggaplah bahwa tidak stasioner. Maka c o r r ( X t , Y t ) dapat bergantung pada t . Jadi ketika kita mengamati sampel berukuran T kami potentialy perlu memperkirakan T korelasi yang berbeda ρ t . Hal ini tentu saja tidak layak, sehingga dalam skenario kasus terbaik kita hanya bisa memperkirakan beberapa fungsional ρ t seperti mean atau varians. Tetapi hasilnya mungkin tidak memiliki interpretasi yang masuk akal.Ztcorr(Xt,Yt)tTTρtρt
Sekarang mari kita periksa apa yang terjadi dengan korelasi dari proses acak berjalan yang mungkin paling banyak dipelajari. Kami menyebutnya proses acak berjalan jika Z t = Σ t s = 1 ( U t , V t ) , di mana C t = ( U t , V t ) adalah proses stasioner. Untuk mempermudah berasumsi bahwa E C t = 0 . KemudianZt=(Xt,Yt)Zt=∑ts=1(Ut,Vt)Ct=(Ut,Vt)ECt=0
corr(XtYt)=EXtYtDXtDYt−−−−−−−√=E∑ts=1Ut∑ts=1VtD∑ts=1UtD∑ts=1Vt−−−−−−−−−−−−−−−−√
Untuk menyederhanakan masalah lebih lanjut, menganggap bahwa adalah white noise. Ini berarti bahwa semua korelasi E ( C t C t + h ) adalah nol untuk h > 0 . Perhatikan bahwa ini tidak membatasi c o r r ( U t , V t ) ke nol.Ct=(Ut,Vt)E(CtCt+h)h>0corr(Ut,Vt)
Kemudian
corr(Xt,Yt)=tEUtVtt2DUtDVt−−−−−−−−√=corr(U0,V0).
Sejauh ini bagus, meskipun prosesnya tidak diam, korelasi masuk akal, meskipun kami harus membuat asumsi yang sama.
Sekarang untuk melihat apa yang terjadi pada sampel korelasi kita perlu menggunakan fakta berikut tentang jalan-jalan acak, yang disebut teorema batas pusat fungsional:
1T−−√Z[Ts]=1T−−√∑t=1[Ts]Ct→(cov(C0))−1/2Ws,
in distribution, where
s∈[0,1] and
Ws=(W1s,W2s) is bivariate
Brownian motion (two-dimensional Wiener process). For convenience introduce definition
Ms=(M1s,M2s)=(cov(C0))−1/2Ws.
Again for simplicity let us define sample correlation as
ρ^=1T∑Tt=1XtYt1T∑Tt=1X2t1T∑Tt=1Y2t−−−−−−−−−−−−−−−−−−√
Let us start with the variances. We have
E1T∑t=1TX2t=1TE∑t=1T(∑s=1tUt)2=1T∑t=1Ttσ2U=σUT+12.
This goes to infinity as T increases, so we hit the first problem, sample variance does not converge. On the other hand continuous mapping theorem in conjunction with functional central limit theorem gives us
1T2∑t=1TX2t=∑t=1T1T(1T−−√∑s=1tUt)2→∫10M21sds
where convergence is convergence in distribution, as
T→∞.
Similarly we get
1T2∑t=1TY2t→∫10M22sds
and
1T2∑t=1TXtYt→∫10M1sM2sds
So finally for sample correlation of our random walk we get
ρ^→∫10M1sM2sds∫10M21sds∫10M22sds−−−−−−−−−−−−−−−√
in distribution as
T→∞.
So although correlation is well defined, sample correlation does not converge towards it, as in stationary process case. Instead it converges to a certain random variable.