Bagaimana cara menguji apakah matriks kovarian silang tidak nol?

Latar belakang penelitian saya :

Dalam sampling Gibbs di mana kami sampel (variabel minat) dan dari dan masing-masing, di mana dan adalah vektor acak -dimensi. Kita tahu bahwa proses ini biasanya dibagi menjadi dua tahap: $X$ $Y$ $P(X|Y)$ $P(Y|X)$ $X$ $Y$ $k$

Periode Bakar, di mana kami membuang semua sampel. sampel sebagai dan . $X_1\sim X_t$ $Y_1\sim Y_t$
Periode "After-Burn-in", di mana kami rata-rata sampel sebagai hasil akhir yang diinginkan kami. $\bar{X} = \frac{1}{k}\sum_{i=1}^k X_{t+i}$

Namun, sampel dalam urutan "after-burn-in" tidak didistribusikan secara independen. Karena itu jika saya ingin memeriksa varian hasil akhirnya, itu menjadi $X_{t+1}\sim X_{t+k}$

Var [\bar{X}] = Var [\sum_{i = 1}^{k} X_{t + i}] = \frac{1}{k^{2}} (\sum_{i = 1}^{k} Var [X_{t + i}] + \sum_{i = 1}^{k - 1} \sum_{j = i + 1}^{k} Cov [X_{t + i}, X_{t + j}])

$\operatorname{Var}[\bar{X}] = \operatorname{Var}\left[\sum_{i=1}^k X_{t+i}\right] = \frac{1}{k^2}\left(\sum_{i=1}^k\operatorname{Var}[X_{t+i}] + \sum_{i=1}^{k-1} \sum_{j=i+1}^k \operatorname{Cov}[X_{t+i},X_{t+j}]\right)$

Di sini istilah adalah matriks kovarians lintas berlaku untuk setiap dengan . $\operatorname{Cov}[X_{t+i},X_{t+j}]$ $k\times k$ $(i,j)$ $i<j$

Sebagai contoh, saya punya

X_{t + 1} = (1, 2, 1)^{'} X_{t + 2} = (1, 0, 2)^{'} X_{t + 3} = (1, 0, 0)^{'} X_{t + 4} = (5, 0, - 1)^{'}

$X_{t+1} = (1,2,1)'\\ X_{t+2} = (1,0,2)'\\ X_{t+3} = (1,0,0)'\\ X_{t+4} = (5,0,-1)'$

maka saya dapat memperkirakan matriks kovarians dengan $\operatorname{Cov}[X_{t+i}, X_{t+i+1}]$

\frac{1}{3} \sum_{i = 1}^{3} (X_{t + i} - μ_{t + i}) (X_{t + i + 1} - μ_{t + i + 1})^{'}

$\frac{1}{3}\sum_{i=1}^3 (X_{t+i}-\mu_{t+i})(X_{t+i+1}-\mu_{t+i+1})'$

Sekarang saya tertarik jika estimasi yang dihasilkan secara signifikan bukan nol sehingga saya perlu memasukkannya ke dalam estimasi varians saya dari . $\operatorname{Var}[\bar{X}]$

Jadi inilah pertanyaan saya :

Kami mengambil sampel dari . Karena berubah, saya pikir dan tidak dari distribusi yang sama, jadi tidak sama dengan . Apakah pernyataan ini benar? $X_{t+i}$ $P(X_{t+i}|Y_{t+i})$ $Y_{t+i}$ $X_{t+i}$ $X_{t+i+1}$ $\operatorname{Cov}[X_{t+i},X_{t+j}]$ $\operatorname{Cov}[X_{t+i},X_{t+i}]$
Misalkan saya memiliki cukup data untuk memperkirakan (sampel tetangga dalam urutan), apakah ada cara untuk menguji apakah matriks kovarians secara signifikan merupakan matriks bukan nol? Secara umum, saya tertarik pada indikator yang menuntun saya ke beberapa matriks lintas-kovarian yang bermakna yang harus dimasukkan dalam estimasi varians akhir saya. $\operatorname{Cov}[X_{t+i},X_{t+i+1}]$

— TomHall
sumber

Sebenarnya, sekarang ini sepertinya pertanyaan yang cukup bagus; Saya pikir beberapa orang akan ditempatkan lebih baik untuk memberikan jawaban yang baik daripada saya, jadi saya ingin mempromosikan ini (beri hadiah) ketika itu akan memenuhi syarat segera. [Jawaban singkat: 1. Kedua kovarian itu berbeda. 2. Anda tidak perlu menguji apakah variasi berturut-turut berkorelasi (dalam semua kasus kecuali yang paling sepele; algoritma bekerja dengan menghasilkan variabel dependen) - lebih menarik untuk mengukur korelasi daripada mengujinya;] ... jika jawaban yang bagus tidak muncul, saya akan memperluas komentar singkat itu menjadi jawaban lengkap

— Glen_b -Reinstate Monica

Tampaknya pertanyaan Anda jauh lebih luas daripada pertanyaan judul Anda. Khusus untuk menjawab pertanyaan judul Anda, ada uji kebulatan Bartlett yang memungkinkan untuk menguji apakah matriks kovarians sampel diagonal. Anda mungkin perlu menyesuaikannya dengan skenario lintas-kovarians Anda ("matriks kovarians" Anda sebenarnya bukan matriks kovarians, ini adalah matriks lintas-kovarian; ini merupakan blok off-diagonal dari matriks kovarians penuh baik X_t dan X_ { t +1} bersama-sama). CC ke @Glen_b.

— Amuba mengatakan Reinstate Monica

Saya akan menambahkan bahwa kovarian cenderung meluruh kurang lebih secara geometris (semakin meningkat saat Anda bergerak lebih jauh); nilai yang berjauhan dalam waktu cenderung memiliki korelasi yang sangat rendah ( bukan nol tetapi sebagian besar dapat diabaikan) sementara mereka yang berdekatan kadang-kadang bisa sangat tergantung.

— Glen_b -Reinstate Monica

@ Tom 1. Namun, dengan seri stasioner, pada jarak yang sangat jauh (4 tidak jauh!), Apa yang terjadi pada ACF? 2. Anda tahu sesuatu tentang bagaimana nilai yang dihasilkan dari MCMC bekerja sehingga Anda tidak bisa mengatakan tentang deret waktu yang sewenang-wenang ... mereka Markovian . Anda akan mencatat bahwa komentar saya sebelumnya tidak mengklaim bahwa kelambanan terdekat harus menunjukkan pembusukan geometris (mis. Saya tidak mengatakan bahwa tidak mungkin untuk melihat korelasi yang lebih tinggi pada kelambatan 4 dari 3). Anda masih akan mendapatkan (jika kondisi tertentu berlaku) kecenderungan untuk pembusukan geometris di ACF saat Anda bergerak berjauhan.

$\quad$

— Glen_b -Reinstate Monica

Jika periode pengambilan sampel Anda sangat singkat sehingga Anda tidak memiliki perkiraan silang kovarians yang sangat akurat, Anda mungkin hanya harus berurusan dengan fakta bahwa perkiraan Anda terhadap persyaratan lintas-kovarian memiliki kesalahan standar yang besar. Mengingat pemahaman saya saat ini, saya bahkan lebih kuat akan menegaskan kembali keberatan saya untuk menguji korelasi. Pengujian hipotesis untuk korelasi nol vs tidak nol tidak mengatasi masalah Anda di sini.

— Glen_b -Reinstate Monica

Kami mengambil sampel dari . Karena berubah, saya pikir dan tidak berasal dari distribusi yang sama [...] $X_{t+i}$ $P(X_{t+i}|Y_{t+i})$ $Y_{t+i}$ $X_{t+i}$ $X_{t+i+1}$

Anda bingung distribusi kondisional dan tanpa syarat di sini, lihat juga komentar saya berikutnya. Bersyarat pada dan , . Tetapi seluruh titik membangun sampler Gibbs Anda adalah untuk sampel dari distribusi stasioner dari dan . Secara kasar, jika Anda telah menjalankan rantai Anda cukup lama dan sehingga mengikuti distribusi stasioner, Anda dapat mengatakan berarti bahwa distribusi tanpa syarat juga invarian. Dengan kata lain, sebagai $Y_{t+i} = y_1$ $Y_{t+i+1} = y_2$ $P(X_{t+i}|Y_{t+i} = y_1) \neq P(X_{t+i+1}|Y_{t+i+1} = y_2)$ $X$ $Y$ $\{Y_t\}$

\begin{aligned} P (X_{t}) = \int_{Y} P (X_{t} | Y_{t}) d P (Y_{t}), \end{aligned}

$\begin{align} P(X_t) = \int_{\mathcal{Y}}P(X_t|Y_t)dP(Y_t), \end{align}$

X_{t}

$X_t$

t \to \infty

$t \to \infty$ dan kami bertemu ke distribusi stasioner, , karena dan akan diambil secara asimptotik dari (yang sama!) distribusi stasioner . Di sisi lain dan seperti sebelumnya, setelah kami mengkondisikan pada dan , ini tidak akan bertahan lagi, terlepas dari seberapa besar .

P (X_{t + i} | Y_{t + i}) = P (X_{t + i + 1} | Y_{t + i + 1})

$P(X_{t+i}|Y_{t+i}) = P(X_{t+i+1}|Y_{t+i+1})$

Y_{t + i}

$Y_{t+i}$

Y_{t + i + 1}

$Y_{t+i+1}$

P (Y_{t})

$P(Y_t)$

Y_{t + i} = y_{1}

$Y_{t+i} = y_1$

Y_{t + i + 1} = y_{2}

$Y_{t+i+1} = y_2$

t

$t$

[...] jadi tidak sama dengan . Apakah pernyataan ini benar? $\operatorname{Cov}[X_{t+i},X_{t+j}]$ $\operatorname{Cov}[X_{t+i},X_{t+i}]$

Ya, ini benar - walaupun , yaitu dan memiliki distribusi stasioner yang sama. Saya tahu ini mungkin membingungkan, tetapi bersabarlah. Definisikan dengan . Dengan substitusi berulang, kita dapat menunjukkan bahwa , dan karena (tak terbatas) jumlah normals masih normal, ia menyatakan bahwa dan agar . Jelas, dan $X_{t+1} \sim X_{t}$ $X_t$ $X_{t+1}$ $Y_t = 0.8\cdot Y_{t-1} + \varepsilon_t$ $\varepsilon_t \overset{iid}{\sim} N(0,1)$ $Y_t = \sum_{i=0}^t0.8^i \varepsilon_{t-i}$ $\text{Var}(Y_t) = \sum_{i=0}^t0.8^{2i} = \dfrac{1}{1-0.8^2}$ $Y_t \overset{iid}{\sim} N(0, \dfrac{1}{1-0.8^2})$ $Y_t$ $Y_{t+1}$ masih akan dikorelasikan, tetapi mereka juga akan berasal dari distribusi yang sama ( ). Situasi serupa berlaku untuk Anda . $Y_{t+1} \sim Y_{t}$ $X_t$

Misalkan saya memiliki cukup data untuk memperkirakan (sampel tetangga dalam urutan), apakah ada cara untuk menguji apakah matriks kovarians secara signifikan merupakan matriks bukan nol? Secara umum, saya tertarik pada indikator yang menuntun saya ke beberapa matriks lintas-kovarian yang bermakna yang harus dimasukkan dalam estimasi varians akhir saya. $\operatorname{Cov}[X_{t+i},X_{t+i+1}]$

Nah, jika Anda memiliki banyak pengamatan yang tak terhingga, semuanya pada akhirnya akan menjadi signifikan. Jelas, Anda tidak dapat melakukan ini dalam praktik, tetapi ada cara 'memotong' ekspansi setelah beberapa istilah, lihat jawaban yang sangat baik diterima di sini. Pada dasarnya, Anda mendefinisikan kernel yang meluruh ke dan memberikan bobot ke matriks kovarians pertama yang dapat Anda hitung. Jika Anda ingin memilih dengan cara berprinsip, Anda harus menggali sedikit ke dalam literatur, tetapi posting yang saya tautkan memberi Anda beberapa referensi yang baik untuk melakukan hal itu. $k(\cdot)$ $0$ $l_T$ $l_T$

— Jeremias K
sumber