Menghitung ekspektasi matematis dari koefisien korelasi atau dalam regresi linier

Saya memposting ulang pertanyaan dari math.stackexchange.com , saya pikir jawaban saat ini dalam math.se tidak benar.

Pilih angka dari himpunan , adalah angka ke- dipilih, dan adalah pangkat di dalam angka. Seleksi tanpa penggantian. selalu lebih kecil dari . Pangkat adalah urutan nomor setelah nomor diurutkan dalam urutan naik. $n$ $\{1,2,...,U\}$ $y_i$ $i$ $x_i$ $y_i$ $n$ $n$ $U$ $n$

Kita bisa mendapatkan titik data , Dan garis yang paling cocok untuk titik data ini dapat ditemukan dengan regresi linier. (koefisien korelasi) adalah kebaikan garis fit, saya ingin menghitung atau (korelasi penentuan) . $n$ $(x_1, y_1), (x_2, y_2), ..., (x_n, y_n)$ $r_{xy}$ $\mathbb{E}(r_{xy})$ $\mathbb{E}(r_{xy}^2)$

Jika tidak dapat dihitung, estimasi atau batas bawah masih OK. $\mathbb{E}[r_{xy}]$

Diperbarui: Dengan menghitung koefisien korelasi sampel menggunakan data yang dihasilkan secara acak, kita dapat melihat bahwa cukup dekat dengan 1, jadi saya ingin membuktikannya dari tampilan teoretis, atau secara teoritis mengatakan data yang dihasilkan oleh metode di atas sangat linier. $r_{xy}$

Diperbarui: Apakah mungkin untuk mendapatkan distribusi koefisien korelasi sampel?

regression correlation

— Fan Zhang
sumber

Silakan kirim tautan ke pertanyaan math.SE. Biasanya tidak baik untuk mengirim silang kecuali waktu yang signifikan telah berlalu.

— kardinal

Bisakah nomor yang sama dipilih dua kali? Apakah n lebih kecil dari atau lebih besar dari U?

— Nick Sabbe

Inilah pertanyaan sebelumnya tentang math.SE: math.stackexchange.com/questions/32569/…

— kardinal

@Nick Sabbe Pilihannya adalah tanpa penggantian. n selalu lebih kecil dari U.

— Fan Zhang

@Fan Teknik yang berlaku akan mencakup bentuk kuadrat dalam variabel acak ( stats.stackexchange.com/questions/9220 ), "metode delta" untuk memperkirakan momen fungsi variabel acak; distribusi statistik pesanan untuk variabel seragam; hubungan antara kesenjangan antara variabel seragam dan distribusi eksponensial, dan mungkin bahkan metode pelana, perkiraan normal, Teorema Limit Sentral, dll.

— whuber

Re-mengatur masalah dalam hal variabel baru, sehingga . Kemudian kita memiliki , seperti yang ditunjukkan @whuber dalam komentar. Dengan demikian Anda secara efektif melakukan regresi pada , dan . Jadi jika kita dapat bekerja di luar distribusi marjinal untuk , dan menunjukkan bahwa pada dasarnya linear di masalah dilakukan, dan kita akan memiliki . $1\leq z_1<z_2<\dots<z_n\leq U$ $(x_i,y_i)=(x_i,z_{x_i})$ $z_j$ $j$ $r_{xy}=r_{xz}$ $z_j$ $j$ $r_{xy}\sim 1$

Pertama-tama kita perlu distribusi bersama untuk . Ini cukup sederhana, setelah Anda memiliki solusinya, tetapi saya menemukannya tidak langsung sebelum saya melakukan matematika. Hanya pelajaran singkat dalam mengerjakan matematika yang membuahkan hasil - jadi saya akan menyajikan matematika terlebih dahulu, lalu jawaban yang mudah. $z_1,\dots,z_n$

Sekarang, distribusi gabungan asli adalah . Mengubah variabel hanya menandai ulang hal-hal untuk probabilitas diskrit, dan probabilitasnya masih konstan. Namun, pelabelannya bukan 1-ke-1, jadi kita tidak bisa hanya menulis . Sebaliknya, kita punya $p(y_1,\dots,y_n)\propto 1$ $p(z_1,\dots,z_n)=\frac{(U-n)!}{U!}$

\begin{matrix} p (z_{1}, \dots, z_{n}) = \frac{1}{C} & 1 \leq z_{1} < z_{2} < \dots < z_{n} \leq U \end{matrix}

$\begin{array}\\p(z_1,\dots,z_n)=\frac{1}{C} & 1\leq z_1<z_2<\dots<z_n\leq U\end{array}$

Dan kita dapat menemukan dengan normalisasi $C$

C = \sum_{z_{n} = n}^{U} \sum_{z_{n - 1} = n - 1}^{z_{n} - 1} \dots \sum_{z_{2} = 2}^{z_{3} - 1} \sum_{z_{1} = 1}^{z_{2} - 1} (1) = \sum_{z_{n} = n}^{U} \sum_{z_{n - 1} = n - 1}^{z_{n} - 1} \dots \sum_{z_{2} = 2}^{z_{3} - 1} (z_{2} - 1)

$C=\sum_{z_n=n}^{U}\sum_{z_{n-1}=n-1}^{z_n-1}\dots\sum_{z_2=2}^{z_3-1}\sum_{z_1=1}^{z_2-1}(1)=\sum_{z_n=n}^{U}\sum_{z_{n-1}=n-1}^{z_n-1}\dots\sum_{z_2=2}^{z_3-1}(z_2-1)$

= \sum_{z_{n} = n}^{U} \sum_{z_{n - 1} = n - 1}^{z_{n} - 1} \dots \sum_{z_{3} = 2}^{z_{4} - 1} \frac{(z_{3} - 1) (z_{3} - 2)}{2} = \sum_{z_{n} = n}^{U} \dots \sum_{z_{4} = 4}^{z_{5} - 1} \frac{(z_{4} - 1) (z_{4} - 2) (z_{4} - 3)}{(2) (3)}

$=\sum_{z_n=n}^{U}\sum_{z_{n-1}=n-1}^{z_n-1}\dots\sum_{z_3=2}^{z_4-1}\frac{(z_3-1)(z_3-2)}{2}=\sum_{z_n=n}^{U}\dots\sum_{z_4=4}^{z_5-1}\frac{(z_4-1)(z_4-2)(z_4-3)}{(2)(3)}$

= \sum_{z_{n} = n}^{U} \sum_{z_{n - 1} = n - 1}^{z_{n} - 1} \dots \sum_{z_{j} = j}^{z_{j + 1} - 1} (\binom{z_{j} - 1}{j - 1}) = (\binom{U}{n})

$=\sum_{z_n=n}^{U}\sum_{z_{n-1}=n-1}^{z_n-1}\dots\sum_{z_{j}=j}^{z_{j+1}-1}{z_j-1 \choose j-1}={U \choose n}$

Yang menunjukkan rasio pelabelan ulang sama dengan - untuk masing-masing ada nilai. Masuk akal karena permutasi apapun dari lables pada mengarah ke set nilai peringkat yang . Sekarang, distribusi marjinal , kami ulangi di atas tetapi dengan jumlah lebih dari turun, dan rentang penjumlahan yang berbeda untuk sisanya, yaitu, perubahan minimum dari menjadi , dan kami mendapatkan: $\frac{(U-n)!}{U!}{U \choose n}=\frac{1}{n!}$ $(z_1,\dots,z_n)$ $n!$ $(y_1,\dots,y_n)$ $y_i$ $z_i$ $z_1$ $z_1$ $(2,\dots,n)$ $(z_1+1,\dots,z_1+n-1)$

p (z_{1}) = \sum_{z_{n} = z_{1} + n - 1}^{U} \sum_{z_{n - 1} = z_{1} + n - 2}^{z_{n} - 1} \dots \sum_{z_{2} = z_{1} + 1}^{z_{3} - 1} p (z_{1}, z_{2}, \dots, z_{n}) = \frac{(\binom{U - z_{1}}{n - 1})}{(\binom{U}{n})}

$p(z_1)=\sum_{z_n=z_1+n-1}^{U}\;\;\sum_{z_{n-1}=z_1+n-2}^{z_n-1}\dots\sum_{z_2=z_1+1}^{z_3-1}p(z_1,z_2,\dots,z_n)=\frac{{U-z_1 \choose n-1}}{{U \choose n}}$

Dengan dukungan . Formulir ini, dikombinasikan dengan sedikit intuisi menunjukkan bahwa distribusi marjinal dari apa pun dapat diabaikan dengan: $z_1\in\{1,2,\dots,U+1-n\}$ $z_j$

memilih nilai nilai bawah , yang dapat dilakukan dengan cara (jika ); $j-1$ $z_j$ ${z_j-1\choose j-1}$ $z_j\geq j$
memilih nilai , yang bisa dilakukan 1 cara; dan $z_j$
memilih nilai atas yang dapat dilakukan dengan cara (jika ) $n-j$ $z_j$ ${U-z_j\choose n-j}$ $z_j\leq U+j-n$

Metode penalaran ini akan dengan mudah menggeneralisasi distribusi bersama, seperti (yang dapat digunakan untuk menghitung nilai yang diharapkan dari kovarians sampel jika Anda mau). Karena itu kami memiliki: $p(z_j,z_k)$

\begin{array}{cc} p (z_{j}) = \frac{(\binom{z_{j} - 1}{j - 1}) (\binom{U - z_{j}}{n - j})}{(\binom{U}{n})} & j \leq z_{j} \leq U + j - n \\ p (z_{j}, z_{k}) = \frac{(\binom{z_{j} - 1}{j - 1}) (\binom{z_{k} - z_{j} - 1}{k - j - 1}) (\binom{U - z_{k}}{n - k})}{(\binom{U}{n})} & j \leq z_{j} \leq z_{k} + j - k \leq U + j - n \end{array}

$\begin{array}{c c}\\p(z_j)=\frac{{z_j-1\choose j-1}{U-z_j\choose n-j}}{{U \choose n}} & j\leq z_j\leq U+j-n \\p(z_j,z_k)=\frac{{z_j-1\choose j-1}{z_k-z_j-1 \choose k-j-1}{U-z_k\choose n-k}}{{U \choose n}} & j\leq z_j\leq z_k+j-k\leq U+j-n \end{array}$

Sekarang marginal adalah pdf dari distribusi hypergeometric negatif dengan parameter (dalam hal notasi kertas). Sekarang ini jelas tidak linier persis dalam , tetapi harapan marjinal untuk adalah $k=j,r=n,N=U$ $j$ $z_j$

E (z_{j}) = j \frac{U + 1}{n + 1}

$E(z_j)=j\frac{U+1}{n+1}$

Ini memang linear dalam , dan Anda akan mengharapkan koefisien beta dari dari regresi, dan mencegat nol. $j$ $\frac{U+1}{n+1}$

MEMPERBARUI

Saya menghentikan jawaban saya sedikit sebelumnya. Semoga sekarang telah menyelesaikan jawaban yang lebih lengkap

Membiarkan , dan , kuadrat yang diharapkan dari kovarians sampel antara dan diberikan oleh: $\overline{j}=\frac{n+1}{2}$ $\overline{z}=\frac{1}{n}\sum_{j=1}^{n}z_j$ $j$ $z_j$

E [s_{x z}^{2}] = E {[\frac{1}{n} \sum_{j = 1}^{n} (j - \bar{j}) (z_{j} - \bar{z})]}^{2}

$E[s_{xz}^2]=E\left[\frac{1}{n}\sum_{j=1}^{n}(j-\overline{j})(z_j-\overline{z})\right]^2$

= \frac{1}{n^{2}} [\sum_{j = 1}^{n} (j - \bar{j})^{2} E (z_{j}^{2}) + 2 \sum_{k = 2}^{n} \sum_{j = 1}^{k - 1} (j - \bar{j}) (k - \bar{j}) E (z_{j} z_{k})]

$=\frac{1}{n^2}\left[\sum_{j=1}^{n}(j-\overline{j})^2E(z_j^2)+2\sum_{k=2}^{n}\sum_{j=1}^{k-1}(j-\overline{j})(k-\overline{j})E(z_jz_k)\right]$

Jadi kita membutuhkan , di mana dan (menggunakan rumus dalam file pdf). Jadi jumlah pertama menjadi $E(z_j^2)=V(z_j)+E(z_j)^2=Aj^2+Bj$ $A=\frac{(U+1)(U+2)}{(n+1)(n+2)}$ $B=\frac{(U+1)(U-n)}{(n+1)(n+2)}$

\sum_{j = 1}^{n} (j - \bar{j})^{2} E (z_{j}^{2}) = \sum_{j = 1}^{n} (j^{2} - 2 j \bar{j} + {\bar{j}}^{2}) (A j^{2} + B j)

$\sum_{j=1}^{n}(j-\overline{j})^2E(z_j^2)=\sum_{j=1}^{n}(j^2-2j\overline{j}+\overline{j}^2)(Aj^2+Bj)$

= \frac{n (n - 1) (U + 1)}{120} (U (2 n + 1) + (3 n - 1))

$=\frac{n(n-1)(U+1)}{120}\bigg( U(2n+1)+(3n-1)\bigg)$

Kita juga membutuhkan . $E(z_jz_k)=E[z_j(z_k-z_j)]+E(z_j^2)$

E [z_{j} (z_{k} - z_{j})] = \sum_{z_{k} = k}^{U + k - n} \sum_{z_{j} = j}^{z_{k} + j - k} z_{j} (z_{k} - z_{j}) p (z_{j}, z_{k})

$E[z_j(z_k-z_j)]=\sum_{z_k=k}^{U+k-n}\sum_{z_j=j}^{z_k+j-k}z_j(z_k-z_j) p(z_j,z_k)$

= j (k - j) \sum_{z_{k} = k}^{U + k - n} \sum_{z_{j} = j}^{z_{k} + j - k} \frac{(\binom{z_{j}}{j}) (\binom{z_{k} - z_{j}}{k - j}) (\binom{U - z_{k}}{n - k})}{(\binom{U}{n})} = j (k - j) \sum_{z_{k} = k}^{U + k - n} \frac{(\binom{z_{k} + 1}{k + 1}) (\binom{U + 1 - (z_{k} + 1)}{n - k})}{(\binom{U}{n})}

$=j(k-j)\sum_{z_k=k}^{U+k-n}\sum_{z_j=j}^{z_k+j-k}\frac{{z_j\choose j}{z_k-z_j \choose k-j}{U-z_k\choose n-k}}{{U \choose n}}=j(k-j)\sum_{z_k=k}^{U+k-n}\frac{{z_k+1 \choose k+1}{U+1-(z_k+1)\choose n-k}}{{U \choose n}}$

= j (k - j) \frac{(\binom{U + 1}{n + 1})}{(\binom{U}{n})} = j (k - j) \frac{U + 1}{n + 1}

$=j(k-j)\frac{{U+1\choose n+1}}{{U \choose n}}=j(k-j)\frac{U+1}{n+1}$

⟹ E (z_{j} z_{k}) = j k \frac{U + 1}{n + 1} + j^{2} \frac{(U + 1) (U - n)}{(n + 1) (n + 2)} + j \frac{(U + 1) (U - n)}{(n + 1) (n + 2)}

$\implies E(z_jz_k)=jk\frac{U+1}{n+1}+j^2\frac{(U+1)(U-n)}{(n+1)(n+2)}+j\frac{(U+1)(U-n)}{(n+1)(n+2)}$

Dan jumlah kedua adalah:

2 \sum_{k = 2}^{n} \sum_{j = 1}^{k - 1} (j - \bar{j}) (k - \bar{j}) E (z_{j} z_{k})

$2\sum_{k=2}^{n}\sum_{j=1}^{k-1}(j-\overline{j})(k-\overline{j})E(z_jz_k)$

= \frac{n (U + 1) (n - 1)}{720 (n + 2)} (6 (U - n) (n^{3} - 2 n^{2} - 9 n - 2) + (n + 2) (5 n^{3} - 24 n^{2} - 35 n + 6))

$=\frac{n(U+1)(n-1)}{720(n+2)}\bigg(6(U-n)(n^3-2n^2-9n-2) + (n+2)(5 n^3- 24 n^2- 35 n +6)\bigg)$

Dan setelah beberapa manipulasi yang agak membosankan, Anda mendapatkan nilai yang diharapkan dari kovarians kuadrat dari:

E [s_{x z}^{2}] = \frac{(n - 1) (n - 2) U (U + 1)}{120} - \frac{(U + 1) (n - 1) (n^{3} + 2 n^{2} + 11 n + 22)}{720 (n + 2)}

$E[s_{xz}^2]=\frac{(n-1)(n-2)U(U+1)}{120}-\frac{(U+1)(n-1)(n^3+2n^2+11n+22)}{720(n+2)}$

Sekarang jika kita memiliki , maka istilah pertama mendominasi seperti , sedangkan istilah kedua adalah . Kami dapat menunjukkan bahwa istilah yang dominan didekati dengan baik oleh , dan kami memiliki alasan teoritis lain mengapa korelasi pearson sangat dekat dengan (di luar fakta bahwa ). $U>>n$ $O(U^2n^2)$ $O(Un^3)$ $E[s_{x}^2s_{z}^2]$ $1$ $E(z_j)\propto j$

Sekarang varians sampel yang diharapkan dari hanyalah varians sampel, yaitu . Varians sampel yang diharapkan untuk diberikan oleh: $j$ $s_x^2=\frac{1}{n}\sum_{j=1}^{n}(j-\overline{j})^2=\frac{(n+1)(n-1)}{12}$ $z_j$

E [s_{z}^{2}] = E [\frac{1}{n} \sum_{j = 1}^{n} (z_{j} - \bar{z})^{2}] = \frac{1}{n} \sum_{j = 1}^{n} E (z_{j}^{2}) - {[\frac{1}{n} \sum_{j = 1}^{n} E (z_{j})]}^{2}

$E[s_z^2]=E\left[\frac{1}{n}\sum_{j=1}^{n}(z_j-\overline{z})^2\right]=\frac{1}{n}\sum_{j=1}^{n}E(z_j^2)-\left[\frac{1}{n}\sum_{j=1}^{n}E(z_j)\right]^2$

= \frac{A (n + 1) (2 n + 1)}{6} + \frac{B (n + 1)}{2} - \frac{(U + 1)^{2}}{4}

$=\frac{A(n+1)(2n+1)}{6}+\frac{B(n+1)}{2}-\frac{(U+1)^2}{4}$

= \frac{(U + 1) (U - 1)}{12}

$=\frac{(U+1)(U-1)}{12}$

Menggabungkan semuanya bersama-sama, dan mencatat bahwa , kami memiliki: $E[s_x^2s_z^2]=s_x^2E[s_z^2]$

E [s_{x}^{2} s_{z}^{2}] = \frac{(n + 1) (n - 1) (U + 1) (U - 1)}{144} \approx \frac{(n - 1) (n - 2) U (U + 1)}{120} \approx E [s_{x z}^{2}]

$E[s_x^2s_z^2]=\frac{(n+1)(n-1)(U+1)(U-1)}{144}\approx \frac{(n-1)(n-2)U(U+1)}{120}\approx E[s_{xz}^2]$

Yang kira-kira sama dengan $E[r_{xz}^2]\approx 1$

— probabilityislogic
sumber

Saya mengerti jawaban Anda, dan pertanyaan saya adalah bagaimana mendapatkan ekspektasi koefisien korelasi dari kondisi Anda saat ini.

— Fan Zhang

Saya menyesal hanya melihat jawabannya hari ini. Satu hal yang saya pikir harus diklarifikasi mengapa ketika , maka .

E [s_{x}^{2} s_{z}^{2}] \approx E [s_{x z}^{2}]

$E[s_x^2s_z^2] \approx E[s_{xz}^2]$

E [r_{x z}^{2}] \approx 1

$E[r_{xz}^2] \approx 1$

— Fan Zhang

Saya pikir langkah terakhir salah. E [X / Y] tidak sama dengan E [X] / E [Y].

— Fan Zhang

@FanZhang - Langkah terakhir kira - kira benar. Ini karena kita dapat memperluas ke urutan pertama tentang . Dan kita mendapatkan . Karena untuk setiap variabel acak yang harapannya ada, kita mendapatkan .

g (X, Y) = \frac{X}{Y}

$g(X,Y)=\frac{X}{Y}$

(E [X], E [Y])

$(E[X],E[Y])$

\frac{X}{Y} \approx \frac{E [X]}{E [Y]} + (X - E [X]) \frac{1}{E [Y]} - (Y - E [Y]) \frac{E [X]}{E [Y]^{2}}

$\frac{X}{Y}\approx\frac{E[X]}{E[Y]}+(X-E[X])\frac{1}{E[Y]}-(Y-E[Y])\frac{E[X]}{E[Y]^2}$

E (X - E [X]) = 0

$E\left(X-E[X]\right)=0$

E (\frac{X}{Y}) \approx \frac{E [X]}{E [Y]}

$E\left(\frac{X}{Y}\right)\approx\frac{E[X]}{E[Y]}$

— probabilityislogic

Terima kasih. Dan apa jenis pendekatan yang disebut?

— Fan Zhang

Jika Anda hanya ingin menunjukkan harus mendekati 1, dan menghitung batas bawah untuk itu, itu mudah, karena itu berarti untuk diberikan dan Anda hanya perlu memaksimalkan varians dari residual. Ini dapat dilakukan dengan empat cara simetris. Dua ekstrem (korelasi terendah dan tertinggi) diilustrasikan untuk . $r^2_{xy}$ $U$ $n$ $U=20, n=9$

Plot korelasi ekstrim untuk U = 20, n = 9

Untuk nilai dan nilai sesuai , sebenarnya bisa mendekati 0. Misalnya, dengan dan nilai sangat besar , dalam kasus terburuk. $U$ $n$ $r^2_{xy}$ $n=100$ $U \gg n$ $r^2_{xy} \sim 0.03$

— whuber
sumber

Jadi, kami mencoba untuk menunjukkan mendekati 1 (atau kita bisa berharap menemukan garis yang hampir lurus) [Saya sedang mengerjakan masalah ini dengan Zhang Fan]. Walaupun buruk dalam beberapa kasus, seharusnya ada relatif sedikit dari kasus ini. Oleh karena itu, satu harapan untuk menyelesaikan masalah ini adalah untuk mengikat jumlah kasus di mana misalnya (atau beberapa batasan lainnya).

E (r_{x y}^{2})

$E(r_{xy}^2)$

r_{x y}^{2}

$r_{xy}^2$

r_{x y}^{2} \leq 0.99

$r_{xy}^2 \leq 0.99$

— Douglas S. Stones

Saya berharap bahwa 0,99 harus terikat untuk dipertimbangkan. Misalnya, jika kita menghitung beberapa contoh dalam R, kita dapat secara konsisten mendapatkan cor (x, y) yang sangat dekat dengan 1. Misalnya 0.9994561 adalah hasil khas yang dikembalikan oleh: m <- 10 ^ 5; n <-10 ^ 3; daftar <- sampel (1: m, ukuran = n, ganti = SALAH); list <- sort (daftar); cor (daftar, 1: n);

— Douglas S. Stones

@Douglas Itu menunjukkan apa yang mungkin menjadi penyederhanaan yang cukup besar: dengan mengambil target seperti 0,99, Anda dapat mengubah rasio bentuk kuadrat yang muncul dalam menjadi perbedaan (dengan menghapus penyebutnya) dan kemudian menyelidiki kemungkinan bahwa perbedaannya positif. Jadi sekarang Anda melihat distribusi bentuk kuadrat di bawah permutasi acak yang seragam: itu masalah yang dapat diakses.

r_{x y}^{2}

$r^2_{xy}$

— whuber

@Douglas, @Fan Kita juga dapat melakukan beberapa heuristik: asimptotik, akan terlihat seragam, menunjukkan sebagai . Pertimbangkan statistik Kolmogorov-Smirnov , misalnya: menggunakannya sebagai batas atas untuk residual menunjukkan proporsional dengan perkiraan (gross) terlalu tinggi dari . Karena itu setidaknya secepat .

y_{i}

$y_i$

r^{2} \to 1

$r^2 \to 1$

U \to \infty

$U \to \infty$

D

$D$

1 - r^{2}

$1-r^2$

r^{2} \to 1

$r^2 \to 1$

D \to 0

$D \to 0$

— whuber

@whuber Apakah Anda memiliki deskripsi lebih mendetail tentang statistik D Kolmogorov-Smirnov?

— Fan Zhang