Re-mengatur masalah dalam hal variabel baru, sehingga . Kemudian kita memiliki , seperti yang ditunjukkan @whuber dalam komentar. Dengan demikian Anda secara efektif melakukan regresi pada , dan . Jadi jika kita dapat bekerja di luar distribusi marjinal untuk , dan menunjukkan bahwa pada dasarnya linear di masalah dilakukan, dan kita akan memiliki .1≤z1<z2<⋯<zn≤U(xi,yi)=(xi,zxi)zjjrxy=rxzzjjrxy∼1
Pertama-tama kita perlu distribusi bersama untuk . Ini cukup sederhana, setelah Anda memiliki solusinya, tetapi saya menemukannya tidak langsung sebelum saya melakukan matematika. Hanya pelajaran singkat dalam mengerjakan matematika yang membuahkan hasil - jadi saya akan menyajikan matematika terlebih dahulu, lalu jawaban yang mudah.z1,…,zn
Sekarang, distribusi gabungan asli adalah . Mengubah variabel hanya menandai ulang hal-hal untuk probabilitas diskrit, dan probabilitasnya masih konstan. Namun, pelabelannya bukan 1-ke-1, jadi kita tidak bisa hanya menulis . Sebaliknya, kita punyap(y1,…,yn)∝1p(z1,…,zn)=(U−n)!U!
p(z1,…,zn)=1C1≤z1<z2<⋯<zn≤U
Dan kita dapat menemukan dengan normalisasi
C
C=∑zn=nU∑zn−1=n−1zn−1…∑z2=2z3−1∑z1=1z2−1(1)=∑zn=nU∑zn−1=n−1zn−1…∑z2=2z3−1(z2−1)
=∑zn=nU∑zn−1=n−1zn−1…∑z3=2z4−1(z3−1)(z3−2)2=∑zn=nU…∑z4=4z5−1(z4−1)(z4−2)(z4−3)(2)(3)
=∑zn=nU∑zn−1=n−1zn−1…∑zj=jzj+1−1(zj−1j−1)=(Un)
Yang menunjukkan rasio pelabelan ulang sama dengan - untuk masing-masing ada nilai. Masuk akal karena permutasi apapun dari lables pada mengarah ke set nilai peringkat yang . Sekarang, distribusi marjinal , kami ulangi di atas tetapi dengan jumlah lebih dari turun, dan rentang penjumlahan yang berbeda untuk sisanya, yaitu, perubahan minimum dari menjadi , dan kami mendapatkan:(U−n)!U!(Un)=1n!(z1,…,zn)n! (y1,…,yn)yiziz1z1(2,…,n)(z1+1,…,z1+n−1)
p(z1)=∑zn=z1+n−1U∑zn−1=z1+n−2zn−1…∑z2=z1+1z3−1p(z1,z2,…,zn)=(U−z1n−1)(Un)
Dengan dukungan . Formulir ini, dikombinasikan dengan sedikit intuisi menunjukkan bahwa distribusi marjinal dari apa pun dapat diabaikan dengan:z1∈{1,2,…,U+1−n}zj
- memilih nilai nilai bawah , yang dapat dilakukan dengan cara (jika );j−1zj(zj−1j−1)zj≥j
- memilih nilai , yang bisa dilakukan 1 cara; danzj
- memilih nilai atas yang dapat dilakukan dengan cara (jika )n−jzj(U−zjn−j)zj≤U+j−n
Metode penalaran ini akan dengan mudah menggeneralisasi distribusi bersama, seperti (yang dapat digunakan untuk menghitung nilai yang diharapkan dari kovarians sampel jika Anda mau). Karena itu kami memiliki:p(zj,zk)
p(zj)=(zj−1j−1)(U−zjn−j)(Un)p(zj,zk)=(zj−1j−1)(zk−zj−1k−j−1)(U−zkn−k)(Un)j≤zj≤U+j−nj≤zj≤zk+j−k≤U+j−n
Sekarang marginal adalah pdf dari distribusi hypergeometric negatif dengan parameter (dalam hal notasi kertas). Sekarang ini jelas tidak linier persis dalam , tetapi harapan marjinal untuk adalahk=j,r=n,N=Ujzj
E(zj)=jU+1n+1
Ini memang linear dalam , dan Anda akan mengharapkan koefisien beta dari dari regresi, dan mencegat nol.jU+1n+1
MEMPERBARUI
Saya menghentikan jawaban saya sedikit sebelumnya. Semoga sekarang telah menyelesaikan jawaban yang lebih lengkap
Membiarkan , dan , kuadrat yang diharapkan dari kovarians sampel antara dan diberikan oleh:j¯=n+12z¯¯¯=1n∑nj=1zjjzj
E[s2xz]=E[1n∑j=1n(j−j¯)(zj−z¯¯¯)]2
=1n2[∑j=1n(j−j¯)2E(z2j)+2∑k=2n∑j=1k−1(j−j¯)(k−j¯)E(zjzk)]
Jadi kita membutuhkan , di mana dan (menggunakan rumus dalam file pdf). Jadi jumlah pertama menjadiE(z2j)=V(zj)+E(zj)2=Aj2+BjA=(U+1)(U+2)(n+1)(n+2)B=(U+1)(U−n)(n+1)(n+2)
∑j=1n(j−j¯)2E(z2j)=∑j=1n(j2−2jj¯+j¯2)(Aj2+Bj)
=n(n−1)(U+1)120(U(2n+1)+(3n−1))
Kita juga membutuhkan . E(zjzk)=E[zj(zk−zj)]+E(z2j)
E[zj(zk−zj)]=∑zk=kU+k−n∑zj=jzk+j−kzj(zk−zj)p(zj,zk)
=j(k−j)∑zk=kU+k−n∑zj=jzk+j−k(zjj)(zk−zjk−j)(U−zkn−k)(Un)=j(k−j)∑zk=kU+k−n(zk+1k+1)(U+1−(zk+1)n−k)(Un)
=j(k−j)(U+1n+1)(Un)=j(k−j)U+1n+1
⟹E(zjzk)=jkU+1n+1+j2(U+1)(U−n)(n+1)(n+2)+j(U+1)(U−n)(n+1)(n+2)
Dan jumlah kedua adalah:
2∑k=2n∑j=1k−1(j−j¯)(k−j¯)E(zjzk)
=n(U+1)(n−1)720(n+2)(6(U−n)(n3−2n2−9n−2)+(n+2)(5n3−24n2−35n+6))
Dan setelah beberapa manipulasi yang agak membosankan, Anda mendapatkan nilai yang diharapkan dari kovarians kuadrat dari:
E[s2xz]=(n−1)(n−2)U(U+1)120−(U+1)(n−1)(n3+2n2+11n+22)720(n+2)
Sekarang jika kita memiliki , maka istilah pertama mendominasi seperti , sedangkan istilah kedua adalah . Kami dapat menunjukkan bahwa istilah yang dominan didekati dengan baik oleh , dan kami memiliki alasan teoritis lain mengapa korelasi pearson sangat dekat dengan (di luar fakta bahwa ).U>>nO(U2n2)O(Un3)E[s2xs2z]1E(zj)∝j
Sekarang varians sampel yang diharapkan dari hanyalah varians sampel, yaitu . Varians sampel yang diharapkan untuk diberikan oleh:js2x=1n∑nj=1(j−j¯)2=(n+1)(n−1)12zj
E[s2z]=E[1n∑j=1n(zj−z¯¯¯)2]=1n∑j=1nE(z2j)−[1n∑j=1nE(zj)]2
=A(n+1)(2n+1)6+B(n+1)2−(U+1)24
=(U+1)(U−1)12
Menggabungkan semuanya bersama-sama, dan mencatat bahwa , kami memiliki:E[s2xs2z]=s2xE[s2z]
E[s2xs2z]=(n+1)(n−1)(U+1)(U−1)144≈(n−1)(n−2)U(U+1)120≈E[s2xz]
Yang kira-kira sama denganE[r2xz]≈1