"Teori sampel" orang akan memberi tahu Anda bahwa tidak ada perkiraan seperti itu. Tapi Anda bisa mendapatkannya, Anda hanya perlu masuk akal tentang informasi sebelumnya, dan melakukan pekerjaan matematika yang lebih sulit.
Jika Anda menentukan metode estimasi Bayesian, dan posterior sama dengan sebelumnya, maka Anda dapat mengatakan data tidak mengatakan apa pun tentang parameter. Karena hal-hal mungkin menjadi "tunggal" pada kita, maka kita tidak dapat menggunakan spasi parameter tak terbatas. Saya berasumsi bahwa karena Anda menggunakan korelasi Pearson, Anda memiliki kemungkinan normal bivariat:
p ( D | μx, μy, σx, σy, ρ ) = ( σxσy2 π( 1 - ρ2)--------√)- Ne x p ( - ¢sayaQsaya2 ( 1 - ρ2))
mana
Qsaya= ( xsaya- μx)2σ2x+ ( ysaya- μy)2σ2y- 2 ρ ( xsaya- μx) ( ysaya- μy)σxσy
Sekarang untuk menunjukkan bahwa satu set data mungkin memiliki nilai yang sama, tulis , dan kemudian kita dapatkan:ysaya= y
s2x=1
∑sayaQsaya= N[ ( y- μy)2σ2y+ s2x+ ( x¯¯¯- μx)2σ2x- 2 ρ ( x¯¯¯- μx) ( y- μy)σxσy]
mana
s2x= 1N∑saya( xsaya- x¯¯¯)2
Dan kemungkinan Anda tergantung pada empat nomor, . Jadi Anda menginginkan perkiraan , jadi Anda perlu mengalikannya dengan sebelumnya, dan mengintegrasikan parameter gangguan . Sekarang untuk mempersiapkan integrasi, kita "menyelesaikan kotak"
s2x, y, x¯¯¯, Nρμx, μy, σx, σy
∑sayaQsaya1 - ρ2= N⎡⎣⎢⎢( μy- [ y- ( x¯¯¯- μx) ρ σyσx] )2σ2y( 1 - ρ2)+ s2xσ2x( 1 - ρ2)+ ( x¯¯¯- μx)2σ2x⎤⎦⎥⎥
Sekarang kita harus berbuat salah di sisi kehati-hatian dan memastikan probabilitas dinormalisasi dengan benar. Dengan begitu kita tidak bisa mendapat masalah. Salah satu opsi tersebut adalah dengan menggunakan prior informatif yang lemah, yang hanya menempatkan batasan pada kisaran masing-masing. Jadi kita memiliki untuk sarana dengan flat sebelum dan untuk standar deviasi dengan jeffreys sebelumnya. Batasan ini mudah diatur dengan sedikit "akal sehat" untuk memikirkan masalahnya. Saya akan mengambil yang tidak ditentukan sebelumnya untuk , dan jadi kami mendapatkan (seragam harus bekerja ok, jika tidak memotong singularitas ):Lμ< μx, μy< UμLσ< σx, σy< Uσρ± 1
p ( ρ , μx, μy, σx, σy) = p ( ρ )A σxσy
Di mana . Ini memberikan posterior dari:A = 2 ( Uμ- Lμ)2[ L o g( Uσ) - l o g( Lσ) ]2
p ( ρ | D ) = ∫p ( ρ , μx, μy, σx, σy) p ( D | μx, μy, σx, σy, ρ ) dμydμxdσxdσy
= p ( ρ )A [ 2 π( 1 - ρ2) ]N2∫UσLσ∫UσLσ( σxσy)- N- 1e x p ( - Ns2x2 σ2x( 1 - ρ2)) ×
∫UμLμexp(−N(x¯¯¯−μx)22σ2x)∫UμLμexp⎛⎝⎜⎜−N(μy−[y−(x¯¯¯−μx)ρσyσx])22σ2y(1−ρ2)⎞⎠⎟⎟dμydμxdσxdσy
Sekarang integrasi pertama di atas dapat dilakukan dengan membuat perubahan variabel dan integral pertama lebih dari menjadi:μyz=N−−√μy−[y−(x¯¯¯−μx)ρσyσx]σy1−ρ2√⟹dz=N√σy1−ρ2√dμyμy
σy2π(1−ρ2)−−−−−−−−√N−−√⎡⎣⎢Φ⎛⎝⎜Uμ−[y−(x¯¯¯−μx)ρσyσx]σyN√1−ρ2−−−−−√⎞⎠⎟−Φ⎛⎝⎜Lμ−[y−(x¯¯¯−μx)ρσyσx]σyN√1−ρ2−−−−−√⎞⎠⎟⎤⎦⎥
Dan Anda dapat melihat dari sini, tidak ada solusi analitik yang mungkin. Namun, perlu juga dicatat bahwa nilai belum keluar dari persamaan. Ini berarti bahwa data dan informasi sebelumnya masih memiliki sesuatu untuk dikatakan tentang korelasi yang sebenarnya. Jika data tidak mengatakan apa pun tentang korelasinya, maka kita hanya akan dibiarkan dengan sebagai satu-satunya fungsi dalam persamaan ini.ρp(ρ)ρ
Ini juga menunjukkan bagaimana itu melewati batas batas tak terbatas untuk "membuang" beberapa informasi tentang , yang terkandung dalam fungsi CDF normal yang tampak rumit . Sekarang jika Anda memiliki banyak data, maka melewati batas itu baik-baik saja, Anda tidak kehilangan banyak, tetapi jika Anda memiliki informasi yang sangat langka, seperti dalam kasus Anda - penting untuk menyimpan setiap memo yang Anda miliki. Ini berarti matematika jelek, tetapi contoh ini tidak terlalu sulit untuk dilakukan secara numerik. Jadi kita dapat mengevaluasi kemungkinan terintegrasi untuk pada nilai-nilai katakanlah cukup mudah. Cukup ganti integral dengan penjumlahan dalam interval yang cukup kecil - sehingga Anda memiliki penjumlahan tiga kali lipatμyρΦ(.)ρ−0.99,−0.98,…,0.98,0.99