Untuk bilangan konstanta yang diberikan (misalnya 4), apakah mungkin untuk menemukan distribusi probabilitas untuk , sehingga kita memiliki ?
Untuk bilangan konstanta yang diberikan (misalnya 4), apakah mungkin untuk menemukan distribusi probabilitas untuk , sehingga kita memiliki ?
Jawaban:
Dengan hati-hati mempertimbangkan kasus untuk : jika maka distribusinya merosot, tetapi dapat memiliki nilai rata-rata. Yaitu, dan \ Pr (X = c) = 0 untuk setiap c \ neq \ mu . Jadi kita dapat menemukan banyak distribusi yang mungkin untuk X , tetapi mereka diindeks oleh, dan sepenuhnya ditentukan oleh, \ mu \ in \ mathbb {R} .
Jika , tidak ada distribusi yang dapat ditemukan, karena .V a r ( X ) = E ( X - μ X ) 2 ≥ 0
Untuk , jawabannya akan tergantung pada apa informasi tambahan yang diketahui tentang . Sebagai contoh jika diketahui memiliki mean , maka untuk setiap dan kita dapat menemukan distribusi dengan momen-momen ini dengan mengambil . Ini bukan solusi unik untuk masalah pencocokan mean dan varians, tetapi ini adalah satu-satunya solusi yang terdistribusi normal (dan dari semua solusi yang mungkin, ini adalah yang memaksimalkan entropi, seperti yang ditunjukkan Daniel). Jika Anda juga ingin mencocokkan misalnya momen sentral ketiga , atau lebih tinggi, maka Anda perlu mempertimbangkan rentang distribusi probabilitas yang lebih luas.X X μ μ ∈ R r > 0 X ∼ N ( μ , r )
Misalkan kita memiliki beberapa informasi tentang distribusi daripada momennya. Sebagai contoh, jika kita tahu bahwa mengikuti distribusi Poisson maka solusi uniknya adalah . Jika kita tahu bahwa mengikuti distribusi eksponensial, maka sekali lagi ada solusi unik , di mana kami telah menemukan parameter dengan menyelesaikan .X X ~ P o i s s o n ( r ) X X ~ E x p o n e n t i a l ( 1Var(X)=r=1
Dalam kasus lain, kita dapat menemukan seluruh keluarga solusi. Jika kita tahu bahwa mengikuti distribusi persegi panjang (seragam berkelanjutan), maka kita dapat menemukan lebar unik untuk distribusi dengan menyelesaikan . Tetapi akan ada sekumpulan solusi, diparameterisasi oleh - distribusi dalam set ini adalah semua terjemahan dari satu sama lain. Demikian pula, jika normal maka setiap distribusi akan berfungsi (jadi kami memiliki seluruh rangkaian solusi yang diindeks oleh , yang lagi-lagi dapat berupa bilangan real, dan sekali lagi seluruh keluarga adalah terjemahan satu sama lain). Jikaw V a r ( X ) = r = w 2 X∼U(a,a+w)a∈RXX∼N(μ,r)μXX∼Gamma(r mengikuti distribusi gamma kemudian, menggunakan parameterisasi bentuk-bentuk, kita dapat memperoleh seluruh keluarga solusi, diparametisasi oleh . Anggota keluarga ini bukan terjemahan satu sama lain. Untuk membantu memvisualisasikan seperti apa "keluarga solusi", berikut adalah beberapa contoh distribusi normal yang diindeks oleh , dan kemudian distribusi gamma yang diindeks oleh , semua dengan varian sama dengan empat, sesuai dengan contoh di pertanyaanmu.θ>0μθr=4
Di sisi lain, untuk beberapa distribusi mungkin atau tidak mungkin untuk menemukan solusi, tergantung pada nilai . Misalnya jika harus menjadi variabel Bernoulli maka untuk ada dua solusi yang mungkin karena ada dua probabilitas yang menyelesaikan persamaan , dan pada kenyataannya dua probabilitas ini saling melengkapi yaitu . Untuk hanya ada solusi unik , dan untuk tidak ada distribusi Bernoulli yang memiliki varian yang cukup tinggi.X 0 ≤ r < 0,25 X ∼ B e r n o u l l i ( p ) p V a r ( X ) = r = p ( 1 - p ) p 1 + p 2 = 1 r = 0,25 p = 0,5 r > 0,25
Saya merasa saya juga harus menyebutkan case . Ada solusi untuk kasus ini juga, misalnya distribusi Student dengan dua derajat kebebasan.t
Kode R untuk plot
require(ggplot2)
x.df <- data.frame(x = rep(seq(from=-8, to=8, length=100), times=5),
mu = rep(c(-4, -2, 0, 2, 4), each=100))
x.df$pdf <- dnorm(mean=x.df$mu, x.df$x)
ggplot(x.df, aes(x=x, y=pdf, group=factor(mu), colour=factor(mu))) + theme_bw() +
geom_line(size=1) + scale_colour_brewer(name=expression(mu), palette="Set1") +
theme(legend.key = element_blank()) + ggtitle("Normal distributions with variance 4")
x.df <- data.frame(x = rep(seq(from=0, to=20, length=1000), times=5),
theta = rep(c(0.25, 0.5, 1, 2, 4), each=1000))
x.df$pdf <- dgamma(x.df$x, shape=4/(x.df$theta)^2, scale=x.df$theta)
ggplot(x.df, aes(x=x, y=pdf, group=factor(theta), colour=factor(theta))) + theme_bw() +
geom_line(size=1) + scale_colour_brewer(name=expression(theta), palette="Set1") +
theme(legend.key = element_blank()) + ggtitle("Gamma distributions with variance 4") +
coord_cartesian(ylim = c(0, 1))
Asumsikan maksud Anda "apakah mungkin untuk menemukan distribusi probabilitas untuk " maka jawabannya adalah ya, karena Anda belum menentukan kriteria apa pun yang harus dipenuhi olehSebenarnya ada jumlah tak terbatas dari distribusi yang mungkin memenuhi kondisi ini. Pertimbangkan saja distribusi Normal, . Anda dapat mengatur dan dapat mengambil nilai apa pun yang Anda suka - Anda kemudian akan memiliki seperti yang diperlukan.X N ( x ; μ , σ 2 ) σ 2 = r μ V a r [ X ] = r
Sebenarnya, distribusi Normal agak istimewa dalam hal ini karena distribusi probabilitas entropi maksimum untuk rerata dan varian yang diberikan.
Pertanyaan ini dapat ditafsirkan dengan cara yang membuatnya menarik dan tidak sepenuhnya sepele. Diberikan sesuatu yang terlihat seperti variabel acak, sejauh mana dimungkinkan untuk menetapkan probabilitas ke nilai-nilainya (atau menggeser probabilitas yang ada di sekitar) sedemikian rupa sehingga variansnya sama dengan beberapa angka yang ditentukan sebelumnya ? Jawabannya adalah bahwa semua nilai yang mungkin yang diijinkan, sampai batas ditentukan oleh berbagai .r r ≥ 0 X
Minat potensial dalam analisis tersebut terletak pada gagasan untuk mengubah ukuran probabilitas, sambil menjaga variabel acak tetap, untuk mencapai tujuan tertentu. Meskipun aplikasi ini sederhana, ini menampilkan beberapa ide yang mendasari teorema Girsanov , sebuah hasil mendasar dalam keuangan matematika.
Mari kita nyatakan kembali pertanyaan ini dengan cara yang keras, tidak ambigu. Seharusnya
adalah fungsi terukur yang didefinisikan pada ruang ukuran dengan sigma-aljabar . Untuk bilangan real yang diberikan , kapan mungkin menemukan ukuran probabilitas pada ruang ini yang ?S r > 0 P Var ( X ) = r
Saya percaya jawabannya adalah bahwa ini dimungkinkan ketika . (Kesetaraan dapat bertahan jika supremum dan infimum keduanya tercapai: yaitu, mereka sebenarnya adalah maksimum dan minimum ) Ketika salah satu dari atau , kondisi ini memaksakan tidak ada batasan pada , dan kemudian semua nilai varians non-negatif dimungkinkan.sup(X)=∞inf(X)=-∞r
Buktinya dengan konstruksi. Mari kita mulai dengan versi yang sederhana, untuk mengurus detail dan menjabarkan ide dasar, dan kemudian beralih ke konstruksi yang sebenarnya.
Misalkan ada di gambar : ini berarti ada yang . Tentukan fungsi set menjadi indikator : yaitu, jika dan ketika .X ω x ∈ Ω X ( ω x ) = x P : S → [ 0 , 1 ] ω x P ( A ) = 0 ω x ∉ A P ( A ) = 1 ω x ∈ A
Karena , jelas memenuhi dua aksioma probabilitas pertama . Perlu untuk menunjukkan itu memenuhi yang ketiga; yaitu, bahwa itu adalah sigma-aditif. Tapi ini hampir sama jelasnya: setiap kali adalah rangkaian acara yang saling eksklusif hingga terbatas atau tak terhingga, maka tak satu pun dari keduanya berisi hal ini untuk semua --atau salah satunya mengandung , dalam hal ini untuk beberapa tertentu dan sebaliknya untuk semuaP { E i , i = 1 , 2 , … } ω x P ( E i ) = 0 i ω x P ( E j ) = 1 j P ( E i ) = 0 i ≠ j. Dalam kedua kasus itu
karena kedua belah pihak keduanya atau keduanya .1
Karena memusatkan semua probabilitas pada , distribusi terkonsentrasi pada dan harus memiliki varian nol.ω x X x X
Biarkan menjadi dua nilai dalam rentang ; yaitu, dan . Dengan cara yang mirip dengan langkah sebelumnya, tentukan ukuran menjadi rata-rata tertimbang dari indikator dan . Gunakan bobot non-negatif dan untuk akan ditentukan. Seperti sebelumnya, kami menemukan bahwa - menjadi kombinasi cembung dari ukuran indikator yang dibahas dalam (1) - adalah ukuran probabilitas. Distribusi sehubungan dengan ukuran ini adalah Bernoulli X X ( ω 1 ) = x 1 X ( ω 2 ) = x 2 P ω 1 ω 2 1 - p p p P X ( p ) x 2 - x 1 - x 1 ( p ) p ( 1 - p ) X ( x 2 - x 1distribusi yang telah diskalakan oleh dan digeser oleh . Karena varian dari distribusi Bernoulli adalah , varian harus .
Konsekuensi langsung dari (2) adalah bahwa setiap yang terdapat dalam kisaran dan yangx 1 ≤ x 2 X 0 ≤ p < 1
dapat menjadi varian . Karena , ini menyiratkan0 ≤ p ( 1 - p ) ≤ 1 / 4
dengan holding persamaan jika dan hanya jika memiliki maksimum dan minimum.
Sebaliknya, jika melebihi batas ini dari , maka tidak ada solusi yang mungkin, karena kita sudah tahu bahwa varians dari setiap variabel acak terbatas tidak dapat melebihi seperempat dari kuadrat jangkauannya.( sup ( X ) - inf ( X ) ) 2 / 4
Ya, mungkin untuk menemukan distribusi seperti itu. Bahkan Anda dapat mengambil distribusi apa pun dengan varian terbatas , dan skala untuk mencocokkan kondisi Anda, karena
Misalnya, distribusi seragam pada interval memiliki varian: Oleh karena itu, distribusi seragam dalam interval akan memiliki varian .σ 2 = 1 [0,1
Sebenarnya, ini adalah cara umum untuk menambahkan parameter ke beberapa distribusi, seperti Student t. Hanya memiliki satu parameter, - derajat kebebasan. Ketika distribusi menyatu dengan standar normal. Ini berbentuk lonceng, dan terlihat sangat normal, tetapi memiliki ekor yang lebih gemuk. Itu sebabnya sering digunakan sebagai alternatif untuk distribusi normal ketika ekornya gemuk. Satu-satunya masalah adalah distribusi Gaussian memiliki dua parameter. Maka, muncul versi skala dari Student t, yang kadang-kadang disebut distribusi " t location scale" . Ini transformasi yang sangat sederhana: , di mana adalah lokasi dan skala. Sekarang, Anda dapat mengatur skala sehingga variabel baruν → ∞ ξ = t - μ μ,sξ akan memiliki varian yang diperlukan, dan akan memiliki bentuk distribusi t Student.