Distribusi apa yang mengikuti CDF normal terbalik dari variabel beta acak?

14

Misalkan Anda mendefinisikan:

X \sim Beta (α, β)

$X\sim\mbox{Beta}(\alpha,\beta)$

Y \sim Φ^{- 1} (X)

$Y\sim \Phi^{-1}(X)$

dimana $\Phi^{-1}$ adalah kebalikan dari CDF dari distribusi normal standar .

Pertanyaan saya adalah: Apakah ada distribusi sederhana yang $Y$ ikuti, atau yang dapat mendekati $Y$ ? Saya bertanya karena saya memiliki kecurigaan yang kuat berdasarkan hasil simulasi (ditunjukkan di bawah) bahwa $Y$ menyatu dengan distribusi normal ketika $\alpha$ dan $\beta$ tinggi, tetapi saya tidak tahu mengapa itu akan secara matematis. (Tentu saja ketika $\alpha=1;\beta=1$ , $X$ akan seragam dan $Y$ akan menjadi standar normal, tetapi mengapa itu berlaku untuk nilai yang lebih tinggi?).

Jika ini konvergen menjadi normal, seperti apa parameter normal itu, dalam hal $\alpha$ dan $\beta$ ? (Saya berharap nilai rata-ratanya adalah $\Phi^{-1}(\frac{\alpha}{\alpha+\beta})$ karena itu adalah transformasi dari mode, tapi saya tidak tahu standar deviasi).

(Dengan kata lain, ini bisa menanyakan "apakah $\Phi(\mbox{Norm}(\mu, \sigma))$ konvergen ke distribusi beta, untuk beberapa arah $\mu$ dan $\sigma$ "? Saya tidak yakin apakah itu lebih mudah untuk dijawab).

Hasil simulasi

Di sini saya menunjukkan mengapa saya curiga bahwa hasilnya normal (karena saya tidak dapat mendukungnya dengan matematika). Simulasi $Y$ dapat dilakukan dalam R dengan qnormdan rnorm. Misalnya, memilih parameter tinggi $\alpha=3000$ dan $\beta=7000$ :

hist(qnorm(rbeta(5000, 3000, 7000)))

Ini memang terlihat normal, dan qqnormdan tes Shapiro-Wilk (di mana normalitas adalah hipotesis nol) menyarankan demikian juga:

qqnorm(qnorm(rbeta(5000, 3000, 7000)))

shapiro.test(qnorm(rbeta(5000, 3000, 7000)))
#> 
#>  Shapiro-Wilk normality test
#> 
#> data:  qnorm(rbeta(5000, 3000, 7000))
#> W = 0.99954, p-value = 0.2838

Untuk menjelajahi normalitas sedikit lebih dalam, saya melakukan 2.000 simulasi, setiap kali mensimulasikan 5.000 nilai dari $Y$ , kemudian melakukan tes untuk membandingkannya dengan normal. (Saya memilih nilai 5K karena itulah yang shapiro.testbisa ditangani secara maksimal , dan memaksimalkan daya untuk mendeteksi penyimpangan dari norma).

Jika distribusi benar-benar normal, kami memperkirakan nilai-p akan seragam (karena nol benar). Mereka memang mendekati seragam, menunjukkan bahwa distribusinya sangat dekat dengan normal:

hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 3000, 7000)))$p.value))

Beberapa eksperimen menunjukkan bahwa semakin tinggi dan , semakin dekat distribusi menjadi normal (misalnya cukup jauh dari normal, tetapi cobalah dan tampaknya ada di antara keduanya). $\alpha$ $\beta$ rbeta(5000, 3, 7)hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 30, 70)))$p.value))

r normal-distribution mathematical-statistics beta-distribution

— David Robinson
sumber

2

Tidak ada yang menarik terjadi di sini. Ketika

dan

bertambah besar, mari kita asumsikan mereka tetap dalam proporsi yang sama, atau setidaknya

tetap menjauh dari

dan

. Kemudian distribusi Beta

menjadi Normal dan terkonsentrasi dalam kisaran sempit yang sewenang-wenang.

sendiri dan tidak menambahkan informasi tentang distribusi Beta.

α

$\alpha$

β

$\beta$

α / (α + β)

$\alpha/(\alpha+\beta)$

0

$0$

1

$1$

(α, β)

$(\alpha,\beta)$

Φ^{- 1}

$\Phi^{-1}$ , karena dapat dibedakan, pada dasarnya menjadi linier, di mana Anda hanya melihat transformasi linear dari variabel yang hampir normal. Hasil ini tidak lebih dari itu berkaitan dengan

Φ^{- 1}

$\Phi^{-1}$

— whuber

1

@whuber Itu masuk akal untuk

dan

(saya punya beberapa simulasi yang membuat saya berpikir ini lebih dekat ke normal daripada kira-kira normal yang kira-kira sama dengan beta, tetapi pada rerunning saya pikir saya memiliki kesalahan pada saat itu). Setiap pemikiran tentang

;

? Dist sangat jauh dari normal, tetapi qnormnya cukup dekat.

α

$\alpha$

β

$\beta$

α = 2

$\alpha=2$

β = 2

$\beta=2$

— David Robinson

1

@whuber Misalnya hist(replicate(1000, shapiro.test(rbeta(5000, 2, 2))$p.value)), coba hist(replicate(1000, shapiro.test(qnorm(rbeta(5000, 2, 2)))$p.value)). Dengan kata lain, ketika

itu normal karena beta seragam, ketika

dan

tinggi itu karena beta kira-kira normal- tetapi mengapa ia bekerja ketika mereka sama dan di antara, di mana itu tidak normal atau seragam?

α = β = 1

$\alpha=\beta=1$

α

$\alpha$

β

$\beta$

— David Robinson

5

Itu pasti lebih menarik! Anda benar bahwa Beta tidak terlalu dekat dengan Normal tetapi bahwa transformasi mendekati Normal, bahkan untuk parameter kecil Beta. Penyimpangan dari Normalitas menjadi jelas di ekor, sekitar

atau lebih besar, tetapi sangat kecil di seluruh tubuh distribusi. Pada akhirnya ini dapat dilacak pada perilaku kekuatan hukum dari ekor Beta.

Z = \pm 3

$Z=\pm 3$

— whuber

7

Ringkasan

Anda telah menemukan kembali bagian dari konstruksi yang dijelaskan di Teorema Batas Tengah untuk Sampel Median , yang menggambarkan analisis median sampel. (Analisis ini jelas berlaku, mutatis mutandis , untuk setiap kuantil, bukan hanya median). Oleh karena itu tidak mengherankan bahwa untuk parameter Beta besar (sesuai dengan sampel besar) distribusi normal muncul di bawah transformasi yang dijelaskan dalam pertanyaan. Yang menarik adalah seberapa dekat dengan Normal distribusi bahkan untuk parameter Beta kecil . Itu pantas penjelasan.

Saya akan membuat sketsa analisis di bawah ini. Untuk menjaga agar posting ini tidak masuk akal, ini melibatkan banyak gerakan tangan yang sugestif: Saya hanya bertujuan untuk menunjukkan ide-ide kunci. Oleh karena itu saya rangkum hasilnya di sini:

Ketika dekat dengan , semuanya simetris. Ini menyebabkan distribusi yang ditransformasikan sudah terlihat Normal. $\alpha$ $\beta$
Fungsi dari bentuk terlihat cukup normal di tempat pertama, bahkan untuk nilai dan (asalkan melebihi dan rasionya tidak terlalu dekat dengan atau ). $\Phi^{\alpha-1}(x)\left(1-\Phi(x)\right)^{\beta-1}$ $\alpha$ $\beta$ $1$ $0$ $1$
Normalitas semu dari distribusi yang ditransformasikan adalah karena fakta bahwa kerapatannya terdiri dari kerapatan Normal yang dikalikan dengan fungsi dalam (2).
Sebagai dan meningkat, keberangkatan dari Normalitas dapat diukur dalam istilah sisanya dalam seri Taylor untuk kepadatan log. Istilah order menurun sebanding dengan kekuasaan dan . Ini menyiratkan bahwa pada akhirnya, untuk dan cukup besar , semua istilah daya atau lebih besar telah menjadi relatif kecil, hanya menyisakan kuadrat: yang merupakan kepadatan log dari distribusi Normal. $\alpha$ $\beta$ $n$ $(n-2)/2$ $\alpha$ $\beta$ $\alpha$ $\beta$ $n=3$

Secara kolektif, perilaku ini dengan baik menjelaskan mengapa bahkan untuk dan kecil, kuantil non-ekstrem dari sampel Normal iid terlihat mendekati Normal. $\alpha$ $\beta$

Analisis

Karena dapat berguna untuk menggeneralisasi, misalkan adalah fungsi distribusi apa pun , walaupun kami memiliki pemikiran $F$ $F=\Phi$ .

Fungsi kerapatan dari variabel Beta , menurut definisi, sebanding dengan $g(y)$ $(\alpha,\beta)$

y^{α - 1} (1 - y)^{β - 1} d y .

$y^{\alpha-1}(1-y)^{\beta-1}dy.$

Membiarkan menjadi transformasi integral tak terpisahkan dari dan menulis untuk turunan dari , adalah langsung bahwa memiliki kerapatan sebanding dengan $y=F(x)$ $x$ $f$ $F$ $x$

G (x; α, β) = F (x)^{α - 1} (1 - F (x))^{β - 1} f (x) d x .

$G(x;\alpha,\beta)=F(x)^{\alpha-1}(1-F(x))^{\beta-1}f(x)dx.$

Karena ini adalah transformasi monoton dari distribusi yang sangat unimodal (Beta), kecuali agak aneh, distribusi yang ditransformasikan juga akan unimodal. Untuk mempelajari seberapa dekat dengan Normal, mari kita periksa logaritma densitasnya, $F$

\begin{matrix} (1) & \log G (x; α, β) = (α - 1) \log F (x) + (β - 1) \log (1 - F (x)) + \log f (x) + C \end{matrix}

$\log G(x;\alpha,\beta) = (\alpha-1)\log F(x) + (\beta-1)\log(1-F(x)) + \log f(x) + C\tag{1}$

dimana $C$ adalah konstanta normalisasi yang tidak relevan.

Perluas komponen dalam seri Taylor untuk memesan tiga di sekitar nilai (yang akan dekat dengan mode). Sebagai contoh, kita dapat menulis ekspansi sebagai $\log G(x;\alpha,\beta)$ $x_0$ $\log F$

\log F (x) = c_{0}^{F} + c_{1}^{F} (x - x_{0}) + c_{2}^{F} (x - x_{0})^{2} + c_{3}^{F} h^{3}

$\log F(x) = c^{F}_0 + c^{F}_1 (x-x_0) + c^{F}_2(x-x_0)^2 + c^{F}_3h^3$

untuk beberapa dengan . Gunakan notasi serupa untuk dan . $h$ $|h| \le |x-x_0|$ $\log(1-F)$ $\log f$

Istilah linear

Istilah linear dalam dengan demikian menjadi $(1)$

g_{1} (α, β) = (α - 1) c_{1}^{F} + (β - 1) c_{1}^{1 - F} + c_{1}^{f} .

$g_1(\alpha,\beta) = (\alpha-1)c^{F}_1 + (\beta-1)c^{1-F}_1 + c^{f}_1.$

Ketika adalah mode $x_0$ , ungkapan ini adalah nol. Perhatikan bahwa karena koefisien adalah fungsi kontinu dari , karena dan bervariasi, mode akan bervariasi terus menerus juga. Selain itu, setelah dan yang cukup besar, yang jangka menjadi relatif tidak penting. Jika kita bertujuan untuk mempelajari batas sebagai dan yang tetap dalam proporsi konstan $G(\,;\alpha,\beta)$ $x_0$ $\alpha$ $\beta$ $x_0$ $\alpha$ $\beta$ $c^{f}_1$ $\alpha\to\infty$ $\beta\to\infty$ $\alpha:\beta$ $\gamma$ , karena itu kami dapat sekali dan untuk semua memilih titik dasar yang mana $x_0$

γ c_{1}^{F} + c_{1}^{1 - F} = 0.

$\gamma c^{F}_1 + c^{1-F}_1 = 0.$

Kasus yang bagus adalah di mana , di mana seluruh, dan simetris tentang . Dalam hal itu jelas $\gamma=1$ $\alpha=\beta$ $F$ $0$ $x_0=F(0)=1/2$ .

Kami telah mencapai metode di mana (a) dalam batas, istilah orde pertama dalam deret Taylor menghilang dan (b) dalam kasus khusus yang baru saja dijelaskan, istilah orde pertama selalu nol.

Istilah kuadratik

These are the sum

g_{2} (α, β) = (α - 1) c_{2}^{F} + (β - 1) c_{2}^{1 - F} + c_{2}^{f} .

$g_2(\alpha,\beta) = (\alpha-1)c^{F}_2 + (\beta-1)c^{1-F}_2 + c^{f}_2.$

Comparing to a Normal distribution, whose quadratic term is $-(1/2)(x-x_0)^2/\sigma^2$ , we may estimate that $-1/(2g_2(\alpha,\beta))$ is approximately the variance of $G$ . Let us standardize $G$ by rescaling $x$ by its square root. we don't really need the details; it suffices to understand that this rescaling is going to multiply the coefficient of $(x-x_0)^n$ $(-1/(2g_2(\alpha,\beta)))^{n/2}.$

Remainder term

Here's the punchline: the term of order $n$ in the Taylor expansion is, according to our notation,

g_{n} (α, β) = (α - 1) c_{n}^{F} + (β - 1) c_{n}^{1 - F} + c_{n}^{f} .

$g_n(\alpha,\beta) = (\alpha-1)c^{F}_n + (\beta-1)c^{1-F}_n + c^{f}_n.$

After standardization, it becomes

g_{n}^{'} (α, β) = \frac{g_{n} (α, β)}{(- 2 g_{2} (α, β))^{n / 2})} .

$g_n^\prime(\alpha,\beta) = \frac{g_n(\alpha,\beta)}{(-2g_2(\alpha,\beta))^{n/2})}.$

Both of the $g_i$ are affine combination of $\alpha$ and $\beta$ . By raising the denominator to the $n/2$ power, the net behavior is of order $-(n-2)/2$ in each of $\alpha$ and $\beta$ . As these parameters grow large, then, each term in the Taylor expansion after the second decreases to zero asymptotically. In particular, the third-order remainder term becomes arbitrarily small.

The case when $F$ is normal

The vanishing of the remainder term is particularly fast when $F$ is standard Normal, because in this case $f(x)$ is purely quadratic: it contributes nothing to the remainder terms. Consequently, the deviation of $G$ from normality depends solely on the deviation between $F^{\alpha-1}(1-F)^{\beta-1}$ and normality.

This deviation is fairly small even for small $\alpha$ and $\beta$ . To illustrate, consider the case $\alpha=\beta$ . $G$ is symmetric, whence the order-3 term vanishes altogether. The remainder is of order $4$ in $x-x_0=x$ .

Here is a plot showing how the standardized fourth order term changes with small values of $\alpha \gt 1$ :

The value starts out at $0$ for $\alpha=\beta=1$ , because then the distribution obviously is Normal ( $\Phi^{-1}$ applied to a uniform distribution, which is what Beta $(1,1)$ is, gives a standard Normal distribution). Although it increases rapidly, it tops off at less than $0.008$ --which is practically indistinguishable from zero. After that the asymptotic reciprocal decay kicks in, making the distribution ever closer to Normal as $\alpha$ increases beyond $2$ .

— whuber
sumber

2

Convergence

Suppose that $\alpha = \beta$ and let $\alpha \to \infty$ and take any small $\varepsilon > 0$ . Then $var(X) \to 0$ . By Chebyshev's inequality we have $\mathbb{P} [\vert X - 0.5 \vert > \varepsilon] \to 0$ and $\mathbb{P} [\vert Y \vert > \varepsilon] \to 0$ . This means that $Y$ converges in probability (~~not in distribution~~ actually it converges in distribution - to singleton).

Exact distribution

Denote by $f_X$ the density of beta distribution. Then your variable $Y$ has density

f_{Y} (y) = f_{X} (Φ (y)) ϕ (y) .

$f_Y (y) = f_X ( \Phi (y) ) \phi (y).$ Since

Φ

$\Phi$ does not have a closed form I believe that this is the furthest you can get (analytically). You can try to put it into FullSimplify function in Wolfram Mathematica to see if it finds some better form.

Here is the density in R so you can plot it instead of histogram.

f_y <- function(x, alpha, beta) {
  dbeta(pnorm(x), alpha, beta) * dnorm(x)
}

Modification

However, you are maybe interested in distribution of

Z = Φ^{- 1} (\sqrt{α} X)

$Z = \Phi^{-1} (\sqrt{\alpha} X)$ . (still assuming

α = β

$\alpha = \beta$ ) This may be useful because

v a r (\sqrt{α} X) \to 1 / 8

$var(\sqrt{\alpha} X) \to 1/8$ (useful because it is not zero).

— Jan Kislinger
sumber

1

Here I present a heuristic explanation (which can be made rigorous at least asymptotically). For simplicity, take $k \in \mathbb N$ , $k \geq 2$ . Let $X \sim \text{Beta}(k,k)$ . I want to argue that $Y = \Phi^{-1}(X)$ is approximately normal.

Now let $n=2k-1$ . We start by drawing $n$ i.i.d. uniformly distributed random variables $U_1, \dotsc, U_n$ . Next, form the order statistics $U_{(1)} \leq \dotsc \leq U_{(n)}$ .

It is well known that $U_{(k)} \sim \text{Beta}(k, n+1-k)$ , thus:

U_{(k)} \sim Beta (k, k)

$U_{(k)} \sim \text{Beta}(k, k)$

In other words: The sample median of $n$ i.i.d. uniformly distributed random variables is $\text{Beta}(k,k)$ distributed.

Now let's transform by $Z_i = \Phi^{-1}(U_i)$ . Then by the probability integral transform, the $Z_i$ are i.i.d. normally distributed. Also form the order statistics of the $Z_i$ ( $Z_{(1)} \leq \dotsc \leq Z_{(n)}$ ). Since $\Phi^{-1}$ is strictly increasing, it follows that:

Φ^{- 1} (U_{(k)}) = Z_{(k)}

$\Phi^{-1}(U_{(k)}) = Z_{(k)}$

Therefore, to show that $Y$ is approximately normal, we just have to argue that the sample median of $n$ i.i.d. normal random variables is approximately normal.

For $k$ large, this can be made precise by a central limit theorem for sample medians. For $k$ small, say $k=2$ , I will let everyone's gut feeling do the speaking.

For $a \neq b$ (but not too different) one can argue similarly by using corresponding quantiles.

— air
sumber

Distribusi apa yang mengikuti CDF normal terbalik dari variabel beta acak?

Hasil simulasi

Ringkasan

Analisis

Istilah linear

Istilah kuadratik

Remainder term

The case when FFF is normal

Convergence

Exact distribution

Modification

The case when $F$ is normal