Jumlah generik dari variabel acak Gamma

35

Saya telah membaca bahwa jumlah variabel acak Gamma dengan parameter skala yang sama adalah variabel acak Gamma lainnya. Saya juga telah melihat makalah oleh Moschopoulos yang menggambarkan metode untuk penjumlahan set umum variabel acak Gamma. Saya telah mencoba menerapkan metode Moschopoulos tetapi belum berhasil.

Seperti apa penjumlahan set umum variabel acak Gamma? Untuk membuat pertanyaan ini konkret, seperti apa bentuknya:

$\text{Gamma}(3,1) + \text{Gamma}(4,2) + \text{Gamma}(5,1)$

Jika parameter di atas tidak terlalu terbuka, harap sarankan orang lain.

— OSE
sumber

4

Solusi eksplisit untuk jumlah dari setiap dua distribusi Gamma telah diposting di stats.stackexchange.com/a/252192 .

— Whuber

Contoh khusus ini, di mana semua distribusi Gamma memiliki parameter bentuk 1 (yaitu, mereka eksponensial) disebut distribusi hypoexponential (keluarga) . Untuk kasus hanya dua distribusi eksponensial ada juga rumus eksplisit yang diberikan di stats.stackexchange.com/questions/412849 .

— whuber

37

Pertama, gabungkan setiap jumlah yang memiliki faktor skala yang sama : a ditambah variasi varian . $\Gamma(n, \beta)$ $\Gamma(m,\beta)$ $\Gamma(n+m,\beta)$

Selanjutnya, amati bahwa fungsi karakteristik (cf) dari adalah , di mana cf dari sejumlah distribusi ini adalah produk $\Gamma(n, \beta)$ $(1-i \beta t)^{-n}$

\prod_{j} \frac{1}{(1 - i β_{j} t)^{n_{j}}} .

$\prod_{j} \frac{1}{(1-i \beta_j t)^{n_j}}.$

Ketika semuanya integral, produk ini diperluas sebagai sebagian parsial menjadi kombinasi linear dari mana adalah bilangan bulat antara dan . Dalam contoh dengan (dari jumlah dan ) dan kita temukan $n_j$ $(1-i \beta_j t)^{-\nu}$ $\nu$ $1$ $n_j$ $\beta_1 = 1, n_1=8$ $\Gamma(3,1)$ $\Gamma(5,1)$ $\beta_2 = 2, n_2=4$

\frac{1}{(1 - i t)^{8}} \frac{1}{(1 - 2 i t)^{4}} = \frac{1}{(x + i)^{8}} - \frac{8 i}{(x + i)^{7}} - \frac{40}{(x + i)^{6}} + \frac{160 i}{(x + i)^{5}} + \frac{560}{(x + i)^{4}} - \frac{1792 i}{(x + i)^{3}} - \frac{5376}{(x + i)^{2}} + \frac{15360 i}{x + i} + \frac{256}{(2 x + i)^{4}} + \frac{2048 i}{(2 x + i)^{3}} - \frac{9216}{(2 x + i)^{2}} - \frac{30720 i}{2 x + i} .

$\frac{1}{(1-i t)^{8}}\frac{1}{(1- 2i t)^{4}} = \\ \frac{1}{(x+i)^8}-\frac{8 i}{(x+i)^7}-\frac{40}{(x+i)^6}+\frac{160 i}{(x+i)^5}+\frac{560}{(x+i)^4}-\frac{1792 i}{(x+i)^3}\\-\frac{5376}{(x+i)^2}+\frac{15360 i}{x+i}+\frac{256}{(2 x+i)^4}+\frac{2048 i}{(2 x+i)^3}-\frac{9216}{(2 x+i)^2}-\frac{30720 i}{2 x+i}.$

Kebalikan dari mengambil cf adalah invers Fourier Transform, yang linear : itu berarti kita dapat menerapkannya istilah demi istilah. Setiap istilah dikenali sebagai kelipatan cf dari distribusi Gamma dan karenanya mudah dibalik untuk menghasilkan PDF . Dalam contoh yang kita dapatkan

\frac{e^{- t} t^{7}}{5040} + \frac{1}{90} e^{- t} t^{6} + \frac{1}{3} e^{- t} t^{5} + \frac{20}{3} e^{- t} t^{4} + \frac{8}{3} e^{- \frac{t}{2}} t^{3} + \frac{280}{3} e^{- t} t^{3} - 128 e^{- \frac{t}{2}} t^{2} + 896 e^{- t} t^{2} + 2304 e^{- \frac{t}{2}} t + 5376 e^{- t} t - 15360 e^{- \frac{t}{2}} + 15360 e^{- t}

$\frac{e^{-t} t^7}{5040}+\frac{1}{90} e^{-t} t^6+\frac{1}{3} e^{-t} t^5+\frac{20}{3} e^{-t} t^4+\frac{8}{3} e^{-\frac{t}{2}} t^3+\frac{280}{3} e^{-t} t^3\\ -128 e^{-\frac{t}{2}} t^2+896 e^{-t} t^2+2304 e^{-\frac{t}{2}} t+5376 e^{-t} t-15360 e^{-\frac{t}{2}}+15360 e^{-t}$

untuk PDF dari jumlah tersebut.

Ini adalah campuran terbatas distribusi Gamma yang memiliki faktor skala sama dengan mereka yang ada dalam jumlah dan faktor bentuk kurang dari atau sama dengan mereka yang ada dalam jumlah. Kecuali dalam kasus khusus (di mana beberapa pembatalan mungkin terjadi), jumlah istilah diberikan oleh parameter bentuk total (dengan asumsi semua berbeda). $n_1 + n_2 + \cdots$ $n_j$

Sebagai tes, berikut adalah histogram hasil diperoleh dengan menambahkan undian independen dari distribusi dan . Di atasnya ditumpangkan grafik kali fungsi sebelumnya. Cocok sangat bagus. $10^4$ $\Gamma(8,1)$ $\Gamma(4,2)$ $10^4$

Angka

Moschopoulos membawa ide ini selangkah lebih maju dengan memperluas cf dari jumlah menjadi deret fungsi fungsi Gamma yang tak terbatas setiap kali satu atau lebih dari adalah non-integral, dan kemudian mengakhiri deret infinite pada titik di mana ia cukup didekati dengan baik. $n_i$

— whuber
sumber

2

Minor komentar: Biasanya, campuran yang terbatas berarti pdf dari bentuk

di mana

dan

, yaitu,

adalah probabilitas dan pdf dapat diartikan sebagai (hukum probabilitas total) jumlah tertimbang bersyarat PDF diberikan berbagai kondisi yang terjadi dengan probabilitas

f (x) = \sum_{i = 1}^{n} a_{i} f_{i} (x)

$f(x) = \sum_{i=1}^n a_i f_i(x)$

a_{i} > 0

$a_i > 0$

\sum_{i} a_{i} = 1

$\sum_i a_i = 1$

a_{i}

$a_i$

a_{i}

$a_i$ . Namun, dalam jumlah di atas, beberapa koefisien negatif dan dengan demikian interpretasi standar dari campuran tidak berlaku.

— Dilip Sarwate

@ Philip Itu poin yang bagus. Apa yang membuat kasus ini menarik adalah bahwa walaupun beberapa koefisien mungkin negatif, namun kombinasi ini masih merupakan distribusi yang valid (berdasarkan konstruksinya).

— Whuber

Bisakah pendekatan ini diperluas untuk memperhitungkan penambahan variabel dependen? Secara khusus, saya ingin menambahkan hingga 6 distribusi dengan masing-masing memiliki beberapa korelasi dengan yang lain.

— hidung belang

11

Saya akan menunjukkan solusi lain yang mungkin, yang cukup banyak diterapkan, dan dengan perangkat lunak R saat ini, cukup mudah untuk diterapkan. Itu adalah perkiraan kepadatan saddlepoint, yang seharusnya diketahui lebih luas!

Untuk terminologi tentang distribusi gamma, saya akan mengikuti https://en.wikipedia.org/wiki/Gamma_distribution dengan parametrization bentuk / skala, adalah parameter bentuk dan adalah skala. Untuk perkiraan saddlepoint saya akan mengikuti Ronald W Butler: "perkiraan Saddlepoint dengan aplikasi" (Cambridge UP). Perkiraan saddlepoint dijelaskan di sini: Bagaimana cara pendekatan saddlepoint bekerja? di sini saya akan menunjukkan bagaimana ini digunakan dalam aplikasi ini. $k$ $\theta$

Misalkan adalah variabel acak dengan fungsi penghasil momen yang ada yang harus ada untuk dalam beberapa interval terbuka yang berisi nol. Kemudian tentukan fungsi penghasil kumulant oleh Diketahui bahwa $X$

M (s) = E e^{s X}

$M(s) = E e^{sX}$

s

$s$

K (s) = \log M (s)

$K(s) = \log M(s)$

E X = K^{'} (0), Var (X) = K^{″} (0)

$E X = K'(0), \text{Var} (X) = K''(0)$ . Persamaan saddlepoint adalah

yang mendefinisikan secara implisit

sebagai fungsi dari

(yang harus dalam kisaran

). Kami menulis fungsi ini didefinisikan secara implisit sebagai

. Perhatikan bahwa persamaan saddlepoint selalu memiliki tepat satu solusi, karena fungsi kumulans adalah cembung.

K^{'} (\hat{s}) = x

$K'(\hat{s}) = x$

s

$s$

x

$x$

X

$X$

\hat{s} (x)

$\hat{s}(x)$

Kemudian saddlepoint pendekatan kepadatan dari diberikan oleh $f$ $X$ fungsi kepadatan perkiraan ini tidak dijamin untuk mengintegrasikan ke 1, sehingga adalah saddlepoint pendekatan unnormalized. Kita bisa mengintegrasikannya secara numerik dan renormalisasi untuk mendapatkan perkiraan yang lebih baik. Tetapi perkiraan ini dijamin tidak negatif.

\hat{f} (x) = \frac{1}{\sqrt{2 π K^{″} (\hat{s})}} \exp (K (\hat{s}) - \hat{s} x)

$\hat{f}(x) = \frac1{\sqrt{2\pi K''(\hat{s})}} \exp(K(\hat{s}) - \hat{s} x)$

Sekarang mari menjadi variabel acak gamma independen, di mana memiliki distribusi dengan parameter . Maka fungsi penghasil kumulans adalah ditentukan untuk $X_1, X_2, \dots, X_n$ $X_i$ $(k_i, \theta_i)$

K (s) = - \sum_{i = 1}^{n} k_{i} \ln (1 - θ_{i} s)

$K(s) = -\sum_{i=1}^n k_i \ln(1-\theta_i s)$

. Derivatif pertama adalah

s < 1 / max (θ_{1}, θ_{2}, \dots, θ_{n})

$s<1/\max(\theta_1, \theta_2, \dots, \theta_n)$

dan turunan kedua adalah

K^{'} (s) = \sum_{saya = 1}^{n} \frac{k_{saya} θ_{saya}}{1 - θ_{saya} s}

$K'(s) = \sum_{i=1}^n \frac{k_i \theta_i}{1-\theta_i s}$

Berikut ini saya akan memberikan beberapakode menghitung ini, dan akan menggunakan nilai parameter

,

. Perhatikan bahwakodeberikutmenggunakan argumen baru dalam fungsi uniroot yang diperkenalkan di R 3.1, jadi tidak akan berjalan di R yang lebih lama.

K^{″} (s) = \sum_{saya = 1}^{n} \frac{k_{saya} θ_{saya}^{2}}{(1 - θ_{saya} s)^{2}} .

$K''(s) = \sum_{i=1}^n \frac{k_i \theta_i^2}{(1-\theta_i s)^2}.$ R

n = 3

$n=3$

k = (1, 2, 3)

$k=(1,2,3)$

θ = (1, 2, 3)

$\theta=(1,2,3)$ R

shape <- 1:3 #ki
scale <- 1:3 # thetai
# For this case,  we get expectation=14,  variance=36
make_cumgenfun  <-  function(shape, scale) {
      # we return list(shape, scale, K, K', K'')
      n  <-  length(shape)
      m <-   length(scale)
      stopifnot( n == m, shape > 0, scale > 0 )
      return( list( shape=shape,  scale=scale, 
                    Vectorize(function(s) {-sum(shape * log(1-scale * s) ) }),
                    Vectorize(function(s) {sum((shape*scale)/(1-s*scale))}) ,
                    Vectorize(function(s) { sum(shape*scale*scale/(1-s*scale)) }))    )
}

solve_speq  <-  function(x, cumgenfun) {
          # Returns saddle point!
          shape <- cumgenfun[[1]]
          scale <- cumgenfun[[2]]
          Kd  <-   cumgenfun[[4]]
          uniroot(function(s) Kd(s)-x,lower=-100,
                  upper = 0.3333, 
                  extendInt = "upX")$root
}

make_fhat <-  function(shape,  scale) {
    cgf1  <-  make_cumgenfun(shape, scale)
    K  <-  cgf1[[3]]
    Kd <-  cgf1[[4]]
    Kdd <- cgf1[[5]]
    # Function finding fhat for one specific x:
    fhat0  <- function(x) {
        # Solve saddlepoint equation:
        s  <-  solve_speq(x, cgf1)
        # Calculating saddlepoint density value:
        (1/sqrt(2*pi*Kdd(s)))*exp(K(s)-s*x)
    }
    # Returning a vectorized version:
    return(Vectorize(fhat0))
} #end make_fhat

 fhat  <-  make_fhat(shape, scale)
plot(fhat, from=0.01,  to=40, col="red", main="unnormalized saddlepoint approximation\nto sum of three gamma variables")

menghasilkan plot berikut: masukkan deskripsi gambar di sini

Saya akan meninggalkan pendekatan saddlepoint yang dinormalisasi sebagai latihan.

— kjetil b halvorsen
sumber

1

Ini menarik, tetapi saya tidak dapat membuat Rkode Anda berfungsi untuk membandingkan perkiraan dengan jawaban yang tepat. Setiap upaya untuk memunculkan fhatmenghasilkan kesalahan, tampaknya dalam penggunaan uniroot.

— Whuber

3

Apa versi R Anda? Kode menggunakan argumen baru untuk uniroot, extendedInt, yang diperkenalkan di R versi 3.1. Jika R Anda lebih tua, Anda dapat mencoba menghapusnya, (dan memperpanjang interval yang diberikan untuk uniroot). Tapi itu akan membuat kodenya kurang kuat!

— kjetil b halvorsen

10

The Persamaan Welch-Satterthwaite dapat digunakan untuk memberikan perkiraan jawaban dalam bentuk distribusi gamma. Ini memiliki properti yang bagus untuk membiarkan kami memperlakukan distribusi gamma sebagai (kurang-lebih) ditutup dengan penambahan. Ini adalah perkiraan dalam uji-t Welch yang biasa digunakan.

(Distribusi gamma dapat dilihat sebagai distribusi chi-square diskalakan, dan memungkinkan parameter bentuk non-integer.)

$k, \theta$

k_{s kamu m} = \frac{(\sum_{saya} θ_{saya} k_{saya})^{2}}{\sum_{saya} θ_{saya}^{2} k_{saya}}

$k_{sum} = { (\sum_i \theta_i k_i)^2 \over \sum_i \theta_i^2 k_i }$

θ_{s kamu m} = \frac{\sum θ_{saya} k_{saya}}{k_{s kamu m}}

$\theta_{sum} = { { \sum \theta_i k_i } \over k_{sum} }$

$k=(3,4,5)$ $\theta=(1,2,1)$

Jadi kita mendapatkan sekitar Gamma (10.666 ..., 1.5)

$k$ $\theta_i$ $\theta$

— Paul Harrison
sumber

6

$n$

G D C (a, b, α, β; τ) = {\begin{array}{cc} \frac{b^{a} β^{α}}{Γ (a + α)} e^{- b τ} {τ^{a + α}}^{- 1}_{1} F_{1} [α, a + α, (b - β) τ], & τ > 0 \\ 0, τ \leq 0 \end{array},

$\mathrm{G}\mathrm{D}\mathrm{C}\left(\mathrm{a}\kern0.1em ,\mathrm{b}\kern0.1em ,\alpha, \beta; \tau \right)=\left\{\begin{array}{cc}\hfill \frac{{\mathrm{b}}^{\mathrm{a}}{\beta}^{\alpha }}{\Gamma \left(\mathrm{a}+\alpha \right)}{e}^{-\mathrm{b}\tau }{\tau^{\mathrm{a}+\alpha}}^{-1}{}_1F_1\left[\alpha, \mathrm{a}+\alpha, \left(\mathrm{b}-\beta \right)\tau \right],\hfill & \hfill \tau >0\hfill \\ {}\hfill \kern2em 0\kern6.6em ,\hfill \kern5.4em \tau \kern0.30em \le \kern0.30em 0\hfill \end{array}\right.,$

G a m m a (a, b) \to Γ (a, 1 / b)

$Gamma(a,b) \rightarrow \Gamma(a,1/b)$

b

$b$

β

$\beta$

— Carl
sumber