Estimasi parameter distribusi eksponensial dengan sampling bias

8

Saya ingin menghitung parameter dari distribusi eksponensial dari populasi sampel yang diambil dari distribusi ini dalam kondisi bias. Sejauh yang saya tahu, untuk sampel nilai n, estimator yang biasa adalah . Namun sampel saya bias sebagai berikut: $\lambda$ $e^{-\lambda x}$ $\hat{\lambda} = \frac{n}{\sum x_i}$

Dari populasi lengkap elemen m yang diambil dari distribusi eksponensial, hanya n elemen terkecil yang diketahui. Bagaimana saya bisa memperkirakan parameter dalam skenario ini? $\lambda$

Sedikit lebih formal, jika adalah sampel pertama yang diambil dari , sehingga untuk setiap kami memiliki , maka bagaimana saya bisa memperkirakan dari set mana . $\{x_1,x_2,x_3,...,x_m \}$ $e^{-\lambda x}$ $i < j$ $x_i \leq x_j$ $\lambda$ $\{x_1,x_2,x_3,...,x_n\}$ $n < m$

Terima kasih banyak!

Michael

— Michael
sumber

1

Apakah Anda tahu nilai

m

$m$ ?

— jbowman

3

Ini adalah sensor tipe II ( en.wikipedia.org/wiki/Censoring_%28statistics%29 ). Sekarang, dapat ditunjukkan bahwa kemungkinan biasa dalam analisis survival juga berlaku untuk mekanisme sensor tipe II.

— ocram

1

Peran dan tampaknya ditukar sebagian dengan jawaban ini.

m

$m$

n

$n$

— kardinal

Terima kasih, kamu benar. Saya memperbaiki peran m dan n dalam pernyataan masalah.

— Michael

8

Estimasi kemungkinan maksimum untuk parameter distribusi eksponensial di bawah sensor tipe II dapat diturunkan sebagai berikut. Saya berasumsi ukuran sampel adalah , dimana terkecil diamati dan terbesar tidak teramati (tetapi diketahui ada.) $m$ $n < m$ $m - n$

Mari kita asumsikan (untuk kesederhanaan notasi) bahwa diamati disusun: . Maka kepadatan probabilitas gabungan dari adalah: $x_i$ $0 \leq x_1 \leq x_2 \leq \cdots \leq x_n$ $x_1, \dots, x_n$

$f(x_1, \dots, x_n) = {m!\lambda^n \over {(m-n)!}}\exp\left\{-\lambda\sum_{i=1}^nx_i\right\}\exp\left\{-\lambda(m-n)x_n\right\}$

di mana eksponensial pertama berkaitan dengan probabilitas diamati dan yang kedua dengan probabilitas yang tidak teramati yang lebih besar dari (yang hanya 1 - CDF di .) Istilah penyusunan ulang mengarah ke: $n$ $x_i$ $m-n$ $x_i$ $x_n$ $x_n$

$f(x_1, \dots, x_n) = {m!\lambda^n \over {(m-n)!}}\exp\left\{-\lambda\left[\sum_{i=1}^{n-1}x_i+(m-n+1)x_n\right]\right\}$

(Catat jumlah berjalan ke karena ada " " dalam koefisien .) Mengambil log, lalu turunan wrt dan seterusnya mengarah ke penaksir kemungkinan maksimum: $n-1$ $+1$ $x_n$ $\lambda$

$\hat{\lambda} = n / \left[\sum_{i=1}^{n-1}x_i+(m-n+1)x_n\right]$

— Jbowman
sumber

1

Jawaban yang bagus. Apakah Anda mengganti dan dibandingkan dengan pertanyaan secara tidak sengaja?

m

$m$

n

$n$

— Neil G

2

@NeilG - terima kasih! Saya hanya memperhatikan bahwa OP beralih dari "dari populasi lengkap elemen yang diambil ... hanya terkecil yang diketahui" dalam teks menjadi pada akhirnya. Saya akan mengklarifikasi notasi mana yang saya gunakan dalam pengeditan ...

m

$m$

n

$n$

m < n

$m < n$

— jbowman

2

Ini menghubungkan jawaban @ jbowman dengan komentar saya. Yaitu, di bawah asumsi kerja umum, seseorang dapat menggunakan 'kemungkinan bertahan hidup standar' di bawah sensor tipe II.

> #------seed------
> set.seed(1907)
> #----------------
> 
> #------some data------
> t <- sort(rexp(n=20, rate=2))        #true sample
> t[16:20] <- t[15]                    #observed sample
> delta <- c(rep(1, 15), rep(0, 5))    #censoring indicator
> data <- data.frame(t, delta)         #observed data
> #---------------------
> 
> #-----using @jbowman's formula------
> 15 / (sum(t[1:14]) + (5 + 1)*t[15])
[1] 2.131323
> #-----------------------------------
> 
> #------using the usual survival likelihood------
> library(survival)
> fit <- survreg(Surv(t, delta)~1, dist="exponential", data=data)
> exp(-fit$coef)
(Intercept) 
   2.131323 
> #-----------------------------------------------

PS1: Perhatikan bahwa ini tidak terbatas pada distribusi eksponensial.

PS2: Detail dapat ditemukan di Bagian 2.2 buku oleh Lawless .

— okram
sumber

1

Dengan asumsi diketahui, estimasi dapat diperoleh via $n$

$\Phi(x_k)=1-e^{-\lambda x_k} \approx (k/n)$ mana , , merujuk pada nilai terkecil dalam set data yang dikurangi. $x_k$ $0<k<m$ $k$

Logikanya adalah: jika Anda memiliki seluruh set sampel, Anda dapat membangun CDF empiris, , dari sampel ini. Kemudian jika Anda mengambil item dari array yang diurutkan ini, itu akan sesuai dengan nilai CDF . Dalam banyak kasus, adalah pilihan yang berguna. $n$ $\Phi$ $k$ $k/n$ $k=n/2$

— Dave
sumber