Saya akan menjawab pertanyaan Anda dalam urutan yang berlawanan dengan yang Anda tanyakan, sehingga paparan berlangsung dari spesifik ke umum.
Pertama, mari kita pertimbangkan situasi di mana Anda dapat mengasumsikan bahwa kecuali untuk sebagian kecil pencilan, sebagian besar data Anda dapat digambarkan dengan baik oleh distribusi yang diketahui (dalam kasus Anda eksponensial).
x
halX( x ) = σ- 1exp ( - ( x - θ )σ) ,x > 0 ; σ> 0
xθ = 0
Penaksir MLE biasa dari parameter adalah [0, p 506]:
θ^= mntsayaxsaya
dan
σ^= avesayaxsaya- mntsayaxsaya
Berikut adalah contoh di R
:
n<-100
theta<-1
sigma<-2
set.seed(123) #for reproducibility
x<-rexp(n,rate=1/sigma)+theta
mean(x)-min(x)
σ≈ 2.08
xsaya- xsaya
m<-floor(0.2*n)
y<-x
y[1:m]<--y[1:m]
mean(y)-min(y)
σ≈ 11.12xsaya100 xsaya
m<-floor(0.2*n)
z<-x
z[1:m]<-100*z[1:m]
mean(z)-min(z)
σ≈ 54
Alternatif untuk MLE mentah adalah (a) menemukan outlier menggunakan aturan identifikasi outlier yang kuat , (b) menyisihkannya sebagai data palsu dan (c) menghitung MLE pada bagian yang tidak palsu dari sampel.
Aturan identifikasi outlier kuat yang paling terkenal adalah aturan med / mad yang diusulkan oleh Hampel [3] yang menghubungkannya dengan Gauss (saya menggambarkan aturan ini di sini ). Dalam aturan med / mad, ambang penolakan didasarkan pada asumsi bahwa pengamatan asli dalam sampel Anda didekati dengan baik oleh distribusi normal.
Tentu saja, jika Anda memiliki informasi tambahan (seperti mengetahui bahwa distribusi pengamatan asli diperkirakan dengan baik oleh distribusi poisson seperti dalam contoh ini ) tidak ada yang mencegah Anda mengubah data Anda dan menggunakan aturan penolakan outlier dasar ( med / mad) tapi ini membuat saya agak canggung untuk mengubah data untuk mempertahankan apa yang akhirnya merupakan aturan ad-hoc.
Tampaknya jauh lebih logis bagi saya untuk menyimpan data tetapi menyesuaikan aturan penolakan. Kemudian, Anda masih akan menggunakan prosedur 3 langkah yang saya jelaskan di tautan pertama di atas, tetapi dengan ambang penolakan disesuaikan dengan distribusi Anda mencurigai bagian baik dari data. Di bawah ini, saya memberikan aturan penolakan dalam situasi di mana pengamatan asli dilengkapi dengan distribusi eksponensial. Dalam hal ini, Anda bisa membuat ambang penolakan yang baik menggunakan aturan berikut:
θ
θ^′= medsayaxsaya- 3.476 Qn ( x ) ln2
≈ 3.476
2) tolak karena semua pengamatan di luar palsu [2, p 188]
[ θ^′, 9 ( 1 + 2 / n ) medsayaxsaya+ θ^′]
(faktor 9 dalam aturan di atas diperoleh sebagai 7.1 dalam jawaban Glen_b di atas, tetapi menggunakan cut-off yang lebih tinggi. Faktor (1 + 2 / n) adalah faktor koreksi sampel kecil yang diperoleh dengan simulasi dalam [2]. Untuk ukuran sampel yang cukup besar, pada dasarnya sama dengan 1).
σ
σ^′= avesaya ∈ Hxsaya- mntsaya ∈ Hxsaya
H= { i : θ^′≤ xsaya≤ 9 ( 1 + 2 / n ) medsayaxsaya+ θ^′}
menggunakan aturan ini pada contoh sebelumnya, Anda akan mendapatkan:
library(robustbase)
theta<-median(x)-Qn(x,constant=3.476)*log(2)
clean<-which(x>=theta & x<=9*(1+2/n)*median(x)+theta)
mean(x[clean])-min(x[clean])
σ≈ 2.05
theta<-median(y)-Qn(y,constant=3.476)*log(2)
clean<-which(y>=theta & y<=9*(1+2/n)*median(y)+theta)
mean(y[clean])-min(y[clean])
σ≈ 2.2
Pada contoh ketiga:
theta<-median(z)-Qn(z,constant=3.476)*log(2)
clean<-which(z>=theta & z<=9*(1+2/n)*median(z)+theta)
mean(z[clean])-min(z[clean])
σ≈ 2.2
{ i : i ∉ H}
Sekarang, untuk kasus umum di mana Anda tidak memiliki distribusi kandidat yang baik agar sesuai dengan sebagian besar pengamatan Anda di luar mengetahui bahwa distribusi simetris tidak akan dilakukan, Anda dapat menggunakan boxplot yang disesuaikan [4]. Ini adalah generalisasi dari boxplot yang memperhitungkan ukuran kemiringan (non parametrik dan outlier) dari data Anda (sehingga ketika sebagian besar data simetris runtuh ke boxplot yang biasa). Anda juga dapat memeriksa jawaban ini untuk ilustrasi.
- [0] Johnson NL, Kotz S., Balakrishnan N. (1994). Distribusi Univariat Berkelanjutan, Volume 1, Edisi ke-2.
- [1] Rousseeuw PJ dan Croux C. (1993). Alternatif untuk Median Absolute Deviation. Jurnal Asosiasi Statistik Amerika, Vol. 88, No. 424, hlm. 1273--1283.
- [2] JK Patel, CH Kapadia, dan DB Owen, Dekker (1976). Buku pegangan distribusi statistik.
- [3] Hampel (1974). Kurva Pengaruh dan Perannya dalam Estimasi Kuat. Jurnal Asosiasi Statistik Amerika Vol. 69, No. 346 (Juni, 1974), hlm. 383-393.
- [4] Vandervieren, E., Hubert, M. (2004) "Boxplot yang disesuaikan untuk distribusi yang miring". Statistik Komputasi & Analisis Data Volume 52, Edisi 12, 15 Agustus 2008, Halaman 5186–5201.
1.5*IQR
definisi pencilan tidak diterima secara universal. Coba bongkar pertanyaan Anda dan perluas masalah yang Anda coba selesaikan.