Deteksi outlier dalam distribusi beta


8

Katakanlah saya memiliki sampel nilai yang besar di [0,1]. Saya ingin memperkirakan yang mendasarinyaBeta(α,β)distribusi. Mayoritas sampel berasal dari asumsi iniBeta(α,β) distribusi, sedangkan sisanya adalah outlier yang ingin saya abaikan dalam estimasi α dan β.

Apa cara yang baik untuk melanjutkan ini?

Apakah standar: Inliers={x[Q11.5IQR,Q3+1.5IQR]} rumus yang digunakan dalam boxplots menjadi perkiraan yang buruk?

Apa cara yang lebih berprinsip untuk menyelesaikan ini? Apakah ada prior tertentu padaα dan β itu akan bekerja dengan baik dalam masalah jenis ini?

                    masukkan deskripsi gambar di sini


pertimbangkan jawaban yang diposting di sini . Setelah outlier ditandai, pindahkan, dan gunakan distribusi MLE yang sesuai dengan pengamatan yang tersisa. Ini akan lebih tepat karena alasan yang dijelaskan di tautan.
user603

Jawaban:


1

Cara yang lebih sistematis untuk menangani masalah ini adalah dengan menggunakan model campuran eksplisit, dengan spesifikasi distribusi 'outlier'. Bentuk sederhana adalah menggunakan campuran distribusi beta (untuk poin yang Anda minati) dan distribusi seragam (untuk 'pencilan'). Dengan memodelkan data sebagai distribusi campuran Anda bisa mendapatkan perkiraanα dan β yang secara otomatis memperhitungkan fakta bahwa beberapa poin mungkin outlier.

Untuk mengatasi masalah ini menggunakan model campuran, biarkan ϕ menjadi probabilitas 'pencilan' dan menganggap Anda memiliki nilai IID X1,...,XnϕU(0,1)+(1-ϕ)Beta(α,β). Fungsi kemungkinan untuk data yang diamati adalah:

L.x(α,β,ϕ)=saya=1n(ϕ+(1-ϕ)Γ(α+β)Γ(α)Γ(β)xsayaα-1(1-xsaya)β-1).

Anda dapat melanjutkan dari sini menggunakan estimasi MLE atau Bayesian klasik. Baik akan membutuhkan teknik numerik. Setelah memperkirakan tiga parameter dalam model, Anda kemudian akan memiliki estimasiα dan βyang secara otomatis menggabungkan kemungkinan outlier. Anda juga akan memiliki perkiraan proporsi pencilan dari model campuran.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.