Perkiraan distribusi Poisson yang kuat

Saya memiliki satu set angka yang dianggap berasal dari distribusi Poisson. Himpunan memiliki beberapa pencilan juga dan karena itu, perkiraan kemungkinan maksimum sangat terpengaruh. Saya mendengar bahwa prosedur estimasi yang kuat dapat membantu dalam situasi seperti itu. Adakah yang bisa menjelaskan cara melakukan ini? Saya bukan mahasiswa statistik.

Saya menemukan bahwa glmrobfungsi dalam R dapat digunakan untuk ini. (Saya cukup baru di R). Tapi saya tidak tahu, bagaimana menggunakannya meskipun membaca halaman buku panduan. Secara khusus saya tidak dapat memahami bagaimana cara mendapatkan forumulaargumen pertama untuk fungsi glmrob.

Terima kasih.

— Suresh
sumber

Sudahkah Anda membaca dokumentasi glmrob ? Ada kode sampel untuk fit Poisson kuat di hal. 23.

— whuber

Saya memang melihat mereka. Dalam contoh di halaman 23, ada rumus seperti ini sumY ~ Age10 + Base4*Trt. Dengan data yang saya miliki, saya tidak dapat membuat formula seperti itu. Saya hanya memiliki banyak angka yang dianggap berasal dari distribusi Poisson. Seperti yang saya pahami, saya tidak memiliki variabel dependen dan variabel independen dan mungkin itu sebabnya saya tidak dapat membuat formula.

— suresh

Anda secara implisit memiliki istilah intersep.

— kardinal

Anda memiliki jumlah poisson yang merupakan respons Anda dan "prediktor" Anda hanya terdiri dari istilah intersepsi, yaitu, Anda ingin memodelkannya seolah-olah semua respons Anda berasal dari distribusi yang sama. Apakah itu lebih masuk akal? :)

— kardinal

Contoh rumus: y~1.

— kardinal

@ cardinal telah mengirim telegram jawaban dalam komentar. Mari kita menyempurnakannya. Maksudnya adalah bahwa meskipun model linier umum (seperti yang diterapkan oleh lmdan, dalam hal ini, glmRob) tampaknya dimaksudkan untuk mengevaluasi hubungan antar variabel, mereka dapat menjadi alat yang kuat untuk mempelajari variabel tunggal, juga. Triknya bergantung pada fakta bahwa regresi data terhadap konstanta hanyalah cara lain untuk memperkirakan nilai rata-rata ("lokasi") .

Sebagai contoh, hasilkan beberapa data yang didistribusikan Poisson:

set.seed(17)
x <- rpois(10, lambda=2)

Dalam hal ini, Rakan menghasilkan vektor $(1,5,2,3,2,2,1,1,3,1)$ nilai-nilai xdari dari distribusi Poisson rata-rata $2$ . Perkirakan lokasinya dengan glmRob:

library(robust)
glmrob(x ~ 1, family=poisson())

Responsnya memberi tahu kami bahwa intersep diperkirakan sebesar $0.7268$ . Tentu saja, siapa pun yang menggunakan metode statistik perlu tahu cara kerjanya: ketika Anda menggunakan model linier umum dengan keluarga Poisson, fungsi "tautan" standar adalah logaritma. Ini berarti intersep adalah logaritma dari perkiraan lokasi. Jadi kami menghitung

exp(0.7268)

Hasil, $2.0685$ , Nyaman dekat dengan $2$ : prosedur tampaknya berhasil. Untuk melihat apa yang dilakukannya, plot data:

plot(x, ylim=c(0, max(x)))
abline(exp(0.7268), 0, col="red")

Plot dengan garis pas

Garis yang dipasang murni horizontal dan karenanya memperkirakan nilai tengah vertikal: data kami. Hanya itu yang terjadi.

Untuk memeriksa ketahanan, mari kita buat outlier yang buruk dengan menempelkan beberapa nol pada nilai pertama x:

x[1] <- 100

Kali ini, untuk fleksibilitas yang lebih besar dalam pasca-pemrosesan, kami akan menghemat output dari glmRob:

m <- glmrob(x ~ 1, family=poisson())

Untuk mendapatkan perkiraan rata-rata kami dapat meminta

exp(m$coefficients)

Nilai kali ini sama dengan $2.496$ : sedikit off, tetapi tidak terlalu jauh, mengingat bahwa nilai rata-rata x(diperoleh sebagai mean(x)) adalah $12$ . Itulah arti di mana prosedur ini "kuat." Informasi lebih lanjut dapat diperoleh melalui

summary(m)

Outputnya menunjukkan kepada kita, antara lain, bahwa bobot terkait dengan nilai outlying dari $100$ di x[1]adil $0.02179$ hampir $0$ , menunjukkan outlier yang dicurigai.

— whuber
sumber

(+1) Presentasi yang bagus, seperti biasa. :)

— kardinal

Terima kasih banyak. Jawaban seperti itu sangat penting bagi saya sekarang karena saya benar-benar baru untuk semua ini (istilah seperti prediktor, intersepsi, dan bahkan paket R).

— suresh

Bisakah Anda menunjuk ke alat serupa untuk distribusi Poisson bivariat?

— Diogo Santos

@Diogo Tergantung pada apa yang dimaksudkan untuk dilakukan oleh alat itu dan tepatnya bentuk ketergantungan apa di antara kaum marginal yang digunakan.

— whuber