Bagaimana Anda menyesuaikan distribusi Poisson ke data tabel?


8

Saya telah diberi tabel dan , yang sedemikian rupa sehingga jumlah x_i memberi tahu jumlah anak yang dimiliki semua orang .x=(0,1,2,3,4,5,6)y=(3062,587,284,103,33,4,2)xiyi

Saya diminta untuk menyesuaikan distribusi Poisson untuk ini.

Apa artinya cocok dengan distribusi Poisson untuk ini?

Di sini, p.8: http://www.stats.ox.ac.uk/ ~ marchini/teaching/L5/L5.notes.pdf

dikatakan bahwa pemasangan Poisson melibatkan penghitungan P(X=x) untuk setiap x . Tapi di mana melakukan y s go? Apakah pantas menghitung P(X=x) s?


Anda diminta untuk mencocokkan model regresi Poisson dengan data ini. Ini akan membantu: onlinecourses.science.psu.edu/stat504/node/168 . Selain itu, harap tambahkan tag belajar mandiri ke pertanyaan pekerjaan rumah ini.
StatsStudent

Jawaban:


11

Dengan "menyesuaikan distribusi dengan data" kami berarti bahwa beberapa distribusi (yaitu fungsi matematika) digunakan sebagai model , yang dapat digunakan untuk memperkirakan distribusi empiris dari data yang Anda miliki. Jika Anda menyesuaikan distribusi ke data, Anda perlu menyimpulkan parameter distribusi dari data. Anda dapat melakukan ini dengan menggunakan beberapa perangkat lunak yang akan melakukan ini untuk Anda secara otomatis (misalnya fitdistrplusdalam R), atau dengan menghitungnya dengan tangan dari data Anda, misalnya menggunakan kemungkinan maksimum (lihat entri yang relevan di Wikipedia tentang distribusi Poisson ).

Pada plot di bawah ini Anda dapat melihat data Anda diplot dengan distribusi Poisson yang sesuai. Seperti yang Anda lihat, garis tidak cocok dengan sempurna, karena itu hanya perkiraan.

masukkan deskripsi gambar di sini

Di antara metode lain, salah satu pendekatan untuk masalah ini adalah menggunakan kemungkinan maksimum . Ingat bahwa kemungkinan adalah fungsi parameter untuk data tetap dan dengan memaksimalkan fungsi ini kita dapat menemukan parameter "kemungkinan besar" mengingat data yang kita miliki, yaitu

L(λ|x1,,xn)=if(xi|λ)

di mana dalam kasus Anda adalah fungsi massa probabilitas Poisson. Cara langsung dan numerik untuk menemukan sesuai adalah dengan menggunakan algoritma pengoptimalan. Untuk ini, pertama-tama Anda menentukan fungsi kemungkinan dan kemudian meminta algoritma untuk menemukan titik di mana fungsi mencapai maksimum:fλ

# negative log-likelihood (since this algorithm looks for minimum)
llik <- function(lambda) -sum(dpois(x, lambda, log = TRUE)*y)
opt.fit <- optimize(llik, c(0, 10))$minimum

Anda dapat melihat sesuatu yang aneh tentang kode ini: Saya kalikan dpois()dengan y. Data yang Anda miliki diberikan dalam bentuk tabel, di mana untuk setiap nilai kami memiliki jumlah menyertainya , sementara fungsi kemungkinan didefinisikan dalam hal data mentah, bukan tabel tersebut. Anda dapat membuat kembali data mentah dari nilai ini dengan mengulangi setiap waktu tepat (yaitu dalam R) dan menggunakan ini sebagai input ke perangkat lunak statistik Anda, tetapi Anda dapat mengambil pendekatan yang lebih pintar. Kemungkinan adalah produk dari . Mengalikan untuk identik persis dengan kali sama dengan mengambilxiyixiyirep(x, y)f(xi|λ)f(xi|λ)xiyiyi : . Di sini kita memaksimalkan log-likelihood (lihat di sini mengapa kita mengambil log ), jadi menjadi: . Itulah bagaimana kami memperoleh fungsi kemungkinan untuk data tabular.f(xi|λ)yiif(xi|λ)yiilogf(xi|λ)×yi

Namun, ada cara yang lebih sederhana untuk dilakukan. Kita tahu bahwa rata-rata empiris adalah penaksir kemungkinan maksimum dari (yaitu, ia memungkinkan kita untuk memperkirakan nilai yang memaksimalkan kemungkinan), jadi daripada menggunakan perangkat lunak pengoptimalan, kita dapat menghitung rata-rata. Karena Anda memiliki data dalam bentuk tabel dengan jumlah, cara paling langsung untuk pergi adalah dengan menggunakan rata-rata tertimbang rata - rata di mana digunakan sebagai bobot.xλλxiyi

mx <- sum(x*(y/sum(y)))

Ini mengarah ke hasil yang identik seolah-olah Anda menghitung rata-rata aritmatika dari data mentah. Keduanya memaksimalkan kemungkinan menggunakan algoritme pengoptimalan, dan mengambil arahan rata-rata untuk hasil yang hampir persis sama:

> mx
[1] 0.3995092
> opt.fit
[1] 0.3995127

Jadi 's tidak disebutkan di mana saja dalam catatan Anda karena mereka diciptakan secara artifisial sebagai cara menyimpan data ini dalam bentuk agregat (sebagai meja), daripada daftar semua baku ' s. Seperti yang ditunjukkan di atas, Anda dapat memanfaatkan memiliki data dalam format ini.y4075x

Prosedur di atas memungkinkan Anda untuk menemukan "fitting terbaik" dan ini adalah bagaimana Anda menyesuaikan distribusi dengan data - dengan menemukan parameter distribusi seperti itu, yang membuatnya sesuai dengan data empiris.λ


Anda berkomentar bahwa masih belum jelas bagi Anda mengapa dianggap sebagai bobot. Mean aritmatika dapat dianggap sebagai kasus khusus dari rata-rata tertimbang di mana semua bobotnya sama dan sama dengan :yi1/N

x1++xnN=1N(x1++xn)=1Nx1++1Nxn

Sekarang pikirkan bagaimana data Anda disimpan. dan berarti Anda memiliki empat balita , dan berarti dll. Ketika Anda menghitung rata-rata , pertama-tama Anda harus menjumlahkannya, jadi: . Hal ini menyebabkan penggunaan hitungan sebagai bobot untuk rata-rata tertimbang memberikan persis sama dengan rata-rata aritmatika dengan data mentahx6=5y6=4x6={5,5,5,5}x7=6y7=2x7={6,6}5+5+5+5=5×4=x6×y6

x1y1++xnyny1++yn=x1y1N++xnynN=x1N++x1Ny1 times++xnN++xnNyn times

di mana . Ide yang sama diterapkan pada fungsi kemungkinan yang dibobot oleh hitungan. Apa yang bisa menyesatkan di sini adalah bahwa dalam beberapa kasus kami menggunakan untuk menunjukkan nilai diamati- , sedangkan dalam kasus Anda adalah nilai spesifik yang diamati kali. Seperti yang dikatakan sebelumnya, ini hanyalah cara alternatif untuk menyimpan data yang sama.N=iyixiiXxiXyi


Tapi bagaimana cara menghitungnya? Saya tidak mengerti hubungan antara Poisson, x dan y. Saya kira adalah apa yang dihubungkan ke PMF Poisson sebagai , tetapi bagaimana PMF Poisson terkait dengan s? xky
mavavilj

Jadi apakah pas dengan model berarti menghitung (empiris) untuk setiap ? P(X=xi)xi
mavavilj

@mavavilj tidak, itu berarti menemukan nilai parameter distribusi seperti itu (dalam hal ini ) yang membuat fungsi distribusi paling sesuai dengan distribusi empiris (lihat paragraf pertama). Paragraf terakhir adalah tentang bagaimana data Anda disimpan. Jika ada sesuatu yang masih belum jelas, silakan komentar. λ
Tim

Apa masuk akal menyimpulkan sebagai bobot untuk rata-rata tertimbang (untuk mendapatkan MLE)? y
mavavilj

Saya masih sedikit tidak jelas tentang alasan yang mengarah ke menghitung rata-rata tertimbang. Mengapa dianggap sebagai bobot? y
mavavilj

0

Saya kira jawabannya adalah menemukan rata-rata data, yang akan menjadi lambda dari proses Poisson. Mengingat data datang dalam tabel frekuensi, cari nilai yang diharapkan / rata-rata tertimbang, yang seperti dijelaskan di atas, sama dengan rata-rata aritmatika dari data mentah.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.