Saya akan mencoba jawaban, bahkan jika saya tidak sepenuhnya jelas tentang situasinya. Formula harus disesuaikan! Masalah estimasiNdalam distribusi binomial sudah tua, dan ada beberapa makalah yang relevan. Saya akan memberikan beberapa referensi di bagian akhir.
Biarkanlah terjadi begitu R daerah (dalam contoh OP R=2), dengan Tsampel (dari interval waktu terpisah panjang yang sama) dari masing-masing daerah. Variabel yang diamati adalahxit yang merupakan variabel acak binomial independen, masing-masing dengan distribusi Bin(Ni,p)keduanya tidak diketahui. Fungsi log-likelihood menjadi
ℓ(Ni,p)=∑ln(Nixit)+lnp⋅∑xit+ln(1−p)⋅∑(Ni−xit)
Perhatikan bahwa, dalam masalah yang biasa ketika Ni hanya dikenal begitu saja p tidak diketahui, maka jumlah (atau rata-rata) dari jumlah binomial xitadalah ringkasan yang memadai, sehingga analisis dapat dilakukan dalam hal distribusi binomial dari jumlah tersebut. Namun, dalam masalah kami, karena istilah pertama dalam fungsi log-likelihood, tidak demikian halnya, dan kemungkinan log tergantung pada masing-masing penghitungan secara individual! Jadi apa yang Anda usulkan, untuk mengurangi jumlah hitungan (lebihi), TIDAK HARUS DILAKUKAN, karena itu akan kehilangan informasi (berapa banyak, saya tidak tahu, tetapi itu bisa diselidiki ...). Mari kita mencoba memahami ini sedikit lebih baik. Pertama, kita lihat di bawah itumaxt(xit)adalah penaksir konsisten , tetapi penaksir konsisten ini bukan fungsi dari jumlah yang dijumlahkan. Itu adalah satu indikasi yang jelas bahwa penjumlahan kehilangan informasi! Perhatikan juga bahwa mean adalah penaksir yang tidak bias dari ekspektasinya yaitu , tetapi tampaknya tidak menyimpan informasi tentang dan individual, ketika tidak ada yang diketahui tentang parameter lainnya. Itu menunjukkan bahwa jika ada informasi berguna tentang di fungsi kemungkinan, itu harus terkandung dalam penyebaran nilaiNiNipNipNixi1…,xiT, sekali lagi menunjukkan bahwa penjumlahan itu buruk. Makalah Olkin et al yang dirujuk di bawah ini menunjukkan memang bahwa penaksir metode-momen dalam banyak kasus lebih baik daripada kemungkinan maksimum! dan yang menggunakan varian empiris dari , jadi tidak dapat dihitung dari data yang dijumlahkan.xi1…,xiT
Masalah ini diketahui tidak stabil. Mari kita coba mengerti alasannya. Dalam masalah yang biasa, memperkirakan ketika diketahui, estimasi dapat dilakukan dari beberapa karakteristik kotor data, rerata. Saat mencoba memperkirakan dan , kami menggunakan properti yang jauh lebih bagus dari fungsi log-likelihood (dari data). Untuk melihat alasannya, ingatlah bahwa kita dapat memperoleh distribusi Poisson sebagai batas binomial ketika pergi ke nol dan tumbuh tanpa batas, dengan produk positif yang konstan. Jadi, jika kecil danpNiNippNpNbesar, distribusi binomial akan cukup dekat dengan batas itu. Ambil dua kasus: (A) , (B) . Gambar histogram untuk dua distribusi (binomial):N=100,p=0.01N=20,p=0.05
> zapsmall(cbind(0:20,pA,pB))
pA pB
[1,] 0 0.366032 0.358486
[2,] 1 0.369730 0.377354
[3,] 2 0.184865 0.188677
[4,] 3 0.060999 0.059582
[5,] 4 0.014942 0.013328
[6,] 5 0.002898 0.002245
[7,] 6 0.000463 0.000295
[8,] 7 0.000063 0.000031
[9,] 8 0.000007 0.000003
[10,] 9 0.000001 0.000000
[11,] 10 0.000000 0.000000
[12,] 11 0.000000 0.000000
[13,] 12 0.000000 0.000000
[14,] 13 0.000000 0.000000
[15,] 14 0.000000 0.000000
[16,] 15 0.000000 0.000000
[17,] 16 0.000000 0.000000
[18,] 17 0.000000 0.000000
[19,] 18 0.000000 0.000000
[20,] 19 0.000000 0.000000
[21,] 20 0.000000 0.000000
Di atas tabel probabilitas ini. Untuk mendeteksi dari data yang diamati yang mana dari dua distribusi yang dimiliki, adalah yang diperlukan untuk memutuskan, dalam hal ini, jika atau jika . Ini jelas sangat sulit, dan ketidakstabilan penduga yang dihasilkan hanya bisa diharapkan. Contoh ini juga menunjukkan bahwa ketidakstabilan terutama untuk kecil . Anda mengatakan Anda mengharapkan sekitar 0,7, jadi masalahnya mungkin lebih stabil. Anda bisa menyelidiki itu untuk data Anda dengan menemukan estimator kemungkinan maksimum sebagai fungsi dari diketahui , dan merencanakannya untukN=100N=20ppppdalam beberapa interval kepercayaan. Atau Anda bisa menjadi bayes penuh, ini adalah kasus di mana bahkan beberapa informasi sebelumnya yang agak kabur dapat membantu.
Parameternya memang dapat diperkirakan. Jelas bahwa , sehingga memungkinkan untuk menggunakan count maksimal sebagai estimator dari . Penduga itu akan sangat konsisten, dan parameter dengan penduga yang konsisten harus dapat diperkirakan. Tetapi, seperti yang ditunjukkan contoh di atas, perkiraan tersebut hampir merupakan formalitas; dalam praktiknya distribusi dengan sangat berbeda sangat dekat, sehingga sangat lemah diperkirakan.Ni≥maxt(xit)NNN
Saya tidak akan memberikan detail metode estimasi di sini, tetapi memberikan beberapa referensi yang dapat Anda periksa:
Ingram Olkin, A John Petkau, James V Zidek: Perbandingan N estimator untuk Distribusi Binomial. JASA 1981. Ini adalah makalah klasik yang mengembangkan dan menganalisis estimasi ML dan momen, dan beberapa varian yang lebih stabil. Hal ini juga menunjukkan, yang menarik, bahwa dalam banyak kasus, estimator metode momen lebih baik daripada estimator ML!
Raymond J Carrol dan F Lombard: Catatan tentang N estimator untuk distribusi binomial. JASA 1985.
Mengembangkan penaksir alternatif, lebih stabil & mungkin lebih baik, berdasarkan pada mengintegrasikan dari kemungkinan. Juga mencatat kurangnya kecukupan jumlah yang dijumlahkan.p
J Andrew Royle: N_Mixture Model untuk Memperkirakan Ukuran Populasi dari Jumlah yang Direplikasi secara Spasial. Biometrics, 2004. Ini memberikan alternatif lain, pendekatan Bayesian yang dapat Anda coba.
Kembali ke pertanyaan konkret Anda. Anda TIDAK HARUS menjumlahkan penghitungan di dua wilayah Anda! Itu akan kehilangan informasi. Jika Anda memperkenalkan maka fungsi log-likelihood dapat ditulis sebagai fungsi , dan (atau ). Maka parameter tambahan harus dihilangkan dengan beberapa prosedur. Saya akan kembali ke sana, tetapi tidak ada waktu! N=N1+N2NpN1N2N1