Estimator untuk tingkat kejadian

Saat sedang menjalani kursus statistik untuk mahasiswa kedokteran, saya mengalami masalah terkait dengan angka kejadian. Konteks masalah adalah bab tentang distribusi Poisson. Dalam masalah ini, 2.300 perokok diikuti selama rentang 1 tahun di mana 24 di antaranya mengembangkan kanker paru-paru. Mereka kemudian ingin menghitung tingkat kejadian proses dan melanjutkan sebagai berikut:

Incidence rate = \frac{24}{2300 - 24 / 2}

$\text{Incidence rate} = \frac{24}{2300-24/2}$

Pada awalnya, saya tidak mengerti mengapa mereka dikurangi $24/2$ , tapi saya berasumsi itu adalah beberapa koreksi untuk fakta bahwa karena 24 orang tersebut menderita kanker selama tahun tersebut, waktu mereka yang berisiko lebih pendek daripada mereka yang tidak mengembangkan penyakit. Tidak ada informasi lebih lanjut yang diberikan dalam buku teks itu sendiri, setidaknya tidak dalam masalah. Pencarian cepat mengkonfirmasi bahwa saya berpikir di jalur yang benar.

Tapi saya masih tidak mengerti alasan untuk formula itu. Bisakah seseorang mencerahkan saya? Juga, jika beberapa referensi yang dapat diakses oleh mahasiswa kedokteran dapat diberikan. Saya tidak keberatan memiliki referensi yang lebih teknis juga.

poisson-distribution epidemiology

— Raskolnikov
sumber

Saya tidak sepenuhnya memahami pertanyaan Anda - dapatkah Anda menyempurnakannya? Angka kejadian hanya itu, angka, dan dengan demikian memiliki waktu-orang "diekspos" dalam penyebut. Anda benar tentang 24/2, yang mencerminkan asumsi bahwa orang yang mengembangkan kanker paru-paru melakukannya pada titik tengah interval, dan dengan demikian menyensornya pada 6 bulan. Sebaliknya, Anda dapat memperkirakan rasio prevalensi (24/2300), tetapi prevalensi adalah fungsi dari insiden dan durasi penyakit, sehingga kurang bermanfaat jika Anda tertarik untuk mengidentifikasi penyebab penyakit.

— DL Dahly

Tetapi mengapa asumsi ini baik-baik saja?

— Raskolnikov

Hanya karena itu asumsi yang lebih baik daripada menyensor pada 3 atau 9 bulan, misalnya. Kecuali jika Anda memiliki semacam efek musiman, atau sesuatu yang serupa, tebakan terbaik Anda adalah titik tengah interval. Satu-satunya cara untuk memperbaiki ini adalah dengan mengumpulkan data Anda pada resolusi temporal yang lebih tinggi.

— DL Dahly

Jawaban:

Saya mengusulkan pemodelan kejadian kanker sebagai proses Poisson. Berbagai kejadian (penampakan tumor) dimungkinkan dalam individu yang sama selama periode pengamatan. Jika $\lambda$ adalah tingkat penampilan tumor menurut tahun, probabilitas 0 kejadian adalah $e^{-\lambda}$ , dan probabilitas 1 peristiwa atau lebih adalah $p=1-e^{-\lambda}$ .

Kamu ikuti $n$ individu selama setahun. Jumlah individu dengan 1 acara atau lebih adalah $X \sim \mathrm{Bin}(n,p)$ . Jumlah yang diharapkan adalah $E(X) = np = n(1-e^{-\lambda})$ .

Sekarang kamu amati $x$ acara dan ingin memperkirakan $\lambda$ . Estimasi pertama $\hat p = {x\over n}$ , kemudian $\hat \lambda = - \log\left(1 - {x \over n}\right) \approx {x\over n} + {x^2 \over 2 n^2}$ . Dengan invarian penaksir kemungkinan maksimum, $\hat \lambda$ adalah MLE dari $\lambda$ .

Estimator Anda adalah ${ x/n \over 1 - x/2n} \approx {x\over n} + {x^2 \over 2 n^2}$ . Perbedaan antara kedua penaksir adalah tentang $x^3/6n^3$ , yang sangat kecil jika $x/n$ kecil. Saya kira ini memberikan beberapa pembenaran, bahkan jika beberapa pemodelan lain mungkin dapat mengarah langsung ke estimator Anda.

— Elvis
sumber

@Raskolnikov dan Elvis (+1), perhatikan juga bahwa fraksi lanjutan standar untuk

- \log (1 - z)

$-\log(1-z)$ terpotong pada hasil konvergen kedua

- \log (1 - z) \approx z / (1 - z / 2)

$-\log(1-z) \approx z/(1-z/2)$ dan perkiraan ini selalu lebih baik daripada ekspansi deret Taylor orde kedua untuk kisaran

z

$z$ bunga.

— kardinal

Sebenarnya, saya membuat pernyataan yang sama tetapi membuat kesalahan dengan menyamakan

p

$p$ dengan

e^{- λ}

$e^{-\lambda}$ . Itu sebabnya saya tidak dapat menemukan tautan dengan penaksir lainnya.

— Raskolnikov

@Raskolnikov Saya berterima kasih atas pertanyaan yang bagus ini yang mengarah pada latihan yang bagus untuk murid-murid saya;) pseudo yang bagus juga

— Elvis

@ kardinal dan edisi bagus!

— Elvis

Dengan asumsi diagnosa kanker tersebar secara seragam sepanjang tahun, orang-orang yang didiagnosis terkena risiko didiagnosis (rata-rata) setengah tahun sebelum diagnosis itu.

Tautan Anda menyebutkan asumsi kejadian pada titik setengah jalan pada periode pengamatan tetapi tidak dari mana asalnya - yang hanya merupakan asumsi keseragaman. Asumsi ini tidak selalu masuk akal, dan ada kalanya hal itu dapat membuat perbedaan substantif. Saya akan merekomendasikan untuk mengetahui asumsi setiap kali Anda menggunakan formula, karena Anda harus mempertimbangkan kesesuaiannya dan jika itu tidak cocok, apakah itu cenderung memiliki dampak substantif pada estimasi (dalam hal ini, asumsi yang lebih baik tentang kejadian harus diselidiki)

— Glen_b -Reinstate Monica
sumber

Jadi, hanya itu yang ada untuk itu? Asumsi keseragaman? Tetapi mengapa keseragaman diagnosis menjadi masalah? Mengapa tidak kemungkinan tertular penyakit, yang saya asumsikan akan lebih mungkin didistribusikan Poisson (setidaknya sebagai model nol)?

— Raskolnikov

Asumsi keseragaman adalah asalnya, jadi ya, itu saja; dengan tidak adanya informasi lain (dan kadang-kadang bahkan di hadapannya) itu adalah asumsi umum dalam menghitung paparan risiko. Adapun sedikit tentang diagnosis, saya mengasumsikan data pada diagnosis, bukan kejadian, karena kami tidak mengamati kejadian yang tidak terdiagnosis - apa pun yang dianalisis adalah asumsi yang perlu diterapkan.

— Glen_b -Reinstate Monica

Untuk lebih eksplisit, tautan Anda menyebutkan rumus tersebut berasal dari 'metode aktuaria'. Materi aktuaria yang relevan adalah elemen-elemen yang terpapar pada risiko yang cukup standar dalam setiap silabus aktuaria yang saya ketahui. Asumsi spesifik tentang keseragaman bukanlah sesuatu yang baru saja saya buat, itu sangat eksplisit dalam pelatihan aktuaria. Anda bertanya dari mana asalnya; tautannya menyebutkan metode aktuaria; yang pada gilirannya muncul dari pendekatan aktuaria standar untuk terpapar risiko.

— Glen_b -Reinstate Monica