Dalam salah satu latihan untuk kursus saya, kami menggunakan dataset medis Kaggle .
Latihan ini mengatakan:
kami ingin memodelkan distribusi biaya individual dan kami juga benar-benar ingin dapat menangkap ketidakpastian kami tentang distribusi tersebut sehingga kami dapat lebih menangkap kisaran nilai yang mungkin kami lihat. Memuat data dan melakukan tampilan awal:
Kami mungkin curiga dari atas bahwa ada semacam distribusi eksponensial yang dimainkan di sini. ... Biaya klaim asuransi mungkin multimodal. Distribusi gamma mungkin berlaku dan kami dapat menguji ini untuk distribusi biaya yang bukan merupakan klaim asuransi.
Saya mencari "distribusi Gamma" dan menemukan "distribusi unimodal yang berkesinambungan, hanya positif, yang mengkodekan waktu yang diperlukan untuk peristiwa« alpha »untuk terjadi dalam proses Poisson dengan waktu kedatangan rata-rata« beta »"
Tidak ada waktu terlibat di sini, hanya tuduhan yang tidak terkait, baik diasuransikan atau tidak.
Mengapa mereka memilih distribusi gamma?