Mengapa mereka memilih distribusi gamma di sini?

Dalam salah satu latihan untuk kursus saya, kami menggunakan dataset medis Kaggle .

Latihan ini mengatakan:

kami ingin memodelkan distribusi biaya individual dan kami juga benar-benar ingin dapat menangkap ketidakpastian kami tentang distribusi tersebut sehingga kami dapat lebih menangkap kisaran nilai yang mungkin kami lihat. Memuat data dan melakukan tampilan awal:

Kami mungkin curiga dari atas bahwa ada semacam distribusi eksponensial yang dimainkan di sini. ... Biaya klaim asuransi mungkin multimodal. Distribusi gamma mungkin berlaku dan kami dapat menguji ini untuk distribusi biaya yang bukan merupakan klaim asuransi.

Saya mencari "distribusi Gamma" dan menemukan "distribusi unimodal yang berkesinambungan, hanya positif, yang mengkodekan waktu yang diperlukan untuk peristiwa« alpha »untuk terjadi dalam proses Poisson dengan waktu kedatangan rata-rata« beta »"

Tidak ada waktu terlibat di sini, hanya tuduhan yang tidak terkait, baik diasuransikan atau tidak.

Mengapa mereka memilih distribusi gamma?

gamma-distribution

— Vicki B
sumber

Ketika Anda mempertimbangkan model parametrik sederhana untuk distribusi data bersyarat (yaitu distribusi masing-masing kelompok, atau distribusi yang diharapkan untuk setiap kombinasi variabel prediktor), dan Anda berurusan dengan distribusi kontinu positif , dua pilihan umum adalah Gamma dan log-Normal . Selain memenuhi spesifikasi domain distribusi (bilangan real lebih besar dari nol), distribusi ini nyaman secara komputasi dan sering masuk akal secara mekanistik.

The log-normal distribusi mudah diperoleh exponentiating distribusi Normal (sebaliknya, log-mengubah menyimpang log-normal memberikan menyimpang Normal). Dari sudut pandang mekanistik, log-Normal muncul melalui Central Limit Theorem ketika setiap pengamatan mencerminkan produk dari sejumlah besar variabel acak iid. Setelah log-transformed data, Anda memiliki akses ke berbagai macam alat komputasi dan analitik (misalnya, apa pun dengan asumsi Normality atau menggunakan metode kuadrat-terkecil).
$n$ $\lambda$ tersedia; ini juga memiliki bentuk analisis yang nyaman.

Ada alasan lain yang mungkin dipilih satu atau yang lain - misalnya, "bobot" ekor distribusi , yang mungkin penting dalam memprediksi frekuensi kejadian ekstrem. Ada banyak distribusi positif dan berkesinambungan lainnya (mis. Lihat daftar ini ), tetapi mereka cenderung digunakan dalam aplikasi yang lebih khusus.

Sangat sedikit dari distribusi ini akan menangkap multi-modalitas yang Anda lihat dalam distribusi marginal di atas, tetapi multi-modalitas dapat dijelaskan oleh data yang dikelompokkan ke dalam kategori yang dijelaskan oleh prediktor kategori yang diamati. Jika tidak ada prediktor yang dapat diamati yang menjelaskan multimodalitas, orang mungkin memilih untuk menyesuaikan model campuran hingga berdasarkan pada campuran sejumlah (kecil, diskrit) distribusi positif kontinu.

— Ben Bolker
sumber

juga patut dicatat bahwa model gamma dan lognormal memberikan hasil yang hampir selalu sangat mirip

— carlo

Saya bekerja dalam penelitian layanan kesehatan. Saya dapat mengkonfirmasi bahwa secara umum, distribusi gamma atau lognormal akan menjadi pilihan yang tepat untuk model pengeluaran perawatan kesehatan atau jumlah klaim. Distribusi gamma dapat digunakan pada waktu ke model acara, tetapi mereka tidak berlaku di sini.

— Weiwen Ng

Terima kasih!! Ini sangat membantu.

— Vicki B