Estimasi kepadatan dengan distribusi terpotong?


8

Saya punya beberapa data yang jelas terpotong di sebelah kiri. Saya ingin mencocokkannya dengan estimasi kepadatan yang akan menanganinya dalam beberapa cara alih-alih mencoba memuluskannya.

Metode apa yang diketahui (seperti biasa, dalam R) yang dapat mengatasi ini?

Kode sampel:

set.seed(1341)
x <- c(runif(30, 0, 0.01), rnorm(100,3))
hist(x, br = 10, freq = F)
lines(density(x), col = 3, lwd = 3)

masukkan deskripsi gambar di sini

Terima kasih :)


6
Ini adalah contoh yang bagus dari sesuatu yang kadang-kadang disebut "delta lognormal distribution" (di mana sumbu x ditafsirkan sebagai logaritma). Anda dapat menganggapnya sebagai campuran dari satu distribusi kontinu (yang terlihat hampir Normal - tetapi identifikasi yang tepat terserah Anda) dan distribusi titik didukung di dekat 0. Model campuran harus melakukan pekerjaan dengan baik. Dalam kasus khusus ini, pemisahan antara atom dekat 0 dan sisa data sangat baik sehingga Anda akan cukup hanya menghapus data di sebelah kiri (kurang dari 0,5) dan memperkirakan kepadatan sisanya.
whuber

2
Dalam beberapa konteks, sesuatu seperti ini mungkin disebut distribusi Tweedie , dalam kasus yang membantu ketika Anda menjelajahi ini.
kardinal

Kardinal - terima kasih untuk referensi! Whuber, saya lebih tertarik pada bagian 0 dekat, jadi jawaban Greg di bawah ini bagus. Terima kasih semuanya.
Tal Galili

Jawaban:


6

Paket logspline untuk R memiliki fungsi oldlogspline yang akan memperkirakan kepadatan menggunakan campuran data yang diamati dan disensor.


5

Fungsi kerapatan juga memiliki fromparameter untuk menunjukkan sisi paling kiri "dari grid di mana kerapatan diperkirakan". Melanjutkan dari contoh di atas:

lines(density(x, from = 0), col = 4, lwd = 3)

Namun, seperti yang Anda lihat, distribusi ini persis sama tanpa fromparameter seperti di atas. Itu baru dimulai dari 0, itu saja.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.