Estimasi kepadatan kernel menggabungkan ketidakpastian


12

Ketika memvisualisasikan data satu dimensi, sudah biasa menggunakan teknik Kernel Density Estimation untuk menjelaskan lebar bin yang dipilih secara tidak tepat.

Ketika dataset satu dimensi saya memiliki ketidakpastian pengukuran, apakah ada cara standar untuk memasukkan informasi ini?

Misalnya (dan maafkan saya jika pemahaman saya naif) KDE menggabungkan profil Gaussian dengan fungsi delta pengamatan. Kernel Gaussian ini dibagi antara masing-masing lokasi, tetapi parameter Gaussian dapat bervariasi agar sesuai dengan ketidakpastian pengukuran. Apakah ada cara standar untuk melakukan ini? Saya berharap untuk mencerminkan nilai yang tidak pasti dengan kernel yang luas.σ

Saya sudah menerapkan ini hanya dengan Python, tapi saya tidak tahu metode atau fungsi standar untuk melakukan ini. Apakah ada masalah dalam teknik ini? Saya perhatikan bahwa ini memberikan beberapa grafik yang tampak aneh! Sebagai contoh

Perbandingan KDE

Dalam hal ini nilai-nilai rendah memiliki ketidakpastian yang lebih besar sehingga cenderung memberikan kernel datar yang luas, sedangkan KDE menimbang-nimbang nilai-nilai rendah (dan tidak pasti).


Apakah Anda mengatakan kurva merah adalah gaussians lebar variabel dan kurva hijau adalah jumlah mereka? (Itu tidak terlihat masuk akal dari grafik ini.)
whuber

Tahukah Anda apa kesalahan pengukuran untuk setiap pengamatan?
Aksakal

@whuber kurva merah adalah variabel lebar gaussians dan kurva biru adalah jumlah mereka. Kurva hijau adalah KDE dengan lebar konstan, maaf untuk kebingungan
Simon Walker

@Aksakal ya, setiap pengukuran memiliki ketidakpastian yang berbeda
Simon Walker

Masalah sampingan, tapi itu bukan definisi estimasi kepadatan kernel yang Anda gunakan kernel Gaussian. Anda dapat menggunakan kernel apa pun yang Anda sukai untuk diintegrasikan ke 1, meskipun beberapa kernel lebih masuk akal atau berguna daripada yang lain ....
Nick Cox

Jawaban:


6

Masuk akal untuk memvariasikan lebar, tetapi tidak harus mencocokkan lebar kernel dengan ketidakpastian.

Pertimbangkan tujuan bandwidth ketika berhadapan dengan variabel acak di mana pengamatan pada dasarnya tidak memiliki ketidakpastian (yaitu di mana Anda dapat mengamati mereka cukup dekat dengan tepat) - meskipun demikian, kde tidak akan menggunakan nol bandwidth, karena bandwidth berhubungan dengan variabilitas dalam distribusi, daripada ketidakpastian dalam pengamatan (yaitu variasi antara pengamatan, bukan ketidakpastian dalam pengamatan).

Apa yang Anda miliki pada dasarnya adalah sumber variasi tambahan (atas kasus 'tidak ada pengamatan-ketidakpastian') yang berbeda untuk setiap pengamatan.

σi

Cara alternatif untuk melihat masalah adalah dengan memperlakukan setiap pengamatan sebagai kernel kecil (seperti yang Anda lakukan, yang akan mewakili di mana pengamatan mungkin dilakukan), tetapi menggabungkan kernel (kde-) biasa (biasanya lebar tetap, tetapi tidak harus) dengan kernel observasi-ketidakpastian dan kemudian melakukan estimasi kepadatan gabungan. (Saya percaya itu sebenarnya hasil yang sama dengan apa yang saya sarankan di atas.)


2

Saya akan menerapkan penaksir kerapatan kernel bandwidth variabel, mis. Pemilih bandwidth lokal untuk makalah pendugaan kerapatan kernel dekonvolusi mencoba membangun jendela adaptif KDE ketika distribusi kesalahan pengukuran diketahui. Anda menyatakan bahwa Anda mengetahui varians kesalahan, jadi pendekatan ini harus berlaku dalam kasus Anda. Berikut ini makalah lain tentang pendekatan serupa dengan sampel yang terkontaminasi: PEMILIHAN BOOTSTRAP BANDWIDTH DI ESTIMASI DENSITAS KERNEL DARI SAMPEL TERTAMINASI


Tautan pertama Anda membawa saya ke ms.unimelb.edu.au , Ini bukan korannya. Saya pikir maksud Anda link.springer.com/article/10.1007/s11222-011-9247-y
Adi Ro

Solusi ini terlihat hebat! Anda tahu kode pelaksana ini?
Adi Ro

@AdiRo, saya memperbaiki tautan yang rusak. Saya tidak punya kode
Aksakal

0

Anda mungkin ingin membaca bab 6 dalam "Estimasi Kepadatan Multivariat: Teori, Praktik, dan Visualisasi" oleh David W. Scott, 1992, Wiley.

h=(4/3)1/5σn1/5(6.17)
σnhσ

f^(x)=1nhi=1nK(xxih)
K()

0

Sebenarnya, saya pikir metode yang Anda usulkan disebut Probability Density Plot (PDP) seperti yang digunakan dalam Geo-science secara luas, lihat sebuah makalah di sini: https://www.sciencedirect.com/science/article/pii/S0009254112001878

Namun, ada kekurangan seperti yang disebutkan dalam makalah di atas. Seperti jika kesalahan yang diukur kecil, akan ada lonjakan dalam PDF yang Anda dapatkan pada akhirnya. Tetapi kita juga dapat memuluskan PDP seperti cara KDE, seperti yang disebutkan @ Glen_b

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.