Penduga kepadatan kernel adaptif?


12

Adakah yang bisa melaporkan pengalaman mereka dengan penaksir kepadatan kernel adaptif?
(Ada banyak sinonim: adaptif | variabel | lebar variabel, KDE | histogram | interpolator ...)

Estimasi kepadatan kernel variabel mengatakan "kami memvariasikan lebar kernel di berbagai daerah ruang sampel. Ada dua metode ..." sebenarnya, lebih: tetangga dalam beberapa radius, KNN tetangga terdekat (K biasanya diperbaiki), pohon Kd, multigrid ...
Tentu saja tidak ada metode tunggal yang dapat melakukan segalanya, tetapi metode adaptif terlihat menarik.
Lihat misalnya gambar yang bagus dari mesh 2d adaptif dalam metode elemen hingga .

Saya ingin mendengar apa yang berhasil / apa yang tidak berfungsi untuk data nyata, terutama> = 100rb titik data yang tersebar di 2d atau 3d.

Ditambahkan 2 Nov: inilah plot kepadatan "clumpy" (secara berurutan x ^ 2 * y ^ 2), perkiraan tetangga terdekat, dan Gaussian KDE dengan faktor Scott. Sementara satu (1) contoh tidak membuktikan apa-apa, itu menunjukkan bahwa NN dapat memuat bukit tajam dengan cukup baik (dan, menggunakan pohon KD, cepat dalam 2d, 3d ...) teks alternatif


Dapatkah Anda memberikan sedikit lebih banyak konteks tentang apa yang Anda maksud dengan "apa yang berhasil" atau tujuan tertentu dari proyek Anda. Saya telah menggunakannya untuk memvisualisasikan proses titik spasial tetapi saya ragu itulah yang ada dalam pikiran Anda ketika mengajukan pertanyaan ini.
Andy W

Jawaban:


7

n450np4p adalah jumlah dimensi) sebagai pengaturan di mana metode kernel variabel menjadi kompetitif dengan yang lebar tetap (menilai dari pertanyaan Anda, Anda tidak dalam pengaturan ini).

Intuisi di balik hasil ini adalah bahwa jika Anda tidak dalam pengaturan yang sangat jarang, maka, kepadatan lokal tidak cukup bervariasi untuk mendapatkan bias untuk mengalahkan kerugian dalam efisiensi (dan karenanya AMISE kernel lebar variabel meningkat relatif terhadap AMISE dengan lebar tetap). Juga, mengingat ukuran sampel besar yang Anda miliki (dan dimensi kecil) kernel dengan lebar tetap sudah sangat lokal, mengurangi setiap potensi keuntungan dalam hal bias.


Terima kasih Kwak. "... untuk variabel acak terdistribusi Gaussian"; apakah Anda tahu pekerjaan yang lebih baru untuk distribusi "clumpy"?
denis

@Denis:> 'Clumpy' =? Terkonsentrasi =? Dengan ekor yang lebih sempit daripada gaussian?
user603

Saya bukan ahli, tetapi seperti "data set clumpiness" di koran Lang et al., "Wawasan tentang algoritma Estimasi Densitas Kernel cepat", 2004, 8p
denis

@Denis:> saya akan mengatakan itu membuat masalah menjadi lebih buruk (mis. NN kernel harus bekerja lebih baik pada data yang kurang rata). Saya memiliki penjelasan intuitif tetapi tidak cocok di sini, ditambah Anda mungkin ingin menanyakan ini di papan utama sebagai pertanyaan terpisah (menghubungkan ke yang ini) untuk memiliki pendapat tambahan.
user603


-1

Loess / lowess pada dasarnya adalah metode variabel KDE, dengan lebar kernel diatur oleh pendekatan tetangga terdekat. Saya telah menemukan bahwa itu bekerja dengan cukup baik, tentu jauh lebih baik daripada model lebar tetap ketika kepadatan titik data sangat bervariasi.

Satu hal yang perlu diperhatikan dengan KDE dan data multi dimensi adalah kutukan dimensi. Hal-hal lain dianggap sama, ada jauh lebih sedikit titik dalam radius yang ditetapkan ketika p ~ 10, daripada ketika p ~ 2. Ini mungkin tidak menjadi masalah bagi Anda jika Anda hanya memiliki data 3d, tetapi itu sesuatu yang perlu diingat.


3
Loess adalah metode REGRESI kernel variabel. Pertanyaan yang diajukan tentang estimasi DENSITY kernel variabel.
Rob Hyndman

Ups, Anda benar. Salah membaca pertanyaan.
Hong Ooi

@Rob, maafkan pertanyaan naif saya: jika lebar kernel yang bervariasi (kadang-kadang) baik untuk regresi lokal / pemulusan Kernel, mengapa buruk untuk estimasi kepadatan? Bukankah estimasi kepadatan merupakan kasus estimasi f () untuk f () == density ()?
denis

@ Hai Ooi, berapa banyak poin dalam Ndim apa yang telah Anda gunakan? Terima kasih
denis

@Denis. Pertanyaan yang bagus Bisakah Anda menambahkannya sebagai pertanyaan yang tepat di situs dan kami akan melihat jawaban apa yang dapat diajukan orang.
Rob Hyndman
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.