Penduga kepadatan kernel adaptif?

Adakah yang bisa melaporkan pengalaman mereka dengan penaksir kepadatan kernel adaptif?
(Ada banyak sinonim: adaptif | variabel | lebar variabel, KDE | histogram | interpolator ...)

Estimasi kepadatan kernel variabel mengatakan "kami memvariasikan lebar kernel di berbagai daerah ruang sampel. Ada dua metode ..." sebenarnya, lebih: tetangga dalam beberapa radius, KNN tetangga terdekat (K biasanya diperbaiki), pohon Kd, multigrid ...
Tentu saja tidak ada metode tunggal yang dapat melakukan segalanya, tetapi metode adaptif terlihat menarik.
Lihat misalnya gambar yang bagus dari mesh 2d adaptif dalam metode elemen hingga .

Saya ingin mendengar apa yang berhasil / apa yang tidak berfungsi untuk data nyata, terutama> = 100rb titik data yang tersebar di 2d atau 3d.

Ditambahkan 2 Nov: inilah plot kepadatan "clumpy" (secara berurutan x ^ 2 * y ^ 2), perkiraan tetangga terdekat, dan Gaussian KDE dengan faktor Scott. Sementara satu (1) contoh tidak membuktikan apa-apa, itu menunjukkan bahwa NN dapat memuat bukit tajam dengan cukup baik (dan, menggunakan pohon KD, cepat dalam 2d, 3d ...) teks alternatif

kde k-nearest-neighbour

— denis
sumber

Dapatkah Anda memberikan sedikit lebih banyak konteks tentang apa yang Anda maksud dengan "apa yang berhasil" atau tujuan tertentu dari proyek Anda. Saya telah menggunakannya untuk memvisualisasikan proses titik spasial tetapi saya ragu itulah yang ada dalam pikiran Anda ketika mengajukan pertanyaan ini.

— Andy W

Jawaban:

$n\leq 450$ $n$ $p\geq 4$ $p$ adalah jumlah dimensi) sebagai pengaturan di mana metode kernel variabel menjadi kompetitif dengan yang lebar tetap (menilai dari pertanyaan Anda, Anda tidak dalam pengaturan ini).

Intuisi di balik hasil ini adalah bahwa jika Anda tidak dalam pengaturan yang sangat jarang, maka, kepadatan lokal tidak cukup bervariasi untuk mendapatkan bias untuk mengalahkan kerugian dalam efisiensi (dan karenanya AMISE kernel lebar variabel meningkat relatif terhadap AMISE dengan lebar tetap). Juga, mengingat ukuran sampel besar yang Anda miliki (dan dimensi kecil) kernel dengan lebar tetap sudah sangat lokal, mengurangi setiap potensi keuntungan dalam hal bias.

— pengguna603
sumber

Terima kasih Kwak. "... untuk variabel acak terdistribusi Gaussian"; apakah Anda tahu pekerjaan yang lebih baru untuk distribusi "clumpy"?

— denis

@Denis:> 'Clumpy' =? Terkonsentrasi =? Dengan ekor yang lebih sempit daripada gaussian?

— user603

Saya bukan ahli, tetapi seperti "data set clumpiness" di koran Lang et al., "Wawasan tentang algoritma Estimasi Densitas Kernel cepat", 2004, 8p

— denis

@Denis:> saya akan mengatakan itu membuat masalah menjadi lebih buruk (mis. NN kernel harus bekerja lebih baik pada data yang kurang rata). Saya memiliki penjelasan intuitif tetapi tidak cocok di sini, ditambah Anda mungkin ingin menanyakan ini di papan utama sebagai pertanyaan terpisah (menghubungkan ke yang ini) untuk memiliki pendapat tambahan.

— user603

Kertas

Maxim V. Shapovalov, Roland L. Dunbrack Jr., Perpustakaan Rotamer Bertulang Back-Dependent untuk Protein Berasal dari Perkiraan dan Regresi Kepadatan Kernel Adaptif, Struktur, Volume 19, Edisi 6, 8 Juni 2011, Halaman 844-858, ISSN 0969- 2126, 10.1016 / j.str.2011.03.019.

menggunakan estimasi kepadatan kernel adaptif untuk membuat estimasi kepadatannya halus di wilayah di mana data jarang.

— momeara
sumber

-1

Loess / lowess pada dasarnya adalah metode variabel KDE, dengan lebar kernel diatur oleh pendekatan tetangga terdekat. Saya telah menemukan bahwa itu bekerja dengan cukup baik, tentu jauh lebih baik daripada model lebar tetap ketika kepadatan titik data sangat bervariasi.

Satu hal yang perlu diperhatikan dengan KDE dan data multi dimensi adalah kutukan dimensi. Hal-hal lain dianggap sama, ada jauh lebih sedikit titik dalam radius yang ditetapkan ketika p ~ 10, daripada ketika p ~ 2. Ini mungkin tidak menjadi masalah bagi Anda jika Anda hanya memiliki data 3d, tetapi itu sesuatu yang perlu diingat.

— Hong Ooi
sumber

Loess adalah metode REGRESI kernel variabel. Pertanyaan yang diajukan tentang estimasi DENSITY kernel variabel.

— Rob Hyndman

Ups, Anda benar. Salah membaca pertanyaan.

— Hong Ooi

@Rob, maafkan pertanyaan naif saya: jika lebar kernel yang bervariasi (kadang-kadang) baik untuk regresi lokal / pemulusan Kernel, mengapa buruk untuk estimasi kepadatan? Bukankah estimasi kepadatan merupakan kasus estimasi f () untuk f () == density ()?

— denis

@ Hai Ooi, berapa banyak poin dalam Ndim apa yang telah Anda gunakan? Terima kasih

— denis

@Denis. Pertanyaan yang bagus Bisakah Anda menambahkannya sebagai pertanyaan yang tepat di situs dan kami akan melihat jawaban apa yang dapat diajukan orang.

— Rob Hyndman