Di mana estimasi kepadatan berguna?

Setelah melalui beberapa matematika yang agak singkat, saya pikir saya memiliki sedikit intuisi estimasi kepadatan kernel. Tetapi saya juga sadar bahwa memperkirakan kepadatan multivariat untuk lebih dari tiga variabel mungkin bukan ide yang baik, dalam hal sifat statistik penduga.

Jadi, dalam situasi apa saya harus memperkirakan, katakanlah, kepadatan bivariat menggunakan metode non-parametrik? Apakah cukup layak untuk mulai khawatir tentang memperkirakannya untuk lebih dari dua variabel?

Jika Anda dapat menunjuk ke beberapa tautan bermanfaat tentang penerapan estimasi kepadatan multivarian, itu akan bagus.

— lovekesh
sumber

Jawaban:

Salah satu kasus khas untuk penerapan estimasi kepadatan adalah deteksi kebaruan, alias deteksi outlier, di mana idenya adalah bahwa Anda hanya (atau sebagian besar) memiliki data satu jenis, tetapi Anda tertarik pada data langka yang sangat langka dan kualitatif, yang menyimpang secara signifikan dari kasus-kasus umum.

Contohnya adalah deteksi penipuan, deteksi kegagalan dalam sistem, dan sebagainya. Ini adalah situasi di mana sangat sulit dan / atau mahal untuk mengumpulkan data dari jenis yang Anda minati. Kasus langka ini, yaitu kasus dengan probabilitas rendah terjadi.

Sebagian besar waktu Anda tidak tertarik untuk memperkirakan secara akurat distribusi yang tepat, tetapi pada peluang relatif (seberapa besar kemungkinan sampel yang diberikan menjadi pencilan aktual vs bukan menjadi satu).

Ada puluhan tutorial dan ulasan tentang topik tersebut. Ini salah satu mungkin salah satu yang baik untuk memulai dengan.

EDIT: bagi sebagian orang tampaknya aneh menggunakan estimasi kepadatan untuk deteksi outlier. Pertama-tama mari kita sepakat pada satu hal: ketika seseorang cocok a model campuran dengan datanya, ia sebenarnya melakukan estimasi kepadatan. Model campuran mewakili distribusi probabilitas.

kNN dan GMM sebenarnya terkait: mereka adalah dua metode untuk memperkirakan kepadatan probabilitas seperti itu. Ini adalah ide yang mendasari banyak pendekatan dalam deteksi kebaruan. Sebagai contoh, yang satu ini didasarkan pada kNNs, yang lain ini berdasarkan pada jendela Parzen (yang menekankan gagasan ini pada awal makalah ini), dan banyak lainnya .

Menurut saya (tetapi hanya persepsi pribadi saya) bahwa sebagian besar jika tidak semua bekerja pada ide ini. Bagaimana lagi yang akan Anda ungkapkan dalam ide tentang peristiwa aneh / langka?

— jpmuc
sumber

Catatan tersebut membuat Anda menguraikan (bagian 6, "pendekatan berbasis kepadatan") menguraikan beberapa pendekatan yang sangat esoteris (jauh dari aliran rata-rata dan literatur yang dikembangkan dengan tenang tentang subjek) untuk deteksi outlier. Tentunya, aplikasi yang lebih umum harus ada.

— user603

Maaf, saya tidak mengerti komentar Anda. Dua contoh yang sangat mendasar adalah kNN dan GMM. Dua metode ini memberikan perkiraan kepadatan probabilitas, dan dapat digunakan untuk kasus-kasus seperti itu.

— jpmuc

Terima kasih. apa itu GMM? Saya tidak berpikir kNN adalah pendekatan aliran rata-rata untuk deteksi outlier. Bisakah Anda merujuk ke buku teks terbaru tentang statistik yang kuat di mana itu digunakan dalam konteks itu? (Saya melihat kertas-kertas dalam slide yang Anda tunjuk yang berkaitan dengan deteksi outlier tampaknya menjadi prosedur konferensi atau buku-buku lama)

— user603

GMM = model campuran gaussian. Dalam slide mereka merujuk pada skor berdasarkan kNN. Saya pribadi telah menggunakan SVM untuk deteksi aktif. Dengan menyesal saya tidak bisa merekomendasikan Anda buku teks yang konkret. Mungkin catatan ini ( stats.ox.ac.uk/pub/StatMeth/Robust.pdf ) sudah cukup.

— jpmuc

Saya sangat setuju dengan @ user603. Perkiraan kepadatan pada pandangan pertama adalah cara yang sangat aneh dan tidak langsung untuk mencoba mencari pencilan. Jawaban Anda akan ditingkatkan dengan merangkum bagaimana itu diterapkan dalam praktik - dan mengapa Anda berpikir itu bekerja dengan baik.

— Nick Cox

Saya kira algoritma mean-shift ( http://en.wikipedia.org/wiki/Mean-shift ) adalah contoh yang baik untuk aplikasi kde yang efisien dan cocok. Tujuan dari algoritma ini adalah untuk menemukan maksimal dari fungsi kepadatan data yang diberikan $(x_i)$ disampel dari fungsi kerapatan dan seluruhnya didasarkan pada pemodelan KDE:

f_{h} (x) \propto \sum_{x_{saya}} \exp (- (x_{saya} - x)^{T} Σ^{- 1} (x_{saya} - x)),

$f_h(x) \propto \sum_{x_i} \exp( -(x_{i}-x)^{T}\Sigma^{-1} (x_{i}-x)),$ dimana

Σ^{- 1}

$\Sigma^{-1}$ adalah matriks kovarians (sebagian besar waktu diperkirakan). Algoritma ini banyak digunakan dalam tugas-tugas pengelompokan ketika jumlah komponen tidak diketahui: setiap mode yang ditemukan adalah cluster centroid dan semakin dekat sampel ke mode semakin besar kemungkinan itu milik cluster yang sesuai (semuanya ditimbang dengan benar oleh bentuk kepadatan yang direkonstruksi). Sampel data

x_{i}

$x_i$ biasanya berdimensi lebih besar dari satu: misalnya, untuk melakukan segmentasi gambar warna 2D, sampel dapat 5d untuk (RComponent, GComponent, BComponent, xPosition, yPosition).

— peuhp
sumber

Biasanya , KDE disebut-sebut sebagai alternatif untuk histogram. Keuntungan utama KDE dibandingkan histogram, dalam konteks ini, adalah untuk mengurangi efek dari parameter yang dipilih secara sewenang-wenang pada output visual dari prosedur. Khususnya (dan seperti yang diilustrasikan dalam tautan di atas), KDE tidak perlu pengguna untuk menentukan titik awal dan akhir.

— pengguna603
sumber