Salah satu kasus khas untuk penerapan estimasi kepadatan adalah deteksi kebaruan, alias deteksi outlier, di mana idenya adalah bahwa Anda hanya (atau sebagian besar) memiliki data satu jenis, tetapi Anda tertarik pada data langka yang sangat langka dan kualitatif, yang menyimpang secara signifikan dari kasus-kasus umum.
Contohnya adalah deteksi penipuan, deteksi kegagalan dalam sistem, dan sebagainya. Ini adalah situasi di mana sangat sulit dan / atau mahal untuk mengumpulkan data dari jenis yang Anda minati. Kasus langka ini, yaitu kasus dengan probabilitas rendah terjadi.
Sebagian besar waktu Anda tidak tertarik untuk memperkirakan secara akurat distribusi yang tepat, tetapi pada peluang relatif (seberapa besar kemungkinan sampel yang diberikan menjadi pencilan aktual vs bukan menjadi satu).
Ada puluhan tutorial dan ulasan tentang topik tersebut. Ini salah satu mungkin salah satu yang baik untuk memulai dengan.
EDIT: bagi sebagian orang tampaknya aneh menggunakan estimasi kepadatan untuk deteksi outlier. Pertama-tama mari kita sepakat pada satu hal: ketika seseorang cocok a model campuran dengan datanya, ia sebenarnya melakukan estimasi kepadatan. Model campuran mewakili distribusi probabilitas.
kNN dan GMM sebenarnya terkait: mereka adalah dua metode untuk memperkirakan kepadatan probabilitas seperti itu. Ini adalah ide yang mendasari banyak pendekatan dalam deteksi kebaruan. Sebagai contoh, yang satu ini didasarkan pada kNNs, yang lain ini berdasarkan pada jendela Parzen (yang menekankan gagasan ini pada awal makalah ini), dan banyak lainnya .
Menurut saya (tetapi hanya persepsi pribadi saya) bahwa sebagian besar jika tidak semua bekerja pada ide ini. Bagaimana lagi yang akan Anda ungkapkan dalam ide tentang peristiwa aneh / langka?