Deteksi Pencilan / Anomali Terukur


10

Saya mencoba menyiapkan infrastruktur data besar menggunakan Hadoop, Hive, Elastic Search (di antara yang lain), dan saya ingin menjalankan beberapa algoritma melalui set data tertentu. Saya ingin algoritma itu sendiri dapat diskalakan, jadi ini tidak termasuk menggunakan alat seperti Weka, R, atau bahkan RHadoop. The Apache Mahout Perpustakaan tampaknya menjadi pilihan yang baik, dan fitur algoritma untuk regresi dan clustering tugas .

Apa yang saya perjuangkan adalah solusi untuk deteksi anomali atau outlier.

Karena Mahout menampilkan Hidden Markov Model dan berbagai teknik pengelompokan (termasuk K-Means), saya bertanya-tanya apakah mungkin untuk membuat model untuk mendeteksi pencilan dalam deret waktu, menggunakan semua ini. Saya akan berterima kasih jika seseorang yang berpengalaman dalam hal ini dapat menasihati saya

  1. jika mungkin, dan dalam kasus itu
  2. cara melakukannya, plus
  3. estimasi upaya yang terlibat dan
  4. akurasi / masalah dari pendekatan ini.

1
Ini terlalu samar untuk dijawab. Rangkaian waktu terlalu berbeda untuk hanya melemparkan k-means pada mereka dan mengeluarkan sesuatu yang bermanfaat. Ini sangat tergantung pada data Anda.
Memiliki QUIT - Anony-Mousse

1
Untuk deteksi outlier, lihat algoritma di ELKI. Itu tampaknya merupakan kumpulan deteksi outlier terlengkap.
Memiliki QUIT - Anony-Mousse

Versi Elasticsearch yang lebih baru memiliki deteksi anomali seri waktu (saya pikir Anda harus membeli X-Pack). Saya tidak yakin algoritma apa yang mereka gunakan tetapi mungkin ada baiknya menyelidiki solusi yang sudah tidak berlaku.
tom

Jawaban:


7

Bagaimana t-digest dibandingkan dengan algoritma p-square?
David Marx

Terima kasih atas jawabannya: ini adalah model sederhana untuk menghitung kuantil ekstrem, dan saya pikir ini akan sesuai dengan kebutuhan saya. Namun untuk rangkaian waktu yang lebih kompleks yang tidak memiliki distribusi yang hampir stasioner, pendekatan ini mungkin gagal, dan saat itulah saya pikir kita akan membutuhkan sesuatu yang adaptif seperti rantai Markov.
Gandakan

0

Anda dapat merujuk pada tanggapan saya terkait dengan metode deteksi anomali h2o R atau Python di stackexchange , karena itu juga dapat diskalakan.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.