Saya mencoba menyiapkan infrastruktur data besar menggunakan Hadoop, Hive, Elastic Search (di antara yang lain), dan saya ingin menjalankan beberapa algoritma melalui set data tertentu. Saya ingin algoritma itu sendiri dapat diskalakan, jadi ini tidak termasuk menggunakan alat seperti Weka, R, atau bahkan RHadoop. The Apache Mahout Perpustakaan tampaknya menjadi pilihan yang baik, dan fitur algoritma untuk regresi dan clustering tugas .
Apa yang saya perjuangkan adalah solusi untuk deteksi anomali atau outlier.
Karena Mahout menampilkan Hidden Markov Model dan berbagai teknik pengelompokan (termasuk K-Means), saya bertanya-tanya apakah mungkin untuk membuat model untuk mendeteksi pencilan dalam deret waktu, menggunakan semua ini. Saya akan berterima kasih jika seseorang yang berpengalaman dalam hal ini dapat menasihati saya
- jika mungkin, dan dalam kasus itu
- cara melakukannya, plus
- estimasi upaya yang terlibat dan
- akurasi / masalah dari pendekatan ini.