Saya bekerja dengan serangkaian waktu skor anomali (latar belakang adalah deteksi anomali di jaringan komputer). Setiap menit, saya mendapatkan sebuah anomali mencetak yang memberitahu saya bagaimana "tak terduga" atau abnormal keadaan saat ini jaringan. Semakin tinggi skor, semakin abnormal kondisi saat ini. Skor mendekati 5 secara teori dimungkinkan tetapi terjadi hampir tidak pernah.
Sekarang saya ingin membuat algoritma atau formula yang secara otomatis menentukan ambang batas untuk rangkaian waktu anomali ini. Segera setelah skor anomali melebihi ambang ini, alarm dipicu.
Distribusi frekuensi di bawah ini adalah contoh untuk rangkaian waktu anomali lebih dari 1 hari. Namun, tidak aman untuk menganggap bahwa setiap rangkaian waktu anomali akan terlihat seperti itu. Dalam contoh khusus ini, ambang anomali seperti .99-quantile akan masuk akal karena beberapa skor pada bagian paling kanan dapat dianggap sebagai anomali.
Dan distribusi frekuensi yang sama dengan deret waktu (hanya berkisar dari 0 hingga 1 karena tidak ada skor anomali yang lebih tinggi dalam deret waktu):
Sayangnya, distribusi frekuensi mungkin memiliki bentuk, di mana .99-quantile tidak berguna . Contohnya di bawah ini. Ekor kanan sangat rendah, jadi jika .99-quantile digunakan sebagai ambang, ini mungkin menghasilkan banyak positif palsu. Distribusi frekuensi ini tampaknya tidak mengandung anomali sehingga ambang harus berada di luar distribusi di sekitar 0,25.
Kesimpulannya, perbedaan antara dua contoh ini adalah bahwa yang pertama tampaknya menunjukkan anomali sedangkan yang kedua tidak.
Dari sudut pandang naif saya, algoritma harus mempertimbangkan dua kasus ini:
- Jika distribusi frekuensi memiliki ekor kanan yang besar (yaitu beberapa skor abnormal), maka .99-quantile dapat menjadi ambang batas yang baik.
- Jika distribusi frekuensi memiliki ekor kanan yang sangat pendek (yaitu tidak ada skor abnormal), maka ambang batas harus berada di luar distribusi.
/ edit: Ada juga tidak ada kebenaran dasar, yaitu set data berlabel tersedia. Jadi algoritma ini "buta" terhadap sifat skor anomali.
Sekarang saya tidak yakin bagaimana pengamatan ini dapat diungkapkan dalam hal algoritma atau formula. Adakah yang punya saran bagaimana masalah ini bisa diselesaikan? Saya harap penjelasan saya cukup karena latar belakang statistik saya sangat terbatas.
Terima kasih atas bantuan Anda!