Dari rumusan pertanyaan, saya berasumsi bahwa tidak ada "contoh" dari anomali (yaitu label) apa pun. Dengan asumsi itu, pendekatan yang layak adalah dengan menggunakan autoencoder : jaringan saraf yang menerima sebagai input data Anda dan dilatih untuk menampilkan data yang sama. Idenya adalah bahwa pelatihan telah memungkinkan internet untuk belajar representasi dari distribusi data input dalam bentuk variabel laten.
Ada jenis autoencoder yang disebut denoising autoencoder , yang dilatih dengan versi data asli yang rusak sebagai input dan dengan data asli yang tidak rusak sebagai output. Ini memberikan jaringan yang dapat menghilangkan noise (yaitu kerusakan data) dari input.
Anda dapat melatih autencoder denoising dengan data harian. Kemudian gunakan pada data harian baru; dengan cara ini Anda memiliki data harian asli dan versi yang tidak rusak dari data yang sama itu. Anda kemudian dapat membandingkan keduanya untuk mendeteksi perbedaan yang signifikan .
Kuncinya di sini adalah definisi perbedaan signifikan yang Anda pilih. Anda bisa menghitung jarak euclidean dan mengasumsikan bahwa jika melampaui ambang batas arbitrer tertentu, Anda memiliki anomali. Faktor penting lainnya adalah jenis korupsi yang Anda perkenalkan; mereka harus sedekat mungkin dengan kelainan yang masuk akal.
Pilihan lain adalah menggunakan Generative Adversarial Networks . Produk sampingan pelatihan adalah jaringan diskriminator yang membedakan data harian normal dari data abnormal.