Saya sedang mencari beberapa teknik yang kuat untuk menghapus outlier dan kesalahan (apa pun penyebabnya) dari data time-series keuangan (yaitu tickdata).
Tick-by-tick data time-series keuangan sangat berantakan. Ini berisi kesenjangan (waktu) yang sangat besar ketika pertukaran ditutup, dan membuat lompatan besar ketika pertukaran dibuka kembali. Ketika pertukaran terbuka, semua jenis faktor memperkenalkan perdagangan pada tingkat harga yang salah (tidak terjadi) dan / atau tidak mewakili pasar (lonjakan karena tawaran yang dimasukkan secara salah atau harga permintaan misalnya). Makalah ini oleh tickdata.com (PDF) melakukan pekerjaan dengan baik menguraikan masalah, tetapi menawarkan beberapa solusi konkret.
Sebagian besar makalah yang saya temukan online yang menyebutkan masalah ini, abaikan saja (tickdata dianggap disaring) atau sertakan penyaringan sebagai bagian dari beberapa model perdagangan besar yang menyembunyikan langkah penyaringan yang bermanfaat.
Adakah yang tahu tentang pekerjaan yang lebih mendalam di bidang ini?
Pembaruan: pertanyaan ini tampaknya serupa di permukaan tetapi:
- Rangkaian waktu finansial (setidaknya pada level tick) non-periodik.
- Efek pembukaan adalah masalah besar karena Anda tidak bisa hanya menggunakan data hari terakhir sebagai inisialisasi meskipun Anda benar-benar ingin (karena kalau tidak, Anda tidak punya apa-apa). Peristiwa eksternal dapat menyebabkan pembukaan hari baru berbeda secara dramatis baik di tingkat absolut, dan dalam volatilitas dari hari sebelumnya.
- Frekuensi data yang masuk sangat tidak teratur. Dekat buka dan tutup hari, jumlah datapoints / detik dapat 10 kali lebih tinggi dari rata-rata pada siang hari. Pertanyaan lain berkaitan dengan data sampel secara teratur.
- "Pencilan" dalam data keuangan menunjukkan beberapa pola spesifik yang dapat dideteksi dengan teknik spesifik yang tidak berlaku di domain lain dan saya -dalam bagian- mencari teknik spesifik tersebut.
- Dalam kasus yang lebih ekstrim (mis. Flash crash) outlier mungkin berjumlah lebih dari 75% dari data dalam interval yang lebih lama (> 10 menit). Selain itu, frekuensi (tinggi) dari data yang masuk berisi beberapa informasi tentang aspek outlier dari situasi tersebut.