Teknik Ekstraksi Fitur - Meringkas Urutan Data

11

Saya sering membangun model (klasifikasi atau regresi) di mana saya memiliki beberapa variabel prediktor yang berurutan dan saya telah berusaha untuk menemukan rekomendasi teknik untuk merangkumnya dengan cara terbaik untuk dimasukkan sebagai prediktor dalam model.

Sebagai contoh konkret, katakanlah model sedang dibangun untuk memprediksi jika pelanggan akan meninggalkan perusahaan dalam 90 hari ke depan (kapan saja antara t dan t + 90; dengan demikian hasil biner). Salah satu prediktor yang tersedia adalah tingkat saldo keuangan pelanggan untuk periode t_0 hingga t-1. Mungkin ini merupakan pengamatan bulanan untuk 12 bulan sebelumnya (yaitu 12 pengukuran).

Saya mencari cara untuk membangun fitur dari seri ini. Saya menggunakan deskripsi dari setiap seri pelanggan seperti mean, tinggi, rendah, std dev., Sesuai dengan regresi OLS untuk mendapatkan tren. Apakah metode mereka yang lain menghitung fitur? Ukuran perubahan atau volatilitas lainnya?

MENAMBAHKAN:

Seperti disebutkan dalam respons di bawah ini, saya juga mempertimbangkan (tetapi lupa untuk menambahkan di sini) menggunakan Dynamic Time Warping (DTW) dan kemudian pengelompokan hierarkis pada matriks jarak yang dihasilkan - membuat sejumlah cluster dan kemudian menggunakan keanggotaan cluster sebagai fitur. Mencetak data uji kemungkinan harus mengikuti proses di mana DTW dilakukan pada kasus baru dan cluster centroid - mencocokkan seri data baru dengan centroid terdekat ...

machine-learning feature-selection time-series

— B_Miner
sumber

7

akan SUKA melihat kotak tertulis yang mengumpulkan studi kasus tentang fitur rekayasa / ekstraksi

Mohon saran jika ini membantu

Diskretisasi Data Time Series http://arxiv.org/ftp/q-bio/papers/0505/0505028.pdf
Mengoptimalkan Diskritisasi Time Series untuk Penemuan Pengetahuan https://www.uni-marburg.de/fb12/datenbionik/pdf/pubs/2005/moerchen05optimizing
Mengalami SAX: Representasi Simbolik Novel dari Time Series http://cs.gmu.edu/~jessica/SAX_DAMI_preprint.pdf
Pengindeksan untuk Eksplorasi Interaktif Big Data Series http://acs.ict.ac.cn/storage/slides/Indexing_for_Interactive_Exploration_of_Big_Data_Series.pdf
Ekstraksi Fitur Umum untuk Pengakuan Pola Struktural dalam Data Time-series http://www.semanticscholar.org/paper/Generalized-Feature-Extraction-for-Structural-Olszewski-Maxion/7838bcd87bb6616e9fd3ffd92d4676a7082da34c
Menghitung dan memvisualisasikan Alignment Time Warping Dinamis dalam R: Paket dtw https://cran.r-project.org/web/packages/dtw/vignettes/dtw.pdf

— SemanticBeeng
sumber

2

Apa yang Anda coba lakukan di sini adalah mengurangi dimensi fitur Anda. Anda dapat mencari pengurangan dimensi untuk mendapatkan beberapa opsi, tetapi satu teknik yang sangat populer adalah analisis komponen utama (PCA). Komponen utama tidak dapat ditafsirkan seperti opsi yang telah Anda sebutkan, tetapi mereka melakukan pekerjaan yang baik untuk merangkum semua informasi.

— Ben
sumber

Kekhawatiran saya dengan jawaban ini adalah bahwa PCA tidak mengenali ketergantungan yang jelas antara seri t dan t +1.

— B_Miner

Jika ketergantungan t dan t + 1 adalah tren atau musiman - pertimbangkan untuk mengekstraksi dan menangani sisanya seperti dengan variabel independen.

— Diego

2

Ekstraksi fitur selalu menjadi tantangan dan topik yang kurang dibahas dalam literatur, karena itu tergantung aplikasi secara luas.

Beberapa ide yang dapat Anda coba:

Data mentah, diukur hari demi hari. Itu agak jelas dengan beberapa implikasi dan preprocessing ekstra (normalisasi) untuk membuat garis waktu yang berbeda sebanding.
Momen yang lebih tinggi: kemiringan, kurtosis, dll
Derivatif: kecepatan evolusi
Rentang waktu tidak terlalu besar tetapi mungkin ada baiknya mencoba beberapa fitur analisis deret waktu seperti misalnya autokorelasi.
Beberapa fitur khusus seperti melanggar garis waktu dalam minggu dan mengukur jumlah yang sudah Anda ukur dalam setiap minggu secara terpisah. Kemudian classifier non-linear akan dapat menggabungkan misalnya fitur minggu pertama dengan fitur minggu lalu untuk mendapatkan wawasan evolusi dalam waktu.

— iliasfl
sumber

Saran yang bagus! Bisakah Anda menyempurnakan penggunaan derivatif lebih banyak?

— B_Miner

Saya setuju sepenuhnya dengan pernyataan pertama Anda. Saya akan SENANG melihat kotak yang ditulis yang mengumpulkan studi kasus tentang fitur rekayasa / ekstraksi. Pepatahnya adalah bahwa pembuatan fitur jauh lebih penting daripada algoritma terhebat terbaru dalam kinerja model prediksi.

— B_Miner

2

Sekilas, Anda perlu mengekstrak fitur dari deret waktu Anda (x - 12) - x. Salah satu pendekatan yang mungkin adalah menghitung metrik ringkasan: rata-rata, dispersi, dll. Tetapi dengan melakukan itu, Anda akan kehilangan semua informasi terkait rangkaian waktu. Tetapi data, yang diekstraksi dari bentuk kurva mungkin cukup berguna. Saya merekomendasikan Anda untuk melihat-lihat artikel ini , di mana penulis mengusulkan algoritma untuk pengelompokan seri waktu. Semoga bermanfaat. Selain itu untuk pengelompokan seperti itu Anda dapat menambahkan statistik ringkasan ke daftar fitur Anda.

— sobach
sumber

Terima kasih untuk tautannya. Saya juga mempertimbangkan untuk menggunakan DTW dan pengelompokan hierarki. Saya telah bereksperimen dengan paket R untuk DWT. jstatsoft.org/v31/i07/paper

— B_Miner

1

Saya mempertimbangkan secara khusus membuat n cluster dan menggunakan keanggotaan clustering sebagai fitur.

— B_Miner