Teknik Ekstraksi Fitur - Meringkas Urutan Data


11

Saya sering membangun model (klasifikasi atau regresi) di mana saya memiliki beberapa variabel prediktor yang berurutan dan saya telah berusaha untuk menemukan rekomendasi teknik untuk merangkumnya dengan cara terbaik untuk dimasukkan sebagai prediktor dalam model.

Sebagai contoh konkret, katakanlah model sedang dibangun untuk memprediksi jika pelanggan akan meninggalkan perusahaan dalam 90 hari ke depan (kapan saja antara t dan t + 90; dengan demikian hasil biner). Salah satu prediktor yang tersedia adalah tingkat saldo keuangan pelanggan untuk periode t_0 hingga t-1. Mungkin ini merupakan pengamatan bulanan untuk 12 bulan sebelumnya (yaitu 12 pengukuran).

Saya mencari cara untuk membangun fitur dari seri ini. Saya menggunakan deskripsi dari setiap seri pelanggan seperti mean, tinggi, rendah, std dev., Sesuai dengan regresi OLS untuk mendapatkan tren. Apakah metode mereka yang lain menghitung fitur? Ukuran perubahan atau volatilitas lainnya?

MENAMBAHKAN:

Seperti disebutkan dalam respons di bawah ini, saya juga mempertimbangkan (tetapi lupa untuk menambahkan di sini) menggunakan Dynamic Time Warping (DTW) dan kemudian pengelompokan hierarkis pada matriks jarak yang dihasilkan - membuat sejumlah cluster dan kemudian menggunakan keanggotaan cluster sebagai fitur. Mencetak data uji kemungkinan harus mengikuti proses di mana DTW dilakukan pada kasus baru dan cluster centroid - mencocokkan seri data baru dengan centroid terdekat ...

Jawaban:


7

akan SUKA melihat kotak tertulis yang mengumpulkan studi kasus tentang fitur rekayasa / ekstraksi

Mohon saran jika ini membantu

  1. Diskretisasi Data Time Series http://arxiv.org/ftp/q-bio/papers/0505/0505028.pdf

  2. Mengoptimalkan Diskritisasi Time Series untuk Penemuan Pengetahuan https://www.uni-marburg.de/fb12/datenbionik/pdf/pubs/2005/moerchen05optimizing

  3. Mengalami SAX: Representasi Simbolik Novel dari Time Series http://cs.gmu.edu/~jessica/SAX_DAMI_preprint.pdf

  4. Pengindeksan untuk Eksplorasi Interaktif Big Data Series http://acs.ict.ac.cn/storage/slides/Indexing_for_Interactive_Exploration_of_Big_Data_Series.pdf

  5. Ekstraksi Fitur Umum untuk Pengakuan Pola Struktural dalam Data Time-series http://www.semanticscholar.org/paper/Generalized-Feature-Extraction-for-Structural-Olszewski-Maxion/7838bcd87bb6616e9fd3ffd92d4676a7082da34c

  6. Menghitung dan memvisualisasikan Alignment Time Warping Dinamis dalam R: Paket dtw https://cran.r-project.org/web/packages/dtw/vignettes/dtw.pdf


2

Apa yang Anda coba lakukan di sini adalah mengurangi dimensi fitur Anda. Anda dapat mencari pengurangan dimensi untuk mendapatkan beberapa opsi, tetapi satu teknik yang sangat populer adalah analisis komponen utama (PCA). Komponen utama tidak dapat ditafsirkan seperti opsi yang telah Anda sebutkan, tetapi mereka melakukan pekerjaan yang baik untuk merangkum semua informasi.


Kekhawatiran saya dengan jawaban ini adalah bahwa PCA tidak mengenali ketergantungan yang jelas antara seri t dan t +1.
B_Miner

Jika ketergantungan t dan t + 1 adalah tren atau musiman - pertimbangkan untuk mengekstraksi dan menangani sisanya seperti dengan variabel independen.
Diego

2

Ekstraksi fitur selalu menjadi tantangan dan topik yang kurang dibahas dalam literatur, karena itu tergantung aplikasi secara luas.

Beberapa ide yang dapat Anda coba:

  • Data mentah, diukur hari demi hari. Itu agak jelas dengan beberapa implikasi dan preprocessing ekstra (normalisasi) untuk membuat garis waktu yang berbeda sebanding.
  • Momen yang lebih tinggi: kemiringan, kurtosis, dll
  • Derivatif: kecepatan evolusi
  • Rentang waktu tidak terlalu besar tetapi mungkin ada baiknya mencoba beberapa fitur analisis deret waktu seperti misalnya autokorelasi.
  • Beberapa fitur khusus seperti melanggar garis waktu dalam minggu dan mengukur jumlah yang sudah Anda ukur dalam setiap minggu secara terpisah. Kemudian classifier non-linear akan dapat menggabungkan misalnya fitur minggu pertama dengan fitur minggu lalu untuk mendapatkan wawasan evolusi dalam waktu.

Saran yang bagus! Bisakah Anda menyempurnakan penggunaan derivatif lebih banyak?
B_Miner

Saya setuju sepenuhnya dengan pernyataan pertama Anda. Saya akan SENANG melihat kotak yang ditulis yang mengumpulkan studi kasus tentang fitur rekayasa / ekstraksi. Pepatahnya adalah bahwa pembuatan fitur jauh lebih penting daripada algoritma terhebat terbaru dalam kinerja model prediksi.
B_Miner

2

Sekilas, Anda perlu mengekstrak fitur dari deret waktu Anda (x - 12) - x. Salah satu pendekatan yang mungkin adalah menghitung metrik ringkasan: rata-rata, dispersi, dll. Tetapi dengan melakukan itu, Anda akan kehilangan semua informasi terkait rangkaian waktu. Tetapi data, yang diekstraksi dari bentuk kurva mungkin cukup berguna. Saya merekomendasikan Anda untuk melihat-lihat artikel ini , di mana penulis mengusulkan algoritma untuk pengelompokan seri waktu. Semoga bermanfaat. Selain itu untuk pengelompokan seperti itu Anda dapat menambahkan statistik ringkasan ke daftar fitur Anda.


Terima kasih untuk tautannya. Saya juga mempertimbangkan untuk menggunakan DTW dan pengelompokan hierarki. Saya telah bereksperimen dengan paket R untuk DWT. jstatsoft.org/v31/i07/paper
B_Miner

1
Saya mempertimbangkan secara khusus membuat n cluster dan menggunakan keanggotaan clustering sebagai fitur.
B_Miner
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.