Saya sering membangun model (klasifikasi atau regresi) di mana saya memiliki beberapa variabel prediktor yang berurutan dan saya telah berusaha untuk menemukan rekomendasi teknik untuk merangkumnya dengan cara terbaik untuk dimasukkan sebagai prediktor dalam model.
Sebagai contoh konkret, katakanlah model sedang dibangun untuk memprediksi jika pelanggan akan meninggalkan perusahaan dalam 90 hari ke depan (kapan saja antara t dan t + 90; dengan demikian hasil biner). Salah satu prediktor yang tersedia adalah tingkat saldo keuangan pelanggan untuk periode t_0 hingga t-1. Mungkin ini merupakan pengamatan bulanan untuk 12 bulan sebelumnya (yaitu 12 pengukuran).
Saya mencari cara untuk membangun fitur dari seri ini. Saya menggunakan deskripsi dari setiap seri pelanggan seperti mean, tinggi, rendah, std dev., Sesuai dengan regresi OLS untuk mendapatkan tren. Apakah metode mereka yang lain menghitung fitur? Ukuran perubahan atau volatilitas lainnya?
MENAMBAHKAN:
Seperti disebutkan dalam respons di bawah ini, saya juga mempertimbangkan (tetapi lupa untuk menambahkan di sini) menggunakan Dynamic Time Warping (DTW) dan kemudian pengelompokan hierarkis pada matriks jarak yang dihasilkan - membuat sejumlah cluster dan kemudian menggunakan keanggotaan cluster sebagai fitur. Mencetak data uji kemungkinan harus mengikuti proses di mana DTW dilakukan pada kasus baru dan cluster centroid - mencocokkan seri data baru dengan centroid terdekat ...