Untuk tugas pemodelan churn saya sedang mempertimbangkan:
- Hitung k cluster untuk data
- Buat model k untuk masing-masing cluster secara terpisah.
Alasan untuk itu adalah, bahwa tidak ada yang dapat dibuktikan, bahwa populasi pelanggan adalah homogen, sehingga masuk akal untuk menganggap bahwa proses menghasilkan data mungkin berbeda untuk "kelompok" yang berbeda.
Pertanyaan saya adalah, apakah ini metode yang tepat? Apakah itu melanggar sesuatu, atau itu dianggap buruk karena suatu alasan? Jika demikian, mengapa?
Jika tidak, apakah Anda akan membagikan beberapa praktik terbaik tentang masalah itu? Dan yang kedua - apakah umumnya lebih baik atau lebih buruk untuk melakukan preclustering daripada pohon model (Seperti yang didefinisikan dalam Witten, Frank - klasifikasi / regresi pohon dengan model di daun. Secara intuitif tampaknya bahwa tahap pohon keputusan hanyalah bentuk lain dari pengelompokan, tetapi idk jika ia memiliki kelebihan dibandingkan pengelompokan "normal".).