Saya mencoba memprediksi keberhasilan atau kegagalan siswa berdasarkan beberapa fitur dengan model regresi logistik. Untuk meningkatkan kinerja model, saya sudah berpikir untuk membagi siswa menjadi kelompok yang berbeda berdasarkan perbedaan yang jelas dan membangun model yang terpisah untuk masing-masing kelompok. Tetapi saya pikir mungkin sulit untuk mengidentifikasi kelompok-kelompok ini dengan pemeriksaan, jadi saya berpikir untuk memisahkan siswa dengan mengelompokkan fitur-fitur mereka. Apakah ini praktik umum dalam membangun model seperti itu? Apakah Anda menyarankan agar saya memecahnya menjadi kelompok-kelompok yang jelas (misalnya, siswa semester pertama vs siswa yang kembali) dan kemudian melakukan pengelompokan pada kelompok-kelompok itu, atau klaster dari awal?
Untuk mencoba menjelaskan:Maksud saya adalah bahwa saya sedang mempertimbangkan menggunakan algoritma pengelompokan untuk memecah set pelatihan saya untuk regresi logistik ke dalam kelompok. Saya kemudian akan melakukan regresi logistik terpisah untuk masing-masing kelompok tersebut. Kemudian ketika menggunakan regresi logistik untuk memprediksi hasil untuk seorang siswa, saya akan memilih model mana yang akan digunakan berdasarkan kelompok mana yang paling cocok untuk mereka.
Mungkin saya bisa melakukan hal yang sama dengan memasukkan pengenal grup, misalnya 1 jika siswa kembali dan 0 jika tidak.
Sekarang Anda membuat saya berpikir tentang apakah mungkin menguntungkan untuk mengelompokkan set data pelatihan dan menggunakan label cluster mereka sebagai fitur dalam regresi logistik, daripada membangun model regresi logistik terpisah untuk setiap populasi.
Jika berguna untuk menyertakan pengenal kelompok bagi mereka yang kembali siswa vs siswa baru, apakah juga bermanfaat untuk memperluas daftar grup? Clustering sepertinya cara alami untuk melakukan ini.
Saya harap itu jelas ...