Saya berjuang untuk menemukan metode untuk mengurangi jumlah kategori dalam data nominal atau ordinal.
Sebagai contoh, katakanlah saya ingin membangun model regresi pada dataset yang memiliki sejumlah faktor nominal dan ordinal. Meskipun saya tidak memiliki masalah dengan langkah ini, saya sering mengalami situasi di mana fitur nominal tanpa pengamatan dalam set pelatihan, tetapi kemudian ada dalam dataset validasi. Ini secara alami mengarah ke dan kesalahan ketika model disajikan dengan (sejauh) kasus yang tidak terlihat. Situasi lain di mana saya ingin menggabungkan kategori adalah ketika ada terlalu banyak kategori dengan sedikit pengamatan.
Jadi pertanyaan saya adalah:
- Sementara saya menyadari mungkin yang terbaik untuk menggabungkan banyak kategori nominal (dan ordinal) berdasarkan informasi latar belakang dunia nyata sebelumnya yang mereka wakili, apakah ada metode sistematis (
R
paket lebih disukai) yang tersedia? - Panduan dan saran apa yang akan Anda buat berkenaan dengan batas ambang batas dan sebagainya?
- Apa solusi paling populer dalam literatur?
- Adakah strategi lain selain menggabungkan kategori nominal kecil ke kategori "LAIN" yang baru?
Jangan ragu untuk berpadu jika Anda memiliki saran lain juga.