Cara terbaik untuk melakukan ini akan sangat bervariasi tergantung pada tugas yang Anda lakukan, jadi tidak mungkin untuk mengatakan apa yang terbaik dalam cara yang mandiri.
Ada dua hal mudah untuk dicoba jika level Anda adalah ordinal:
- Bin mereka. Misalnya, 0 = (0 250), 1 = (251 500), dll. Anda mungkin ingin memilih batas sehingga setiap nampan memiliki jumlah item yang sama.
- Anda juga dapat mengambil transformasi log level. Ini akan menekan kisaran ke bawah.
Jika level tidak ordinal, Anda dapat mengelompokkan level berdasarkan fitur / variabel lain dalam dataset Anda dan mengganti id cluster untuk level sebelumnya. Ada banyak cara untuk melakukan ini karena ada algoritma pengelompokan, sehingga bidang ini terbuka lebar. Ketika saya membacanya, inilah yang combine.levels()
sedang dilakukan. Anda dapat melakukan hal yang sama menggunakan kmeans()
atau prcomp()
. (Anda bisa / selanjutnya harus melatih classifier untuk memprediksi cluster untuk titik data baru.)