Saya telah mencari pertanyaan tentang pengkodean fitur kategorikal, tetapi tidak dapat menemukan yang membahas masalah saya. Maaf jika saya melewatkannya.
Katakanlah kita memiliki dataset dengan variabel biner dan nominal yang kira-kira sama pentingnya.
Sebagian besar pengklasifikasi tidak dapat menangani tipe kategorikal secara langsung, jadi ini harus ditransformasikan - misalnya menggunakan pengkodean satu-panas (variabel dummy) seperti yang dijelaskan dalam jawaban ini .
Jika satu variabel kategori memiliki kardinalitas tinggi, tidakkah menyandikannya dengan cara "mengalahkan" variabel lain (misalnya biner)? Yang saya maksud dengan "kardinalitas" adalah jumlah kategori dalam variabel nominal.
Jika model classifier kami mengetahui hubungan antar variabel, bukankah tidak perlu mencari hubungan antara "komponen" boneka biner yang diperkenalkan dari variabel yang sama ?
Dan jika demikian, bagaimana ini dapat diatasi?
Solusi terbaik yang dapat saya pikirkan adalah secara logis mengelompokkan properti kardinalitas tinggi ke dalam "ember", namun jika ada nilai unik yang cukup untuk menjadi masalah, maka pengelompokan secara manual akan memakan tenaga juga.
Sunting: Ini sepele dan hanya mengatasi sebagian masalah, tetapi salah satu hal yang akhirnya saya lakukan adalah mengganti semua nilai kategorikal yang relatif jarang dengan kategori "lain" yang baru. Mungkin memakan waktu untuk mengoptimalkan ambang batas ketika mempertimbangkan nilai "jarang", tetapi setidaknya pendekatan ini bisa otomatis.