Adakah yang bisa memberikan daftar algoritma apa yang akan memerlukan fitur kategorikal untuk menjadi satu-panas-disandikan dan mana yang tidak?
AFAIU, itu harus dilakukan lebih banyak dengan data tertentu , kurang dengan algoritma tertentu . Khususnya, itu tergantung pada apakah ada urutan yang berarti dalam kategori atau tidak.
Pertimbangkan dua kasus. Yang pertama Anda memiliki kategori buruk, meh, baik , dan yang kedua Anda memiliki apel, jeruk, pir . Ada tatanan alami dalam kasus pertama, karena meh mungkin di antara yang buruk dan yang baik , tetapi mungkin tidak ada yang serupa terjadi pada apel, jeruk, pir .
Jika Anda menghindari pengodean satu-panas untuk kasus pertama, Anda "kehilangan" informasi tentang pesanan. Jika Anda menggunakan pengodean satu-panas untuk kasus kedua, Anda menetapkan beberapa urutan ke kategori yang tidak benar secara alami.
Saya melakukannya setiap kali algoritma menggunakan metrik jarak untuk menghitung kesamaan.
Mengapa? Misalkan salah satu fitur adalah kategori buruk, meh, baik , dan Anda memiliki tiga contoh, 1, 2, dan 3, di mana mereka identik, kecuali bahwa 1 buruk , 2 adalah meh , dan 3 bagus. Anda mungkin ingin mengekspresikan ke algoritma bahwa 1 lebih mirip dengan 2 daripada ke 3.