Saya menyadari fakta bahwa variabel kategori dengan level k harus dikodekan dengan variabel k-1 dalam pengkodean dummy (sama untuk variabel kategori multi-dihargai). Saya bertanya-tanya berapa banyak masalah melakukan pengkodean satu-panas (yaitu menggunakan variabel k sebagai gantinya) atas pengkodean dummy untuk metode regresi yang berbeda, terutama regresi linier, regresi linier dihukum (Lasso, Ridge, ElasticNet), berbasis pohon (hutan acak) , mesin peningkat gradien).
Saya tahu bahwa dalam regresi linear, masalah multi-collinearity terjadi (meskipun dalam praktiknya saya telah menggunakan regresi linear menggunakan OHE tanpa masalah).
Namun, apakah pengkodean dummy perlu digunakan dalam semua itu dan bagaimana salah hasilnya jika seseorang menggunakan pengkodean satu-panas?
Fokus saya adalah prediksi model regresi dengan beberapa variabel kategori (kardinalitas tinggi), jadi saya tidak tertarik pada interval kepercayaan.