Pemahaman saya adalah bahwa dalam pembelajaran mesin itu bisa menjadi masalah jika dataset Anda memiliki fitur yang sangat berkorelasi, karena mereka secara efektif menyandikan informasi yang sama.
Baru-baru ini seseorang menunjukkan bahwa ketika Anda melakukan enkode satu-panas pada variabel kategori Anda berakhir dengan fitur yang berkorelasi, jadi Anda harus membuang salah satu dari mereka sebagai "referensi".
Sebagai contoh, pengkodean gender sebagai dua variabel, is_male
dan is_female
, menghasilkan dua fitur yang berkorelasi negatif sempurna, sehingga mereka menyarankan hanya menggunakan salah satu dari mereka, secara efektif menetapkan garis dasar untuk mengatakan laki-laki, dan kemudian melihat apakah kolom is_female penting dalam algoritme prediktif .
Itu masuk akal bagi saya tetapi saya belum menemukan sesuatu yang online untuk menyarankan ini mungkin terjadi, jadi apakah ini salah atau saya kehilangan sesuatu?
Kemungkinan duplikat (tidak dijawab): Apakah collinearity dari satu fitur hot-encoded penting untuk SVM dan LogReg?
Does keeping all k values theoretically make them weaker features
. Tidak (meskipun saya tidak 100% yakin apa yang Anda maksud dengan "lebih lemah"). using something like PCA
Perhatikan, untuk berjaga-jaga, PCA pada set boneka yang mewakili satu variabel kategori yang sama memiliki sedikit poin praktis karena korelasi di dalam set boneka hanya mencerminkan hubungan antara frekuensi kategori (jadi jika semua frekuensi sama semua korelasi sama) ke 1 / (k-1)).
is_male
variabel yang bertentangan dengan kedua opsi? Mungkin itu tidak masuk akal dalam konteks ini, dan itu mungkin hanya menjadi masalah ketika Anda memiliki dua variabel berbeda yang benar-benar menyandikan informasi yang sama (misalnya tinggi dalam inci dan tinggi dalam cm).
you end up with correlated features, so you should drop one of them as a "reference"
Variabel Dummy atau variabel indikator (ini adalah dua nama yang digunakan dalam statistik, sinonim dengan "one-hot encoding" dalam pembelajaran mesin) berkorelasi berpasangan, bagaimanapun, semua variabel k atau k-1. Jadi, kata yang lebih baik adalah "berlebihan secara statistik / informasi" daripada "berkorelasi".