Saat ini saya sedang mengerjakan model regresi logistik untuk genomik. Salah satu bidang input yang ingin saya sertakan sebagai kovariat adalah genes
. Ada sekitar 24.000 gen yang dikenal. Ada banyak fitur dengan tingkat variabilitas dalam biologi komputasi ini dan diperlukan ratusan ribu sampel.
- Jika saya
LabelEncoder()
gen 24K itu - dan kemudian
OneHotEncoder()
mereka ...
Apakah 24.000 kolom akan membuat waktu latihan keras saya tidak masuk akal untuk CPU quad-core i7 2.2 GHz?
Jika demikian, apakah ada pendekatan berbeda untuk penyandian yang dapat saya lakukan dengan ini?
Haruskah saya mencoba mendedikasikan lapisan model saya untuk fitur ini?
Apakah ini berarti saya memerlukan 24K input node?