Ketika algoritme ML, misalnya Vowpal Wabbit atau beberapa mesin faktorisasi memenangkan persaingan tingkat klik ( Kaggle ), menyebutkan bahwa fitur 'hash', apa artinya sebenarnya bagi model? Katakanlah ada variabel yang mewakili ID dari internet add, yang mengambil nilai seperti '236BG231'. Kemudian saya mengerti bahwa fitur ini di-hash ke integer acak. Tapi, pertanyaan saya adalah:
- Apakah integer sekarang digunakan dalam model, sebagai integer (numerik) ATAU
- Apakah nilai hash sebenarnya masih diperlakukan seperti variabel kategori dan satu-panas-disandikan? Jadi trik hashing hanya untuk menghemat ruang entah bagaimana dengan data besar?