Saya memiliki kumpulan data dengan 20000 sampel, masing-masing memiliki 12 fitur berbeda. Setiap sampel berada dalam kategori 0 atau 1. Saya ingin melatih jaringan saraf dan hutan keputusan untuk mengkategorikan sampel sehingga saya dapat membandingkan hasil dan kedua teknik.
Hal pertama yang saya temui adalah normalisasi data yang tepat. Satu fitur berada dalam kisaran , satu lagi di dan ada satu fitur yang sebagian besar mengambil nilai 8 dan kadang-kadang 7. Jadi ketika saya membaca di sumber yang berbeda, normalisasi input yang tepat data sangat penting untuk jaringan saraf. Seperti yang saya ketahui, ada banyak cara yang memungkinkan untuk menormalkan data, misalnya:
- Min-Max Normalalization : Kisaran input diubah secara linear ke interval (atau sebagai alternatif , apakah itu penting?)[ - 1 , 1 ]
- Normalisasi Z-Score : Data ditransformasikan menjadi nol rata-rata dan varians unit:
Normalisasi mana yang harus saya pilih? Apakah normalisasi juga diperlukan untuk hutan keputusan? Dengan normalisasi Z-Score, fitur berbeda dari data pengujian saya tidak terletak pada kisaran yang sama. Mungkinkah ini menjadi masalah? Haruskah setiap fitur dinormalisasi dengan algoritma yang sama, sehingga saya memutuskan untuk menggunakan Min-Max untuk semua fitur atau Z-Score untuk semua fitur?
Adakah kombinasi tempat data dipetakan ke dan juga memiliki rata-rata nol (yang akan menyiratkan transformasi data non-linier dan karenanya perubahan varian dan fitur lain dari data input).
Saya merasa agak bingung karena saya tidak dapat menemukan referensi yang menjawab pertanyaan-pertanyaan ini.