Pertanyaan saya adalah apakah kita perlu menstandarkan set data untuk memastikan semua variabel memiliki skala yang sama, antara [0,1], sebelum menyesuaikan regresi logistik. Rumusnya adalah:
Kumpulan data saya memiliki 2 variabel, mereka menggambarkan hal yang sama untuk dua saluran, tetapi volumenya berbeda. Katakan itu adalah jumlah kunjungan pelanggan di dua toko, y di sini adalah apakah pelanggan membeli. Karena seorang pelanggan dapat mengunjungi kedua toko, atau dua kali toko pertama, toko sekali kedua sebelum dia melakukan pembelian. tetapi jumlah total kunjungan pelanggan untuk toko pertama adalah 10 kali lebih besar dari toko kedua. Ketika saya cocok dengan regresi logistik ini, tanpa standarisasi coef(store1)=37, coef(store2)=13
,; jika saya membakukan data, maka coef(store1)=133, coef(store2)=11
. Sesuatu seperti ini. Pendekatan mana yang lebih masuk akal?
Bagaimana jika saya cocok dengan model pohon keputusan? Saya tahu model struktur pohon tidak memerlukan standarisasi karena model itu sendiri akan menyesuaikannya. Tetapi memeriksa dengan Anda semua.
C
perubahan faktor regularisasi yang optimal . Jadi, Anda perlu memilih C
setelah menstandardisasi data.