Saya berpikir tentang masalah yang memprediksi log (menghabiskan) pelanggan menggunakan regresi linier.
Saya sedang mempertimbangkan fitur apa yang akan digunakan sebagai input dan bertanya-tanya apakah akan baik-baik saja untuk menggunakan persentil variabel sebagai input.
Misalnya saya bisa menggunakan pendapatan perusahaan sebagai input. Yang saya pikirkan adalah apakah saya bisa menggunakan persentil pendapatan perusahaan sebagai gantinya.
Contoh lain akan menjadi pengelompokan kategori industri (NAICS) - jika saya melihat pengeluaran rata-rata per kode NAICS dan kemudian menetapkan setiap kode NAICS ke 'Persentasi NAICS', apakah itu akan menjadi variabel penjelas valid yang dapat saya gunakan?
Hanya ingin tahu apakah ada masalah yang harus diperhatikan saat menggunakan persentil? Apakah dalam beberapa hal setara dengan jenis penskalaan fitur?