Sejumlah sumber menunjukkan bahwa ada banyak konsekuensi negatif dari diskritisasi (kategorisasi) variabel kontinu sebelum analisis statistik (sampel referensi [1] - [4] di bawah).
Sebaliknya [5] menunjukkan bahwa beberapa teknik pembelajaran mesin diketahui menghasilkan hasil yang lebih baik ketika variabel kontinyu didiskritisasi (juga mencatat bahwa metode diskritisasi yang diawasi berperforma lebih baik).
Saya ingin tahu apakah ada manfaat atau justifikasi yang diterima secara luas untuk praktik ini dari perspektif statistik?
Secara khusus, apakah akan ada justifikasi untuk mendiskritisasi variabel kontinu dalam analisis GLM?
[1] Royston P, Altman DG, Sauerbrei W. Dichotomizing prediktor berkelanjutan dalam regresi berganda: ide yang buruk. Stat Med 2006; 25: 127-41
[2] Brunner J, Austin PC. Inflasi tingkat kesalahan tipe I dalam regresi berganda ketika variabel independen diukur dengan kesalahan. Jurnal Statistik Kanada 2009; 37 (1): 33-46
[3] Irwin JR, McClelland GH. Konsekuensi negatif dari dikotomisasi variabel prediktor kontinu. Jurnal Riset Pemasaran 2003; 40: 366-371.
[4] Harrell Jr FE. Masalah yang disebabkan oleh pengelompokan variabel kontinu. http://biostat.mc.vanderbilt.edu/twiki/bin/view/Main/CatContinuous, 2004. Diakses pada 6.9.2004
[5] Kotsiantis, S .; Kanellopoulos, D. "Teknik Diskritisasi: Sebuah survei terbaru". GESTS Transaksi Internasional tentang Ilmu dan Teknik Komputer 32 (1): 47–58.