Apa pembenaran untuk diskritisasi variabel kontinu tanpa pengawasan?


8

Sejumlah sumber menunjukkan bahwa ada banyak konsekuensi negatif dari diskritisasi (kategorisasi) variabel kontinu sebelum analisis statistik (sampel referensi [1] - [4] di bawah).

Sebaliknya [5] menunjukkan bahwa beberapa teknik pembelajaran mesin diketahui menghasilkan hasil yang lebih baik ketika variabel kontinyu didiskritisasi (juga mencatat bahwa metode diskritisasi yang diawasi berperforma lebih baik).

Saya ingin tahu apakah ada manfaat atau justifikasi yang diterima secara luas untuk praktik ini dari perspektif statistik?

Secara khusus, apakah akan ada justifikasi untuk mendiskritisasi variabel kontinu dalam analisis GLM?



[1] Royston P, Altman DG, Sauerbrei W. Dichotomizing prediktor berkelanjutan dalam regresi berganda: ide yang buruk. Stat Med 2006; 25: 127-41

[2] Brunner J, Austin PC. Inflasi tingkat kesalahan tipe I dalam regresi berganda ketika variabel independen diukur dengan kesalahan. Jurnal Statistik Kanada 2009; 37 (1): 33-46

[3] Irwin JR, McClelland GH. Konsekuensi negatif dari dikotomisasi variabel prediktor kontinu. Jurnal Riset Pemasaran 2003; 40: 366-371.

[4] Harrell Jr FE. Masalah yang disebabkan oleh pengelompokan variabel kontinu. http://biostat.mc.vanderbilt.edu/twiki/bin/view/Main/CatContinuous, 2004. Diakses pada 6.9.2004

[5] Kotsiantis, S .; Kanellopoulos, D. "Teknik Diskritisasi: Sebuah survei terbaru". GESTS Transaksi Internasional tentang Ilmu dan Teknik Komputer 32 (1): 47–58.


2
Mendiskritkan mereka dibandingkan melakukan apa lagi? Jika alternatif dianggap memperlakukan hubungan antara prediktor & respons sebagai linier maka tidak mengherankan bahwa diskritisasi kadang-kadang dapat memberikan kecocokan yang lebih baik. Lihat di sini .
Scortchi

Ini mungkin berhubungan dengan kriteria yang berbeda untuk apa yang 'lebih baik'.
Glen_b -Reinstate Monica

Jawaban:


8

Tujuan dari model statistik adalah untuk memodelkan (perkiraan) realitas yang tidak diketahui dan mendasar. Ketika Anda mendiskritisasi sesuatu yang secara alami kontinu, Anda mengatakan bahwa semua respons untuk berbagai variabel prediktor persis sama, lalu ada lompatan tiba-tiba untuk interval berikutnya. Apakah Anda benar-benar percaya bahwa dunia alami bekerja dengan memiliki perbedaan besar dalam respons antara nilai-x dari 9,999 dan 10,001 sementara tidak ada perbedaan antara 9,001 dan 9,999 (dengan asumsi salah satu intervalnya adalah 9-10)? Saya tidak dapat memikirkan proses alami apa pun yang saya anggap akan berhasil dengan cara itu.

Sekarang ada banyak proses alami yang bertindak secara non linier, perubahan dari 8 menjadi 9 dalam prediktor dapat membuat perubahan yang sangat berbeda dalam respons daripada perubahan dari 10 menjadi 11. Dan oleh karena itu, prediktor diskritisasi mungkin lebih cocok daripada hubungan linier, tetapi itu karena diizinkan lebih banyak derajat kebebasan. Tapi, ada cara lain untuk memungkinkan derajat kebebasan tambahan, seperti polinomial atau splines, dan opsi ini memungkinkan kita untuk menghukum untuk mendapatkan tingkat kelancaran tertentu dan mempertahankan sesuatu yang merupakan pendekatan yang lebih baik dari proses alami yang mendasarinya.


1

Sunting: Karena kecenderungan jawaban lain yang saya lihat, penafian singkat: jawaban saya dimotivasi oleh perspektif pembelajaran mesin, dan bukan pemodelan statistik.

  • Beberapa model, seperti Naif Bayes, tidak berfungsi dengan fitur terus menerus. Diskritisasi fitur dapat membantu menggunakannya berkinerja lebih baik. Secara umum, model yang tidak bergantung pada karakter "numerik" dari fitur (pohon keputusan muncul di benak) tidak terpengaruh terlalu banyak selama diskritisasi tidak terlalu brutal. Namun beberapa model lain akan berkinerja sangat buruk jika diskritisasi terlalu penting. Sebagai contoh, GLM tidak akan mendapat manfaat sama sekali dari proses.

  • Dalam beberapa kasus, ketika memori / waktu pemrosesan menjadi faktor pembatas, diskritisasi fitur memungkinkan untuk mengagregasi dataset, mengurangi ukurannya dan konsumsi waktu memori / komputasi.

Jadi intinya adalah jika Anda tidak dibatasi secara komputasi, dan jika model Anda tidak benar-benar membutuhkan fitur-fitur yang terpisah, jangan jalankan diskritisasi fitur. Kalau tidak, tentu saja pertimbangkan itu.


6
Metode yang tidak menggunakan sifat numerik variabel harus dihindari.
Frank Harrell

1
Itu benar-benar salah. Pohon keputusan, Hutan Acak, Gradient Boosted DT adalah algoritma yang sangat baik dan tidak memperhitungkan sifat numerik variabel, kecuali untuk pemesanannya. Naif Bayes seringkali dapat menjadi alat yang lebih dari cukup untuk tugas klasifikasi dasar.
Youloush

7
Ada beberapa kesalahpahaman. Pertama, Anda berasumsi bahwa diskritisasi setidaknya menggunakan sifat ordinal dari prediktor berkelanjutan; itu tidak. Kemudian Anda membingungkan pra-binning (bencana) dengan binning selama algoritme prediktif (bencana kecil). Anda menganggap bahwa klasifikasi mengarah pada keputusan yang optimal dan bukan prediksi. Anda berasumsi bahwa kategorisasi input adalah cara yang harus dilakukan, bukan kategorisasi output (risiko yang diprediksi, kemudian menerapkan fungsi kerugian untuk mendapatkan keputusan yang optimal). Akhirnya, Anda menyiratkan tidak apa-apa untuk membuat hubungan yang mulus benar-benar terputus.
Frank Harrell

3
Karena kesalahan prediksi adalah aturan penilaian akurasi yang tidak tepat, pernyataan itu mengatakan banyak tentang ML. Dan saya tidak tahu banyak ahli statistik yang benar-benar mencari realitas yang mendasarinya. Kami puas untuk mengembangkan berbagai perkiraan atau stand-in untuk kenyataan, serta sekadar membiarkan data berbicara sendiri.
Frank Harrell

1
PS Hubungan halus ada sebagai kebenaran mendasar di hampir semua dataset tidak mengandung waktu sebagai satu-satunya prediktor. Jelas, titik data berbeda. Itu sama sekali tidak ada hubungannya dengan apakah Anda memilih pendekatan pemodelan yang halus atau tidak.
Frank Harrell
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.