- Ketika variabel dikotomi, informasi apa yang hilang dalam proses?
- Bagaimana dikotomisasi membantu dalam analisis?
Jawaban:
Informasi apa yang hilang: Itu tergantung pada variabel. Secara umum, dengan dikotomisasi, Anda menegaskan bahwa ada garis lurus efek antara satu variabel dan lainnya. Misalnya, pertimbangkan pengukuran paparan polutan secara terus-menerus dalam penelitian tentang kanker. Jika Anda membagi dua ke "Tinggi" dan "Rendah", Anda menyatakan bahwa hanya dua nilai yang penting. Ada risiko kanker yang tinggi, dan ada yang rendah. Tetapi bagaimana jika risikonya naik terus untuk sementara waktu, lalu rata, lalu naik lagi sebelum akhirnya mencapai nilai yang tinggi? Semua itu hilang.
Apa yang Anda dapatkan: Lebih mudah. Variabel dikotomis seringkali lebih mudah ditangani secara statistik. Ada alasan untuk melakukannya - jika variabel kontinu jatuh ke dalam dua kelompok yang jelas pula , tapi saya cenderung untuk menghindari dikotomi kecuali bentuk alami dari variabel di tempat pertama. Seringkali juga bermanfaat jika bidang Anda mendikotomasi hal-hal untuk memiliki bentuk variabel dikotomisasi. Sebagai contoh, banyak yang menganggap jumlah CD4 kurang dari 400 sebagai ambang kritis untuk HIV. Karena itu, saya sering memiliki variabel 0/1 untuk Di Atas / Di Bawah 400, meskipun saya juga akan mempertahankan variabel jumlah CD4 terus menerus. Ini membantu menyelaraskan pelajaran Anda dengan orang lain.
Saya akan sedikit tidak setuju dengan Peter. Sementara membagi variabel kontinu ke dalam kategori sering jauh lebih masuk akal daripada dikotomisasi mentah, saya agak menentang kategorisasi kuantil. Kategorisasi semacam itu sangat sulit untuk memberikan interpretasi yang bermakna. Saya pikir langkah pertama Anda harus melihat apakah ada kategorisasi yang didukung secara biologis atau klinis yang dapat digunakan, dan hanya sekali opsi-opsi tersebut habis, sebaiknya Anda menggunakan kuantil.
Dikotimisasi menambah pemikiran ajaib pada analisis data. Ini jarang merupakan ide yang bagus.
Ini sebuah artikel oleh Royston, Altman dan Sauerbrei tentang beberapa alasan mengapa itu adalah ide yang buruk.
Pikiran saya sendiri: jika Anda mendikotomi variabel dependen, katakanlah, berat lahir 2,5 kg (ini dilakukan setiap saat) maka Anda memperlakukan bayi yang lahir 2,49 kg sama seperti bayi yang lahir 1,5 kg, dan bayi yang lahir 2,51 kg seperti mereka yang 3,5 kg. Ini tidak masuk akal.
Alternatif yang lebih baik adalah regresi kuantil. Saya menulis tentang ini untuk NESUG baru-baru ini. Makalah itu ada di sini
Satu pengecualian untuk yang di atas adalah ketika kategori-kategori tersebut secara substansial termotivasi; misalnya, jika Anda bekerja dengan perilaku mengemudi, masuk akal untuk dikategorikan berdasarkan usia legal untuk mengemudi.
Saya suka dan mendukung jawaban @ Epigrad dan @ Peter. Saya hanya ingin menambahkan, bahwa, variabel interval binning ke dalam biner membuat (mungkin) variabel metrik hanya satu ordinal. Dengan variabel biner tidak tepat untuk menghitung mean atau varians (meskipun beberapa orang melakukannya), dan, seperti yang telah saya catat di tempat lain , beberapa analisis multivariat menjadi tidak dapat diterapkan secara teoritis atau logis. Sebagai contoh, saya pikir itu tidak benar untuk menggunakan centroid / Ward hierarchical clustering atau analisis faktor dengan variabel biner.
Klien investigasi sering memaksa kita untuk mendikotomikan variabel pada output karena berpikir dalam beberapa kelas daripada satu sifat kontinu lebih sederhana, informasi tampaknya kurang berkabut dan (salah) lebih besar.
Namun, ada kasus-kasus ketika dikotomisasi dapat dibenarkan. Misalnya di mana ada bimodality kuat atau ketika analisis (misalnya MAMBAC atau lainnya) menunjukkan adanya 2 kelas laten.