Teknik apa yang tersedia untuk mengelompokkan (atau mengelompokkan) banyak kategori menjadi beberapa, untuk tujuan menggunakannya sebagai input (prediktor) dalam model statistik?
Pertimbangkan variabel seperti jurusan mahasiswa (disiplin yang dipilih oleh mahasiswa sarjana). Itu tidak teratur dan kategorikal, tetapi berpotensi memiliki lusinan tingkat yang berbeda. Katakanlah saya ingin menggunakan jurusan sebagai prediktor dalam model regresi.
Menggunakan level ini apa adanya untuk memodelkan mengarah ke segala macam masalah karena ada begitu banyak. Banyak ketepatan statistik akan dibuang untuk menggunakannya, dan hasilnya sulit untuk ditafsirkan. Kami jarang tertarik pada jurusan tertentu - kami jauh lebih tertarik pada kategori luas (subkelompok) jurusan. Tetapi tidak selalu jelas bagaimana membagi level menjadi kategori tingkat yang lebih tinggi, atau bahkan berapa banyak kategori tingkat yang lebih tinggi untuk digunakan.
Untuk data umum, saya akan senang menggunakan analisis faktor, faktorisasi matriks, atau teknik pemodelan laten diskrit. Tapi jurusan adalah kategori yang saling eksklusif, jadi saya ragu untuk mengeksploitasi kovarian mereka untuk apa pun.
Selain itu saya tidak peduli dengan kategori utama sendiri. Saya peduli tentang menghasilkan kategori tingkat yang lebih tinggi yang koheren sehubungan dengan hasil regresi saya . Dalam kasus hasil biner, yang menunjukkan kepada saya sesuatu seperti analisis diskriminan linier (LDA) untuk menghasilkan kategori tingkat yang lebih tinggi yang memaksimalkan kinerja diskriminatif. Tapi LDA adalah teknik terbatas dan rasanya seperti data kotor yang dikeruk bagi saya. Terlebih lagi setiap solusi berkelanjutan akan sulit untuk ditafsirkan.
Sementara itu sesuatu yang didasarkan pada kovarian, seperti analisis korespondensi ganda (MCA), tampaknya mencurigakan bagi saya dalam kasus ini karena ketergantungan yang melekat di antara variabel dummy yang saling eksklusif - mereka lebih cocok untuk mempelajari beberapa variabel kategori, daripada beberapa kategori dari variabel yang sama.
sunting : agar jelas, ini tentang runtuh kategori (bukan memilihnya), dan kategorinya adalah prediktor atau variabel independen. Kalau dipikir-pikir, masalah ini sepertinya merupakan waktu yang tepat untuk "mengatur semuanya dan membiarkan Tuhan memilah mereka". Senang melihat pertanyaan ini menarik bagi banyak orang!