Satu-satunya alasan saya segera dapat memikirkan untuk meminta keputusan ini, adalah untuk memutuskan dimasukkannya variabel sebagai kontinu atau kategoris dalam regresi.
Pertama, kadang-kadang Anda tidak punya pilihan: variabel karakter, atau faktor (di mana seseorang memberikan data. Frame telah membuat keputusan untuk Anda) jelas kategoris.
Itu membuat kita dengan variabel numerik. Anda mungkin tergoda untuk hanya memeriksa apakah variabel adalah bilangan bulat, tetapi ini bukan kriteria yang baik: lihat baris pertama kode di bawah ini ( x1
): ini adalah 1000 pengamatan hanya dari dua nilai dan : meskipun ini adalah bukan bilangan bulat, ini tampaknya variabel kategori yang jelas. Apa yang bisa Anda lakukan untuk beberapa adalah memeriksa berapa banyak nilai yang berbeda dalam data Anda, meskipun ambang yang Anda gunakan untuk ini akan bersifat subjektif, saya kira:−1.52.5x
x1<-sample(c(-1.5, 2.5), 1000)
length(unique(x1)) #absolute number of different variables
length(unique(x1))/length(x1) #relative
x2<-runif(1000)
length(unique(x2)) #absolute number of different variables
length(unique(x2))/length(x2) #relative
Saya akan cenderung mengatakan bahwa variabel yang hanya memiliki nilai unik 5% dapat dengan aman disebut diskrit (tetapi, seperti yang disebutkan: ini subjektif). Namun: ini tidak menjadikannya kandidat yang baik untuk memasukkannya sebagai variabel kategori dalam model Anda: Jika Anda memiliki 1000000 pengamatan, dan 5% nilai unik, itu masih menyisakan 50.000 kategori ': jika Anda memasukkan ini sebagai kategori, Anda' Aku akan menghabiskan banyak sekali kebebasan.
Saya kira panggilan ini bahkan lebih subjektif, dan sangat tergantung pada ukuran sampel dan metode pilihan. Tanpa lebih banyak konteks, sulit untuk memberikan panduan di sini.
Jadi sekarang Anda mungkin memiliki beberapa variabel yang dapat Anda tambahkan sebagai kategori dalam model Anda. Tetapi haruskah Anda? Pertanyaan ini dapat dijawab (meskipun sangat tergantung, sekali lagi, pada tujuan Anda) dengan uji rasio kemungkinan: Model di mana variabel kategorikal adalah supermodel model dengan variabel sebagai kovariat kontinu. Untuk melihat ini, bayangkan regresi linier pada variabel x
yang memiliki tiga nilai 0
, 1
dan 2
. Menyesuaikan model:
mana adalah indikator variabel dummy (sama dengan 1 jika ) hanya lebih fleksibel cara pemasangan model
E[y]=β0+β11x1+β12x2
xix==iE[y]=β0+β1x
karena yang terakhir setara dengan
E[y]=β0+β1x1+2β1x2
Dengan struktur super / submodel, Anda dapat mengetahui apakah ada bukti dalam data bahwa struktur yang lebih kompleks diperlukan, dengan melakukan tes rasio kemungkinan : -2 kali perbedaan dalam log kemungkinan maksimum (biasanya ditunjukkan sebagai penyimpangan dalam R) akan ikuti dengan df = perbedaan dalam jumlah parameter (dalam contoh di atas: 4 parameter - 3 parameter).χ2