mengkategorikan variabel mengubahnya dari tidak signifikan menjadi signifikan

17

Saya memiliki variabel numerik yang ternyata tidak signifikan dalam model regresi logistik multivariat. Namun, ketika saya mengelompokkannya menjadi kelompok, tiba-tiba itu menjadi signifikan. Ini sangat kontra-intuitif bagi saya: ketika mengelompokkan variabel, kami memberikan beberapa informasi.

Bagaimana ini bisa terjadi?

— Omry Atia
sumber

25

Satu penjelasan yang mungkin adalah nonlinier dalam hubungan antara hasil Anda dan prediktor.

Ini sedikit contohnya. Kami menggunakan prediktor yang seragam pada . Hasilnya, bagaimanapun, tidak linear tergantung pada prediktor, tetapi pada kuadrat prediktor: TRUE lebih cenderung untuk kedua dan , tetapi lebih kecil kemungkinan untuk . Dalam hal ini, model linier akan muncul tidak signifikan, tetapi memotong prediktor ke dalam interval membuatnya signifikan. $[-1,1]$ $x\approx-1$ $x\approx 1$ $x\approx 0$

> set.seed(1)
> nn <- 1e3
> xx <- runif(nn,-1,1)
> yy <- runif(nn)<1/(1+exp(-xx^2))
> 
> library(lmtest)
> 
> model_0 <- glm(yy~1,family="binomial")
> model_1 <- glm(yy~xx,family="binomial")
> lrtest(model_1,model_0)
Likelihood ratio test

Model 1: yy ~ xx
Model 2: yy ~ 1
  #Df  LogLik Df  Chisq Pr(>Chisq)
1   2 -676.72                     
2   1 -677.22 -1 0.9914     0.3194
> 
> xx_cut <- cut(xx,c(-1,-0.3,0.3,1))
> model_2 <- glm(yy~xx_cut,family="binomial")
> lrtest(model_2,model_0)
Likelihood ratio test

Model 1: yy ~ xx_cut
Model 2: yy ~ 1
  #Df  LogLik Df  Chisq Pr(>Chisq)  
1   3 -673.65                       
2   1 -677.22 -2 7.1362    0.02821 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Namun, ini tidak berarti bahwa penentuan prediktor adalah pendekatan terbaik. (Hampir tidak pernah.) Jauh lebih baik untuk memodelkan nonlinier menggunakan splines atau serupa.

— S. Kolassa - Reinstate Monica
sumber

Apakah ada beberapa contoh di mana diskritisasi mungkin masuk akal? Misalnya, jika Anda memiliki ambang tertentu (misalnya usia 18) di mana terjadi perubahan biner pada hasil. Usia numerik dalam kisaran 18+ mungkin tidak signifikan, tetapi usia biner> 18 mungkin signifikan?

— ajrwhite

3

@ajrwhite: tergantung pada bidangnya. Di mana pun ambang itu dikodifikasi dalam diskritisasi hukum mungkin masuk akal. Misalnya, jika Anda memodelkan perilaku memilih, masuk akal untuk memeriksa apakah seseorang benar-benar memenuhi syarat untuk memilih pada usia 18 tahun. Demikian pula, di Jerman, pajak kendaraan Anda bergantung pada perpindahan mesin Anda dan melonjak pada 1700, 1800, 1900, ... ccm , jadi hampir semua mobil memiliki perpindahan 1699, 1799, ... ccm (semacam self-discretizing). Dalam ilmu alam seperti biologi, kedokteran, psikologi dll., Saya berjuang untuk menemukan contoh di mana diskritisasi masuk akal.

— S. Kolassa - Kembalikan Monica

7

Salah satu cara yang mungkin adalah jika hubungannya jelas nonlinier. Tidak mungkin untuk memberi tahu (mengingat kurangnya detail) apakah ini benar-benar menjelaskan apa yang terjadi.

Anda dapat memeriksa sendiri. Pertama, Anda bisa melakukan plot variabel tambahan untuk variabel itu sendiri, dan Anda juga bisa plot efek yang dipasang di versi-faktor model. Jika penjelasannya benar, keduanya harus melihat pola nonlinier yang jelas.

— Glen_b -Reinstate Monica
sumber