Uji model GLM menggunakan null dan penyimpangan model


11

Saya telah membangun model GLM di R dan telah mengujinya menggunakan kelompok pengujian dan pelatihan sehingga saya yakin itu bekerja dengan baik. Hasil dari R adalah:

Coefficients:
                            Estimate Std. Error  t value Pr(>|t|)    
(Intercept)               -2.781e+00  1.677e-02 -165.789  < 2e-16 ***
Coeff_A                    1.663e-05  5.438e-06    3.059  0.00222 ** 
log(Coeff_B)               8.925e-01  1.023e-02   87.245  < 2e-16 ***
log(Coeff_C)              -3.978e-01  7.695e-03  -51.689  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for quasibinomial family taken to be 0.9995149)

    Null deviance: 256600  on 671266  degrees of freedom
Residual deviance: 237230  on 671263  degrees of freedom
AIC: NA

Semua nilai p untuk koefisien kecil seperti yang diharapkan.

Melihat pertanyaan ini ( Menafsirkan Penyimpangan sisa dan Null dalam GLM R ), saya harus dapat menghitung jika hipotesis nol berlaku dengan menggunakan persamaan berikut:

p-value = 1 - pchisq(deviance, degrees of freedom)

Sticking in ini memberi:

1 - pchisq(256600, 671266)
[1] 1

Jadi apakah saya benar dalam berpikir bahwa hipotesis nol tidak dapat ditolak di sini, meskipun nilai p untuk semua koefisien sangat kecil atau apakah saya salah menafsirkan bagaimana menghitung ini?

Jawaban:


18

Ada kesalahpahaman di sini. The perbedaan antara penyimpangan nol dan penyimpangan model didistribusikan sebagai chi-kuadrat dengan derajat kebebasan sama dengan df nol dikurangi df model. Untuk model Anda, itu akan menjadi:

1-pchisq(256600 - 237230, df=(671266 - 671263))
# [1] 0

Secara default, pchisq()berikan proporsi distribusi di sebelah kiri nilai. Untuk mendapatkan proporsi yang lebih ekstrem daripada perbedaan Anda, Anda dapat menentukan lower.tail = FALSEatau mengurangi hasil dari (seperti yang telah Anda dan saya lakukan). 1


2
Hipotesis apa sebenarnya yang Anda uji dengan pernyataan itu 1-pchisq(256600 - 237230, df=(671266 - 671263))?
Juli

5
@ jesterII, Anda memeriksa apakah penyimpangan berubah lebih dari yang mungkin diharapkan secara kebetulan. Yaitu, Anda menguji apakah model secara keseluruhan lebih baik daripada model nol. Ini analog dengan uji F global dalam model linier.
gung - Reinstate Monica

Hipotesis nol adalah 'model secara keseluruhan lebih baik daripada model nol', dan Anda telah menolak hipotesis nol, yang berarti model tersebut buruk?
Juli

3
@ jesterII, tidak ada hipotesis nol adalah: 'model secara keseluruhan tidak lebih baik dari model nol'. Karena ini telah ditolak, kami menyimpulkan bahwa data tidak konsisten dengan model nol. NB, ini tidak berarti bahwa model kami 'baik' atau 'benar'.
gung - Reinstate Monica
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.