Menafsirkan Penyimpangan Sisa dan Null dalam GLM R

Bagaimana menafsirkan Null dan Residual Deviance di GLM di R? Seperti, kami katakan bahwa AIC yang lebih kecil lebih baik. Apakah ada interpretasi yang serupa dan cepat untuk penyimpangan juga?

Penyimpangan kosong: 1146.1 pada 1077 derajat kebebasan Penyimpangan residual: 4589,4 pada 1099 derajat kebebasan AIC: 11089

generalized-linear-model deviance

— Anjali
sumber

Jawaban:

Biarkan LL = kemungkinan loglikel

Berikut ini ringkasan singkat dari apa yang Anda lihat dari output ringkasan (glm.fit),

Null Deviance = 2 (LL (Model Jenuh) - LL (Model Null)) pada df = df_Sat - df_Null

Residual Deviance = 2 (LL (Model Jenuh) - LL (Model yang Diusulkan)) df = df_Sat - df_Proposed

The Jenuh Model adalah model yang mengasumsikan setiap titik data memiliki parameter sendiri (yang berarti Anda harus n parameter untuk memperkirakan.)

The Null Model mengasumsikan tepat "berlawanan", di yang mengasumsikan satu parameter untuk semua titik data, yang berarti Anda hanya memperkirakan 1 parameter.

The Model Usulan mengasumsikan Anda bisa menjelaskan titik data Anda dengan parameter p + istilah intercept, sehingga Anda memiliki p + 1 parameter.

Jika Null Deviance Anda benar-benar kecil, itu berarti bahwa Null Model menjelaskan data dengan cukup baik. Begitupun dengan Residual Deviance Anda .

Apa artinya sangat kecil? Jika model Anda "bagus" maka Deviance Anda kira-kira adalah ^ 2 dengan derajat kebebasan (df_sat - df_model).

Jika Anda ingin membandingkan model Null Anda dengan model Usulan Anda, maka Anda dapat melihatnya

(Null Deviance - Residual Deviance) kira-kira Chi ^ 2 dengan df Diusulkan - df Null = (n- (p + 1)) - (n-1) = p

Apakah hasil yang Anda berikan langsung dari R? Tampaknya agak aneh, karena umumnya Anda akan melihat bahwa derajat kebebasan yang dilaporkan di Null selalu lebih tinggi daripada tingkat kebebasan yang dilaporkan pada Residual. Itu karena lagi, Null Deviance df = Saturasi df - Null df = n-1 Penyimpangan residual df = Saturasi df - Usulan df = n- (p + 1)

— TeresaStat
sumber

Ya, itu adalah write-up yang sangat berguna @TeresaStat, terima kasih. Seberapa kuat ini? Apakah definisi berubah jika Anda berbicara tentang model multinomial bukan a GLM?

— Hack-R

@Teresa: Ya, hasil ini dari R. Mengapa ini terjadi? Ada masalah dengan model di sini?

— Anjali

@ Hack-R: maaf atas keterlambatan respon, saya baru di Stackexchange. Untuk model multinomial Anda tidak menggunakan fungsi glm di R dan hasilnya berbeda. Anda perlu melihat model odds proporsional atau regresi ordinal, fungsi mlogit. Layak untuk melakukan sedikit membaca glm multinomial, mereka memiliki asumsi yang sedikit berbeda. Jika saya dapat melakukannya selama istirahat, saya akan memperbarui ini dengan beberapa informasi lebih lanjut.

— TeresaStat

@Anjali, saya tidak yakin mengapa Anda akan mendapatkan hasil seperti itu di R. Sulit untuk mengetahui tanpa melihat data / hasil Anda. Secara umum, saya tidak melihat mengapa derajat sisa kebebasan akan lebih tinggi daripada nol df. Berapa banyak parameter yang Anda perkirakan?

— TeresaStat

@ user4050 Tujuan pemodelan secara umum dapat dilihat sebagai menggunakan jumlah parameter terkecil untuk menjelaskan paling banyak tentang respons Anda. Untuk mengetahui berapa banyak parameter yang harus digunakan, Anda perlu melihat manfaat dari menambahkan satu parameter lagi. Jika parameter tambahan menjelaskan banyak (menghasilkan penyimpangan tinggi) dari model Anda yang lebih kecil, maka Anda memerlukan parameter tambahan. Untuk menghitung berapa banyak yang Anda butuhkan teori statistik. Teorinya memberi tahu kami bahwa penyimpangannya adalah chi kuadrat dengan derajat kebebasan yang sama dengan perbedaan parameter antara kedua model Anda. Apakah ini lebih jelas?

— TeresaStat

Penyimpangan nol menunjukkan seberapa baik respons diprediksi oleh model dengan intersepsi.

Penyimpangan residual menunjukkan seberapa baik respon diprediksi oleh model ketika prediktor dimasukkan. Dari contoh Anda, dapat dilihat bahwa penyimpangan naik sebesar 3443,3 ketika 22 variabel prediktor ditambahkan (catatan: derajat kebebasan = jumlah pengamatan - jumlah prediksi). Peningkatan penyimpangan ini adalah bukti dari kurangnya kecocokan yang signifikan.

Kita juga bisa menggunakan penyimpangan residual untuk menguji apakah hipotesis nol itu benar (yaitu model regresi logistik memberikan kecocokan yang memadai untuk data). Ini dimungkinkan karena penyimpangan diberikan oleh nilai kuadrat pada tingkat kebebasan tertentu. Untuk menguji signifikansi, kita dapat menemukan nilai-p terkait dengan menggunakan rumus di bawah ini dalam R:

p-value = 1 - pchisq(deviance, degrees of freedom)

Menggunakan nilai-nilai penyimpangan residu dan DF di atas, Anda mendapatkan nilai-p sekitar nol yang menunjukkan bahwa ada kurangnya bukti yang signifikan untuk mendukung hipotesis nol.

> 1 - pchisq(4589.4, 1099)
[1] 0

— dts86
sumber

Bagaimana Anda tahu apa cut off untuk cocok baik / buruk berdasarkan penyimpangan dan jumlah variabel prediktor (tanpa pchisq)? Apakah hanya jika Penyimpangan Residual> Penyimpangan NULL atau ada beberapa rentang / rasio?

— Hack-R

Jawaban Anda tidak salah, tetapi bisa disalahpahami. Bahkan, itu telah disalahpahami (lih. Sini ). Mengingat hal itu, dapatkah Anda menjelaskan perbedaan yang tersirat dalam kode Anda?

— gung - Reinstate Monica