Diagnostik untuk regresi logistik?


74

Untuk regresi linier, kita dapat memeriksa plot diagnostik (plot residual, plot QQ Normal, dll) untuk memeriksa apakah asumsi regresi linier dilanggar.

Untuk regresi logistik, saya mengalami kesulitan menemukan sumber daya yang menjelaskan cara mendiagnosis model regresi logistik yang sesuai. Menggali beberapa catatan saja untuk GLM, itu hanya menyatakan bahwa memeriksa residu tidak membantu untuk melakukan diagnosis untuk kecocokan regresi logistik.

Melihat-lihat di internet, tampaknya ada berbagai prosedur "diagnosis", seperti memeriksa penyimpangan model dan melakukan tes chi-squared, tetapi sumber lain menyatakan bahwa ini tidak tepat, dan bahwa Anda harus melakukan kebaikan Hosmer-Lemeshow. uji. Kemudian saya menemukan sumber lain yang menyatakan bahwa tes ini mungkin sangat tergantung pada pengelompokan aktual dan nilai cut-off (mungkin tidak dapat diandalkan).

Jadi bagaimana seharusnya seseorang mendiagnosis regresi logistik sesuai?


1
Kemungkinan duplikat (atau kasus khusus) dari stats.stackexchange.com/questions/29271/… atau stats.stackexchange.com/questions/44643/… , meskipun tidak satu pun dari mereka memiliki jawaban yang benar-benar akan menyelesaikannya untuk Anda.
Peter Ellis

1
Saya sarankan Anda membaca monograf Scott Menard, yang belum lama ini tersedia secara keseluruhan di web gratis.
rolando2

2
Pertanyaan tentang langkah-langkah goodness of fit untuk regresi logistik ini mungkin bermanfaat (walaupun goodness of fit tentu saja hanya sebagian kecil dari diagnostik model): stats.stackexchange.com/questions/3559/logistic-regress-which-pseudo-r- squared-size-is-the-one-to-report-cox / 3570
S. Kolassa - Reinstate Monica

Jawaban:


39

Beberapa teknik baru yang saya temui untuk menilai kecocokan model regresi logistik berasal dari jurnal ilmu politik:

  • Greenhill, Brian, Michael D. Ward & Audrey Sacks. 2011. Plot pemisahan: Metode visual baru untuk mengevaluasi kesesuaian model biner. American Journal of Political Science 55 (4): 991-1002 .
  • Esarey, Justin & Andrew Pierce. 2012. Menilai kualitas dan pengujian kesesuaian untuk kesalahan spesifikasi dalam model variabel dependen biner. Analisis Politik 20 (4): 480-500 . PDF pracetak Di Sini

Kedua teknik ini dimaksudkan untuk menggantikan tes Goodness-of-Fit (seperti Hosmer & Lemeshow) dan mengidentifikasi potensi mis-spesifikasi (khususnya non-linearitas dalam variabel yang dimasukkan dalam persamaan). Ini sangat berguna karena ukuran kecocokan R-square yang khas sering dikritik .

Kedua makalah di atas menggunakan probabilitas diprediksi vs hasil yang diamati dalam plot - agak menghindari masalah yang tidak jelas tentang apa yang merupakan residual dalam model tersebut. Contoh residu dapat menjadi kontribusi untuk kemungkinan log atau residu Pearson (saya percaya ada lebih banyak lagi). Ukuran lain yang sering menarik (meskipun bukan residual) adalah milik DFBeta (jumlah yang diperkirakan oleh koefisien berubah ketika pengamatan dikeluarkan dari model). Lihat contoh di Stata untuk halaman UCLA ini tentang Diagnostik Regresi Logistik bersama dengan prosedur diagnostik potensial lainnya.

Saya tidak menggunakannya, tetapi saya percaya Model Regresi J. Scott Long untuk Variabel Ketegori dan Terbatas bergantung pada perincian yang cukup tentang semua tindakan diagnostik yang berbeda ini dengan cara yang sederhana.


2
Ada banyak buku lain di ember (setidaknya sebagian jika tidak keseluruhan) untuk regresi logistik. Berbagai buku teks analisis data kategorikal milik Agresti, Scott Menard, Hosmer dan Lemeshow, dan buku RMS milik Frank Harrell adalah semua yang saya lihat direkomendasikan di forum ini oleh berbagai kontributor.
Andy W

Terima kasih atas jawaban Anda. Saya kira tidak ada jawaban sederhana untuk pertanyaan saya. Saya akan melihat rekomendasi Anda. Tepuk tangan.
ialm

23

Pertanyaan itu tidak cukup termotivasi. Pasti ada alasan untuk menjalankan diagnostik model, seperti

  • Berpotensi mengubah model untuk membuatnya lebih baik
  • Tidak mengetahui tes yang diarahkan untuk digunakan (yaitu, tes non-linearitas atau interaksi)
  • P

Kecuali untuk memeriksa hal-hal yang ortogonal dengan spesifikasi regresi aljabar (misalnya, memeriksa distribusi residu dalam model linier biasa), model diagnostik dapat menciptakan masalah sebanyak yang mereka pecahkan menurut pendapat saya. Ini terutama berlaku untuk model logistik biner karena tidak memiliki asumsi distribusi.

Jadi biasanya lebih baik menghabiskan waktu menentukan model, terutama untuk tidak mengasumsikan linearitas untuk variabel yang dianggap kuat yang tidak ada bukti sebelumnya yang menunjukkan linearitas. Dalam beberapa kesempatan Anda dapat menentukan sebelumnya model yang harus sesuai, misalnya, jika jumlah prediktor kecil atau Anda membiarkan semua prediktor menjadi nonlinier dan (dengan benar) tidak menganggap interaksi.

Siapa pun yang merasa bahwa diagnosa model dapat digunakan untuk mengubah model harus menjalankan proses itu dalam loop bootstrap untuk memperkirakan dengan benar ketidakpastian model yang diinduksi.


4
Saya setuju bahwa diagnosa model harus berasal dari tujuan pemodelan. Namun, saya mendapat kesan dari paragraf pembuka Anda bahwa Anda pikir kami tidak harus memeriksa model yang kami cocok dengan data. Saya cukup yakin ini bukan yang Anda pikirkan. Selain itu, model logistik biner pasti tidak memiliki asumsi distribusi! (yang paling jelas adalah bahwa hanya ada dua nilai untuk respon)
probabilityislogic

3
Selain mengasumsikan hanya ada 2 nilai spesifik yang mungkin untuk Y, model logistik biner tidak memiliki dist. asumsi. Saya pribadi tidak sering menggunakan plot diagnostik dengan regresi logistik, memilih untuk menentukan model yang cukup fleksibel agar sesuai dengan data dengan cara apa pun ukuran sampel memberi kita kemewahan untuk diperiksa. Dalam OLS plot diagnostik utama yang saya gunakan adalah plot qq untuk normalitas residual.
Frank Harrell

Dari perspektif model linier umum, model logistik muncul dari distribusi binomial (distribusi Bernoulli). Tetapi bahkan kemudian, itu adalah untuk menafsirkan residu.
New_to_ini

Berbicara tentang distribusi ketika variabel acak dapat mengambil hanya dua nilai (yaitu, distribusi Bernoulli) tidak membantu karena tidak ada cara bahwa asumsi distribusi dapat salah kecuali pengamatan tidak independen.
Frank Harrell

1
@FrankHarrell Saya menyadari bahwa Anda tahu apa yang Anda bicarakan di sini, tapi saya tidak berpikir itu akan menjadi jelas bagi seluruh komunitas dari posting Anda / komentar yang salah spesifikasi dari prediktor linier (atau bahkan prediktor tambahan dalam Kerangka kerja GAM) dapat menyebabkan masalah untuk regresi logistik. Banyak yang mungkin tidak menghargai bahwa ini menciptakan data yang tidak independen, seperti kata Anda. Ketika siswa pertama kali mengalami regresi linier, mereka belajar untuk memeriksa residu tanpa membedakan antara kesalahan spesifikasi prediktor linier dan kesalahan spesifikasi distribusi kesalahan.
Jacob Socolar

5

Utas ini cukup lama, tetapi saya pikir akan bermanfaat untuk menambahkan bahwa, karena baru-baru ini, Anda dapat menggunakan paket DHARMa R untuk mengubah residu dari setiap GL (M) M menjadi ruang standar. Setelah ini dilakukan, Anda dapat menilai / menguji masalah residual secara visual seperti penyimpangan dari distribusi, ketergantungan residual pada prediktor, heteroskedastisitas, atau autokorelasi dengan cara normal. Lihat sketsa paket untuk contoh yang dikerjakan, juga pertanyaan lain tentang CV di sini dan di sini .

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.