Cara memeriksa apakah model regresi saya baik


10

Salah satu cara untuk menemukan akurasi model regresi logistik menggunakan 'glm' adalah dengan menemukan plot AUC. Bagaimana cara memeriksa yang sama untuk model regresi yang ditemukan dengan variabel respon kontinu (keluarga = 'gaussian')?

Metode apa yang digunakan untuk memeriksa seberapa baik model regresi saya cocok dengan data?


Anda mungkin ingin melihat r-squaredtag dan goodness-of-fittag ..
Makro

2
Keluarga "Gaussian" dengan tautan linier hanyalah regresi kuadrat terkecil biasa (OLS); metode untuk memeriksa kecocokan seperti itu mungkin dibahas dalam ribuan pertanyaan di situs ini (saya tidak melebih-lebihkan).
whuber

Jawaban:


15

Saya akan menyarankan pencarian singkat tentang " diagnostik model regresi linier " sebagai permulaan. Tetapi di sini ada beberapa yang saya sarankan Anda periksa:

Pastikan asumsi dipenuhi dengan memuaskan

  • Gunakan scatterplot atau komponen plus plot sisa untuk menguji hubungan linear antara prediktor independen dan variabel dependen.

  • Buat plot dengan residual terstandarisasi dibandingkan nilai prediksi dan pastikan tidak ada titik ekstrem dengan residu sangat tinggi, dan sebaran residu sebagian besar sama di sepanjang nilai prediksi, serta sebaran sebagian besar sama di atas dan di bawah rata-rata residu, nol.

  • Anda juga dapat mengubah sumbu y ke residual . Plot ini membantu mengidentifikasi varian yang tidak sama.2

  • Periksa kembali desain penelitian untuk memastikan asumsi independensi masuk akal.

  • Ambil varians inflation factor (VIF) atau statistik toleransi untuk memeriksa kemungkinan collinearity.

Periksa titik-titik pengaruh potensial

  • Periksa statistik seperti Cook's D, DFits, atau DF Beta untuk mengetahui apakah suatu titik data tertentu secara drastis mengubah hasil regresi Anda. Anda dapat menemukan lebih banyak di sini .

Periksa perubahan dalam statistik dan AdjustedR2R2

  • Menjadi rasio jumlah regresi kuadrat dengan jumlah total kuadrat, dapat memberi tahu Anda berapa% variabilitas dalam variabel dependen Anda dijelaskan oleh model.R2
  • Adjusted dapat digunakan untuk memeriksa apakah jumlah kuadrat tambahan yang dihasilkan oleh prediksi saya tambahan benar-benar sebanding dengan tingkat kebebasan yang akan mereka ambil.R2

Periksa interaksi yang diperlukan

  • Jika ada prediktor independen utama, sebelum Anda membuat interpretasi atas efek independennya, periksa apakah ia berinteraksi dengan variabel independen lainnya. Interaksi, jika dibiarkan tidak disesuaikan, dapat membiaskan perkiraan Anda.

Terapkan model Anda ke kumpulan data lain dan periksa kinerjanya

  • Anda juga dapat menerapkan rumus regresi ke data terpisah lainnya dan melihat seberapa baik prediksi itu. Grafik seperti sebar plot dan statistik seperti% perbedaan dari nilai yang diamati dapat menjadi awal yang baik.

2
(+1): Jawaban yang sangat lengkap! Jika Anda menggunakan R, plot.lmdapat memberi Anda sebagian besar plot diagnostik yang disebutkan oleh Penguin_Knight.
Zach

4

Saya suka memvalidasi silang model regresi saya untuk melihat seberapa baik mereka menggeneralisasi data baru. Metrik pilihan saya adalah kesalahan absolut rata - rata pada data yang divalidasi silang, tetapi kesalahan rata-rata akar kuadrat lebih umum dan sama-sama bermanfaat.

Saya tidak menganggap R2 sebagai metrik yang baik tentang seberapa baik model Anda cocok dengan data pelatihan, karena hampir semua metrik kesalahan yang dihitung pada data pelatihan akan cenderung terlalu pas. Jika Anda harus menghitung R2 pada set pelatihan, saya sarankan menggunakan R2 yang disesuaikan .


1

Anda dapat menggunakan untuk memeriksa seberapa baik model Anda cocok dengan data pelatihan. Ini akan memberi tahu Anda berapa persen varian dalam data yang dijelaskan oleh model.R2

Saya sarankan menggunakan RMSE (root mean square error) dari prediksi Anda pada set tes Anda bila dibandingkan dengan nilai aktual. Ini adalah metode standar pelaporan kesalahan prediksi variabel kontinu.


1
@ Macro Tapi pertanyaan awalnya meminta metrik kinerja untuk Regresi OLS dengan kesalahan gaussian. Dia berasal dari regresi logistik.
Erik

@Erik, terima kasih, saya salah baca. Bagaimanapun, mengenai bagian pertama, saya tidak berpikir , secara terpisah, dapat digunakan untuk "memeriksa apakah model regresi saya baik", untuk menggunakan kata-kata OP. Model Anda bisa gagal total untuk memprediksi secara efektif pada sebagian besar data sambil tetap memiliki . Lihat di sini untuk contoh - dalam contoh (1), hampir tidak ada daya prediksi tetapi masih tinggi. R2R2R2
Makro

@ Macro, saya setuju dengan komentar Anda tetapi bertujuan untuk penjelasan sederhana untuk mengarahkan OP ke arah yang benar
BGreene

0

Saya terbiasa memeriksa bentuk fungsional penaksir parameter saya dengan memplot estimasi non-parametrik (misalnya, regresi kernel) atau semi-parametrik dan membandingkannya dengan kurva yang dipasang parametrik. Saya pikir ini pada langkah pertama seringkali lebih cepat (dan mungkin lebih berwawasan) daripada memasukkan istilah interaksi atau istilah pesanan lebih tinggi.

Paket R np menyediakan banyak fungsi non-parametrik dan semi-parametrik yang bagus, dan Vignette-nya ditulis dengan baik: http://cran.r-project.org/web/packages/np/vignettes/np.pdf

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.