Residu untuk regresi logistik dan jarak Cook

10

Apakah ada asumsi khusus mengenai kesalahan untuk regresi logistik seperti varians konstan dari istilah kesalahan dan normalitas residual?
Juga biasanya ketika Anda memiliki titik yang memiliki jarak Cook lebih besar dari 4 / n, apakah Anda menghapusnya? Jika Anda menghapusnya, bagaimana Anda bisa tahu apakah model dengan titik yang dihapus lebih baik?

— tuan 12
sumber

12

Saya tidak tahu apakah saya bisa memberi Anda jawaban yang lengkap, tetapi saya bisa memberi Anda beberapa pemikiran yang mungkin bisa membantu. Pertama, semua model / tes statistik memiliki asumsi. Namun, regresi logistik sangat tidak mengasumsikan residu terdistribusi normal atau variansinya konstan. Sebaliknya, diasumsikan bahwa data didistribusikan sebagai binomial, , yaitu, dengan jumlah uji coba Bernoulli sama dengan jumlah pengamatan pada set yang tepat nilai kovariat dan dengan probabilitas yang terkait dengan set nilai kovariat tersebut. Ingat bahwa varians dari binomial adalah . Jadi, jika $\mathcal{B}(n_{x_i},p_{x_i})$ $np(1-p)$ $n$ Bervariasi pada level kovariat yang berbeda, variansnya juga. Lebih lanjut, jika salah satu dari kovariat semuanya terkait dengan variabel respon, maka probabilitas akan bervariasi, dan dengan demikian, varians juga akan berubah. Ini adalah fakta penting tentang regresi logistik.

Kedua, perbandingan model biasanya dilakukan antara model dengan spesifikasi yang berbeda (misalnya, dengan set kovariat yang berbeda termasuk), bukan pada subset data yang berbeda. Sejujurnya, saya tidak yakin bagaimana itu akan dilakukan. Dengan model linier, Anda bisa melihat 2 s untuk melihat berapa banyak lebih cocok adalah dengan data menyimpang dikecualikan, tetapi ini akan hanya menjadi deskriptif, dan Anda harus tahu bahwa akan memiliki naik. Namun, dengan regresi logistik, standar tidak dapat digunakan. Ada berbagai 'pseudo- $R^2$ $R^2$ $R^2$ $R^2$ Itu telah dikembangkan untuk memberikan informasi serupa, tetapi mereka sering dianggap cacat dan tidak sering digunakan. Untuk tinjauan umum berbagai pseudo- yang ada, lihat di sini . Untuk beberapa diskusi, dan kritik terhadap mereka, lihat di sini . Kemungkinan lain mungkin untuk menghubungkan betas beta dengan dan tanpa outlier termasuk untuk melihat bagaimana mengecualikan mereka berkontribusi untuk menstabilkan distribusi sampel mereka. Sekali lagi, ini hanya akan bersifat deskriptif (yaitu, itu tidak akan menjadi tes untuk memberi tahu Anda model mana - eh, bagian dari data Anda - yang lebih disukai) dan varians harus turun. Hal-hal ini benar, untuk pseudo- $R^2$ $R^2$ s dan distribusi jackknifed, karena Anda memilih data untuk dikecualikan berdasarkan fakta bahwa mereka tampak ekstrem.

— gung - Pasang kembali Monica
sumber

8

1) Apakah ada asumsi khusus mengenai kesalahan untuk regresi logistik seperti varians konstan dari istilah kesalahan dan normalitas residual?

Model regresi logistik tidak memiliki "kesalahan" dalam pengertian tradisional. Keduanya kontra-intuitif dan tidak konsisten secara metodologis. Keluaran model adalah probabilitas atau risiko yang sesuai sedangkan hasil yang diamati adalah 0/1 indikator peristiwa. Secara metodologis, Anda akan cenderung kurang menekankan domain probabilitas sangat tinggi atau sangat rendah (menyumbang jumlah yang sangat kecil untuk jarak residu) sedangkan algoritma pemasangan model menempatkan kepentingan yang jauh lebih tinggi pada daerah tersebut. Jarak kuadrat umumnya merupakan cara yang buruk untuk mengkalibrasi model regresi logistik.

Tes goodness of fit alternatif adalah tes Hosmer-Lemeshow di mana nilai-nilai pas digunakan untuk membuat partisi binned berdasarkan desil risiko pas. Anda dapat membaca tentang tes ini dalam Analisis Data Kategori Alan Agresti atau buku Logistic Regression oleh Hosmer dan Lemeshow. Proses lain adalah dengan menggunakan Residual yang Di Studentized di mana hubungan varians rata-rata digunakan untuk reweight residual oleh varians terbalik yang dipasang . Untuk regresi logistik ini

r_{s t u d} = \frac{Y - μ}{\sqrt{μ (1 - μ)}}

$r_{stud} = \frac{Y - \mu}{\sqrt{\mu(1-\mu)}}$

2) Juga biasanya ketika Anda memiliki titik yang memiliki jarak Cook lebih besar dari 4 / n, apakah Anda menghapusnya? Jika Anda menghapusnya, bagaimana Anda bisa tahu apakah model dengan titik yang dihapus lebih baik?

Saya tidak pernah menghapus poin berdasarkan analisis sensitivitas. Jika saya melakukan sampel acak dari 100 orang dan pendapatan mereka dan 1 orang menjadi miliarder, maka asumsi saya yang paling aman adalah bahwa 1 miliarder mewakili 1/100 dari populasi.

— AdamO
sumber

Mengapa Anda menganggap bahwa 1 miliarder mewakili 1/100 dari populasi? Anda mungkin bisa mendapatkan perkiraan dari luar proporsi miliarder dalam populasi!

— kjetil b halvorsen

6

Saya setuju dengan komentar AdamO di atas secara umum — dengan asumsi bahwa 1 miliarder mewakili 1/100 populasi benar-benar baik-baik saja. Namun, jika kehadiran 1 miliarder membuat data begitu buruk sehingga prediksi untuk 99 orang lainnya terpengaruh, saya akan menghapus 1 miliarder. Saya lebih suka salah dengan prediksi outlier daripada orang lain.

Karena itu, jika Anda menghapus titik data menggunakan nilai D Cook (yaitu, apa pun> 4 / df), maka Anda dapat menggunakan area di bawah kurva ROC untuk kedua model untuk memeriksa peningkatan.

— Sanjay Saravanan
sumber

1

(+1) Memodelkan hubungan antara peluang log dari respons & pendapatan dengan spline alami, mungkin mengubah pendapatan sebelumnya, adalah cara lain untuk menghindari prediksi miliarder yang mempengaruhi yang lain terlalu banyak. Menghapusnya berarti Anda senang tidak membuat prediksi untuk miliarder lain (cukup adil) daripada senang membuat prediksi yang salah tentang mereka.

— Scortchi

Ironisnya, ketika datang untuk memprediksi peristiwa biner, memang benar bahwa mengecualikan pengamatan berpengaruh dapat menyebabkan kalibrasi yang lebih baik dari prediksi risiko. Namun, mengecualikan pengamatan berpengaruh akan mengurangi diskriminasi prediksi risiko. Yang terakhir ini bisa dibilang lebih penting. Ketika datang untuk memprediksi risiko peristiwa tertentu (baik 0 atau 1, tidak dinilai terus menerus) jenis prediksi terbaik akan mendorong prediksi kasus lebih dekat ke 1 dan prediksi kontrol lebih dekat ke 0. Poin pengaruh tinggi sering efektif dalam melakukan ini.

— AdamO