Jadi saya bekerja dengan model regresi logistik di R. Meskipun saya masih baru dalam statistik, saya merasa seperti saya mendapatkan sedikit pemahaman untuk model regresi sekarang, tetapi masih ada sesuatu yang mengganggu saya:
Melihat gambar yang ditautkan, Anda melihat ringkasan R yang dicetak untuk contoh model yang saya buat. Model ini mencoba untuk memprediksi, apakah email dalam dataset akan dibuat kembali atau tidak (variabel biner isRefound
) dan dataset berisi dua variabel yang terkait erat isRefound
, yaitu next24
dan next7days
- ini juga biner dan memberi tahu apakah sebuah email akan diklik di berikutnya 24 jam / 7 hari berikutnya dari titik saat ini dalam log.
Nilai p tinggi harus menunjukkan, bahwa dampak variabel ini terhadap prediksi model cukup acak, bukan? Berdasarkan hal ini saya tidak mengerti mengapa ketepatan prediksi model turun di bawah 10% ketika dua variabel ini tidak dimasukkan dalam rumus perhitungan. Jika variabel-variabel ini menunjukkan signifikansi yang rendah, mengapa mengeluarkan mereka dari model memiliki dampak yang begitu besar?
Salam dan terima kasih sebelumnya, Rickyfox
EDIT:
Pertama saya dihapus hanya next24, yang seharusnya menghasilkan dampak rendah karena itu cukup kecil. Seperti yang diharapkan, sedikit berubah - tidak akan mengunggah foto untuk itu.
Menghapus 7 hari ke depan yang berdampak besar pada model: AIC 200k ke atas, presisi turun ke 16% dan mengingat kembali ke 73%
isRefound ~ day + next24
dan menghilangkan semua variabel lain?