Artinya nilai p dari variabel model regresi logistik

Jadi saya bekerja dengan model regresi logistik di R. Meskipun saya masih baru dalam statistik, saya merasa seperti saya mendapatkan sedikit pemahaman untuk model regresi sekarang, tetapi masih ada sesuatu yang mengganggu saya:

Melihat gambar yang ditautkan, Anda melihat ringkasan R yang dicetak untuk contoh model yang saya buat. Model ini mencoba untuk memprediksi, apakah email dalam dataset akan dibuat kembali atau tidak (variabel biner isRefound) dan dataset berisi dua variabel yang terkait erat isRefound, yaitu next24dan next7days- ini juga biner dan memberi tahu apakah sebuah email akan diklik di berikutnya 24 jam / 7 hari berikutnya dari titik saat ini dalam log.

Nilai p tinggi harus menunjukkan, bahwa dampak variabel ini terhadap prediksi model cukup acak, bukan? Berdasarkan hal ini saya tidak mengerti mengapa ketepatan prediksi model turun di bawah 10% ketika dua variabel ini tidak dimasukkan dalam rumus perhitungan. Jika variabel-variabel ini menunjukkan signifikansi yang rendah, mengapa mengeluarkan mereka dari model memiliki dampak yang begitu besar?

Salam dan terima kasih sebelumnya, Rickyfox

masukkan deskripsi gambar di sini

EDIT:

Pertama saya dihapus hanya next24, yang seharusnya menghasilkan dampak rendah karena itu cukup kecil. Seperti yang diharapkan, sedikit berubah - tidak akan mengunggah foto untuk itu.

Menghapus 7 hari ke depan yang berdampak besar pada model: AIC 200k ke atas, presisi turun ke 16% dan mengingat kembali ke 73%

masukkan deskripsi gambar di sini

— Deemel
sumber

Bagaimana jika Anda hanya memiliki isRefound ~ day + next24dan menghilangkan semua variabel lain?

— smillig

Pada dasarnya, sepertinya Anda mengalami masalah multikolinieritas. Ada banyak materi yang tersedia tentang ini, mulai dari situs web ini atau di wikipedia.

Secara singkat, dua prediktor tampaknya benar-benar terkait dengan hasil Anda, tetapi mereka juga mungkin sangat berkorelasi satu sama lain (perhatikan bahwa dengan lebih dari dua variabel, masih mungkin memiliki masalah multikolinieritas tanpa korelasi bivariat yang kuat). Ini tentu saja masuk akal: Semua email yang diklik dalam 24 jam juga telah diklik dalam 7 hari (menurut definisi) dan sebagian besar email mungkin belum diklik sama sekali (tidak dalam 24 jam dan tidak dalam 7 hari).

Salah satu cara ini menunjukkan dalam output yang Anda sajikan adalah melalui kesalahan / CI standar yang sangat besar untuk koefisien yang relevan (dilihat dari fakta bahwa Anda menggunakan bigglm dan bahkan koefisien kecil sangat signifikan, tampaknya ukuran sampel Anda harus lebih dari cukup. untuk mendapatkan perkiraan yang baik). Hal-hal lain yang dapat Anda lakukan untuk mendeteksi jenis masalah ini: Lihatlah korelasi berpasangan, hapus hanya satu variabel yang dicurigai (seperti yang disarankan oleh @Nick Sabbe), uji signifikansi untuk kedua variabel secara bersama-sama.

Lebih umum, nilai-p tinggi tidak berarti bahwa efeknya kecil atau acak tetapi hanya bahwa tidak ada bukti bahwa koefisien berbeda dari 0. Ini juga bisa sangat besar, Anda tidak tahu (baik karena sampel ukurannya terlalu kecil atau karena ada masalah lain dengan model).

— Gala
sumber

Perhatikan bahwa output baru yang Anda poskan menunjukkan bahwa beberapa variabel lain mungkin terlibat juga (atau ada masalah lain yang tidak saya lihat) karena jika tidak, Anda akan mengharapkan SE jauh lebih rendah ketika hanya satu dari dua variabel yang disertakan. .

— Gala

Ya sudah memperhatikan itu, tapi terima kasih. Saya akan melakukan pengeditan nanti untuk memberi tahu Anda apa yang mungkin menyebabkan ini jika Anda tertarik

— deemel