Kapan menghapus variabel yang tidak signifikan?


9

Saya sedang mengerjakan model regresi logistik. Saya memeriksa ringkasan model yang dibangun di atas 5 variabel independen yang mana tidak signifikan dengan nilai-P 0,74. Saya ingin tahu bahwa kita langsung menghapus variabel atau apakah ada cara lain untuk memeriksa signifikansi itu ?

Seorang senior saya menyarankan untuk melakukan transformasi logaritmik dari variabel tidak signifikan & mencari korelasi itu. Apakah itu diperhitungkan untuk memeriksa signifikansi itu.

model <- glm(Buy ~ a_score + b_score+ c_score+lb+p, data = history, family = binomial)

Semua variabel keluar menjadi signifikan dengan 2 atau 3 bintang terpisah dari a_score yang ditunjukkan tidak signifikan.


Apa tujuan latihan pembentukan model Anda? Apakah Anda tertarik pada statistik inferensial, misalnya, untuk artikel akademis, atau prediksi?
Stephan Kolassa

Jawaban:


42

Pertama-tama saya ingin bertanya: Apa tujuan model? Jika Anda hanya tertarik untuk memprediksi apakah pelanggan akan membeli, maka uji hipotesis statistik sebenarnya bukan masalah utama Anda. Sebaliknya, Anda harus memvalidasi model Anda secara eksternal melalui produk validasi / tes pada data yang tidak terlihat.

Sebaliknya, jika Anda tertarik untuk memeriksa faktor-faktor mana yang berkontribusi terhadap kemungkinan pembelian seorang pelanggan, maka tidak perlu menghapus variabel-variabel yang gagal menolak nol (terutama secara bertahap). Agaknya, Anda memasukkan variabel dalam model Anda karena Anda berpikir (dari pengalaman masa lalu atau pendapat ahli) bahwa itu memainkan peran penting dalam pelanggan memutuskan apakah mereka akan membeli. Bahwa variabel gagal untuk menolak nol tidak membuat model Anda buruk, itu hanya berarti bahwa sampel Anda tidak mendeteksi efek dari variabel itu. Tidak apa-apa.


3
Terpilih untuk keunggulan jawaban.
James Phillips

8
+1 Menghapus prediktor yang berpotensi terkait dengan hasil (bahkan jika "tidak signifikan") rumit dalam regresi logistik, mengingat bias yang dihilangkan-variabel bawaannya . Menghapus prediktor yang terkait dengan hasil dapat menyebabkan bias dalam estimasi koefisien dari prediktor yang ditahan, meskipun prediktor yang ditahan tidak berkorelasi dengan prediktor yang dihapus.
EdM

3
Ini memang jawaban yang sangat jelas.
gented

2

Lihat halaman bantuan untuk step(), drop1()dan add1(). Ini akan membantu Anda untuk menambah / menghapus variabel berdasarkan AIC. Namun, semua metode semacam itu agak cacat dalam ketergantungan jalurnya. Cara yang lebih baik adalah dengan menggunakan fungsi-fungsi dalam paket penalti atau glmnet untuk melakukan regresi laso.


-1

Apa korelasi antara variabel independen? Ini kurang penting untuk prediksi murni, tetapi jika Anda ingin mendapatkan beberapa informasi inferensial, penting agar variabel independen tidak cukup berkorelasi. Biasanya, ketika Anda menggunakan regresi logistik dalam lingkungan bisnis, informasi inferensial tentang variabel yang digunakan bersama dengan prediksi yang baik adalah yang dicari oleh para pemangku kepentingan.

Selain itu, alasan lain yang baik untuk menghapus variabel adalah karena kekikiran model. Beberapa alasan untuk ini adalah untuk keperluan tinjauan internal, peraturan hukum, dan kemudahan implementasi. Ini mengarah pada itu sangat diinginkan untuk menemukan set variabel terkecil yang memberikan informasi bisnis yang baik dan prediksi yang baik. Misalnya, jika Anda mengembangkan model kredit, setiap variabel harus ditinjau secara hukum, setiap variabel harus tersedia dan segera mengembalikan nilai ketika dipanggil untuk menilai pinjaman, dan para pemangku kepentingan (yang biasanya tidak berpengalaman dalam membangun model) cenderung untuk tidak ingin melihat model rumit yang sarat dengan variabel.

Mungkin juga bermanfaat untuk mencoba hutan acak untuk mendapatkan beberapa gagasan tentang variabel penting dan juga untuk memeriksa kekuatan prediksi dengan dan tanpa semua variabel.

Akhirnya, Anda harus memiliki alasan kuat untuk mentransformasikan variabel. Melemparkan setiap transformasi terhadap variabel hingga Anda menemukan satu yang memberi Anda hasil yang Anda inginkan adalah cara yang baik untuk mendapatkan model pakaian yang berkinerja buruk pada data baru.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.