Pengungkapan Penuh: Ini adalah pekerjaan rumah. Saya telah memasukkan tautan ke dataset ( http://www.bertelsen.ca/R/logistic-regress.sav )
Tujuan saya adalah untuk memaksimalkan prediksi peminjam yang gagal dalam kumpulan data ini.
Setiap model yang saya buat sejauh ini, memprediksi> 90% dari non-default, tetapi <40% dari default membuat efisiensi klasifikasi keseluruhan ~ 80%. Jadi, saya ingin tahu apakah ada efek interaksi antar variabel? Dalam regresi logistik, selain menguji setiap kombinasi yang mungkin, adakah cara untuk mengidentifikasi efek interaksi potensial? Atau sebagai alternatif cara untuk meningkatkan efisiensi klasifikasi mangkir.
Saya buntu, setiap rekomendasi akan membantu dalam pilihan kata, sintaks R-kode atau SPSS Anda.
Variabel utama saya diuraikan dalam histogram dan sebar berikut (dengan pengecualian dari variabel dikotomis)
Deskripsi variabel primer:
age: Age in years
employ: Years with current employer
address: Years at current address
income: Household income in thousands
debtinc: Debt to income ratio (x100)
creddebt: Credit card debt in thousands
othdebt: Other debt in thousands
default: Previously defaulted (dichotomous, yes/no, 0/1)
ed: Level of education (No HS, HS, Some College, College, Post-grad)
Variabel tambahan hanyalah transformasi dari yang di atas. Saya juga mencoba mengubah beberapa variabel kontinu menjadi variabel kategori dan mengimplementasikannya dalam model, tidak berhasil di sana.
Jika Anda ingin memasukkannya ke R, cepat, ini dia:
## R Code
df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", use.value.labels=T, to.data.frame=T)