Saya menggunakan regresi logistik untuk memprediksi kemungkinan suatu peristiwa terjadi. Pada akhirnya, probabilitas ini dimasukkan ke dalam lingkungan produksi, tempat kami memfokuskan sebanyak mungkin pada prediksi kami yang "Ya". Oleh karena itu berguna bagi kita untuk memiliki gagasan tentang "hit" atau "non-hit" definitif apa yang mungkin menjadi apriori (sebelum berjalan dalam produksi), di samping langkah-langkah lain yang kami gunakan untuk menginformasikan penentuan ini.
Pertanyaan saya adalah, apa cara yang tepat untuk memprediksi kelas definitif (1,0) berdasarkan probabilitas yang diprediksi? Secara khusus, saya menggunakan glmnet
paket R untuk pemodelan saya. Paket ini secara sewenang-wenang memilih 0,5 kemungkinan sebagai ambang batas untuk ya atau tidak. Saya percaya bahwa saya perlu mengambil hasil dari aturan penilaian yang tepat, berdasarkan pada probabilitas yang diprediksi, untuk melakukan ekstrapolasi ke kelas definitif. Contoh dari proses pemodelan saya adalah di bawah ini:
mods <- c('glmnet', 'scoring')
lapply(mods, require, character.only = T)
# run cross-validated LASSO regression
fit <- cv.glmnet(x = df1[, c(2:100)]), y = df1[, 1], family = 'binomial',
type.measure = 'auc')
# generate predicted probabilities across new data
df2$prob <- predict(fit, type="response", newx = df2[, c(2:100)], s = 'lambda.min')
# calculate Brier score for each record
df2$propscore <- brierscore(df2[,1] ~ df2$prob, data = df2)
Jadi sekarang saya memiliki serangkaian skor Brier untuk setiap prediksi, tetapi kemudian bagaimana cara menggunakan skor Brier untuk menimbang secara tepat setiap kemungkinan menjadi ya atau tidak?
Saya mengerti bahwa ada metode lain untuk membuat penentuan ini juga, seperti Hutan Acak.