Mengapa P> 0,5 cutoff tidak "optimal" untuk regresi logistik?

13

PENDAHULUAN: Saya tidak peduli tentang manfaat menggunakan cutoff atau tidak, atau bagaimana seseorang harus memilih cutoff. Pertanyaan saya murni matematika dan karena rasa ingin tahu.

Regresi logistik memodelkan probabilitas bersyarat posterior kelas A versus kelas B dan cocok dengan hyperplane di mana probabilitas kondisional posterior sama. Jadi dalam teori, saya mengerti bahwa 0,5 poin klasifikasi akan meminimalkan kesalahan total terlepas dari keseimbangan yang ditetapkan, karena memodelkan probabilitas posterior (dengan asumsi Anda secara konsisten menemukan rasio kelas yang sama).

Dalam contoh kehidupan nyata saya, saya mendapatkan akurasi yang sangat buruk menggunakan P> 0,5 sebagai batas penggolongan saya (sekitar 51% akurasi). Namun, ketika saya melihat AUC itu di atas 0,99. Jadi saya melihat beberapa nilai cutoff yang berbeda dan menemukan bahwa P> 0,6 memberi saya akurasi 98% (90% untuk kelas yang lebih kecil dan 99% untuk kelas yang lebih besar) - hanya 2% dari kasus yang salah diklasifikasi.

Kelas-kelasnya sangat tidak seimbang (1: 9) dan ini adalah masalah dimensi tinggi. Namun, saya mengalokasikan kelas secara sama untuk setiap set lintas-validasi sehingga tidak boleh ada perbedaan antara keseimbangan kelas antara model fit dan kemudian prediksi. Saya juga mencoba menggunakan data yang sama dari model fit dan dalam prediksi dan masalah yang sama terjadi.

Saya tertarik pada alasan mengapa 0,5 tidak akan meminimalkan kesalahan, saya pikir ini akan dengan desain jika model sedang fit dengan meminimalkan kerugian lintas-entropi.

Adakah yang tahu mengapa hal ini terjadi? Apakah karena menambah hukuman, dapatkah seseorang menjelaskan apa yang terjadi jika demikian?

logistic predictive-models unbalanced-classes

— felix000
sumber

2

Lihat stats.stackexchange.com/search?q=user%3A4253+cutoff

— Reinstate Monica

Scortchi, mungkinkah Anda sedikit lebih spesifik tentang pertanyaan tentang cutoffs yang menurut Anda relevan? Saya tidak melihat pertanyaan atau jawaban yang relevan sebelum saya diposting, atau sekarang.

— felix000

Maaf, saya tidak bermaksud mereka semua menjawab q Anda, tapi saya pikir mereka semua relevan dalam menyarankan tidak menggunakan akurasi pada cut-off sebagai metrik kinerja, atau setidaknya tidak cut-off sewenang-wenang tidak dihitung dari utilitas fungsi.

— Scortchi

16

Anda tidak harus mendapatkan kategori yang diprediksi dari model regresi logistik. Bisa saja tinggal dengan probabilitas diprediksi. Jika Anda mendapatkan kategori yang diprediksi, Anda tidak boleh menggunakan informasi itu untuk melakukan apa pun selain mengatakan 'pengamatan ini paling baik diklasifikasikan ke dalam kategori ini'. Misalnya, Anda tidak boleh menggunakan 'akurasi' / persen yang benar untuk memilih model.

$.50$ $N=100$ $99$ $49$ $.50$ $1$ $99\%$

$.50$ $50\%$ $.50$

— gung - Pasang kembali Monica
sumber

Hai, terima kasih atas penjelasannya, namun saya tidak mendapatkan contoh dengan model intercept-only. Dengan model intercept-only, Anda akan memiliki 0,99 untuk setiap contoh dan karenanya Anda akan memiliki akurasi 99% dengan mengambil nilai ambang batas apa pun.

— abcdaire

0

Saya pikir, itu bisa karena beberapa alasan:

Mungkin ada non-linearitas dalam data Anda, jadi menambahkan bobot secara linear, mungkin tidak selalu menghasilkan probabilitas yang benar
Variabel adalah campuran dari prediktor yang baik dan prediktor yang lemah, sehingga skor populasi sekitar 0,5 adalah karena prediktor yang lemah atau efek kurang dari prediktor yang kuat. Saat Anda pergi di atas, Anda mendapatkan orang-orang, yang efek prediktornya kuat

Jadi, Anda mungkin harus bermain-main dengan nilai cut-off, untuk memaksimalkan hasil yang Anda inginkan seperti presisi, akurasi dll. Karena sebagian besar populasi waktu tidak terlalu homogen.

— pengguna124690
sumber