Bisakah probabilitas regresi logistik yang ditafsirkan diartikan sebagai kepercayaan dalam klasifikasi


12

Bisakah kita mengartikan probabilitas posterior yang diperoleh dari classifier yang menghasilkan nilai kelas yang diprediksi dan probabilitas (misalnya, regresi logistik atau Naif Bayes) sebagai semacam skor kepercayaan yang ditugaskan untuk nilai kelas yang diprediksi?

Jawaban:


8

Sebagai jawaban lain menyatakan dengan benar, probabilitas yang dilaporkan dari model seperti regresi logistik dan naif Bayes adalah perkiraan probabilitas kelas. Jika model itu benar, kemungkinan memang akan menjadi probabilitas klasifikasi yang benar.

Namun, sangat penting untuk memahami bahwa ini bisa menyesatkan karena modelnya diperkirakan dan karenanya bukan model yang benar. Setidaknya ada tiga masalah.

  • Ketidakpastian estimasi.
  • Model salah spesifikasi.
  • Bias.

The ketidakpastian hanya fakta di mana-mana sekarang bahwa probabilitas hanya perkiraan. Interval kepercayaan dari estimasi probabilitas kelas dapat memberikan beberapa gagasan tentang ketidakpastian (probabilitas kelas, bukan klasifikasi).

Jika modelnya salah dan hadapi itu, itu adalah probabilitas kelas bisa sangat menyesatkan bahkan jika prediksi kelas baik. Regresi logistik dapat membuat probabilitas kelas salah untuk dua kelas yang cukup terpisah jika beberapa titik data sedikit ekstrim. Mungkin masih melakukan pekerjaan dengan baik dalam hal klasifikasi.

Jika prosedur estimasi (sengaja) memberikan estimasi bias , probabilitas kelas salah. Ini adalah sesuatu yang saya lihat dengan metode regularisasi seperti laso dan ridge untuk regresi logistik. Sementara pilihan regularisasi yang divalidasi silang mengarah ke model dengan kinerja yang baik dalam hal klasifikasi, probabilitas kelas yang dihasilkan jelas diremehkan (terlalu dekat dengan 0,5) pada kasus uji. Ini tidak selalu buruk, tetapi penting untuk diperhatikan.


2

Untuk kasus uji (input tertentu), kelasnya (misalkan label 1 untuk output biner) probabilitas prediktif adalah peluang contoh uji milik kelas itu. Pada banyak kasus uji seperti itu, proporsi yang termasuk kelas 1 akan cenderung ke probabilitas prediksi. Keyakinan memiliki konotasi interval kepercayaan, yang merupakan sesuatu yang sangat berbeda.


1

Jika classifier memprediksi kelas tertentu dengan probabilitas, angka itu dapat digunakan sebagai proksi untuk tingkat kepercayaan pada klasifikasi itu. Tidak perlu bingung dengan interval kepercayaan. Sebagai contoh jika classifier P memprediksi dua kasus sebagai +1 & -1 dengan probabilitas 80% & 60% maka itu benar untuk mengatakan bahwa itu lebih yakin tentang klasifikasi +1 daripada klasifikasi -1. Varians yang diukur dengan p (1-p) juga merupakan ukuran ketidakpastian yang baik. Catatan, kepercayaan dasar adalah 50% bukan 0.


1

Diberikan sebuah classifier dengan 2 kelas (misalnya classifier linear 2 atau classifier regresi logistik 2) nilai diskriminan untuk kedua kelas dapat diterapkan pada fungsi softmax untuk menghasilkan perkiraan probabilitas posterior untuk kelas tersebut:

P1 = exp (d1) / (exp (d1) + exp (d2))

Di mana P1 adalah estimasi probabilitas posterior untuk kelas 1, d1 dan d2 adalah nilai diskriminan untuk masing-masing kelas 1 dan 2. Dalam hal ini estimasi probabilitas posterior untuk kelas yang diberikan dapat diambil sebagai tingkat kepercayaan di kelas, untuk kasus yang diberikan sebagai P1 akan sama dengan 1 - P2.


1
Jawaban ini tampaknya menyamakan "probabilitas" dengan "percaya diri" sedangkan jawaban @ Yoda (benar) membedakan keduanya.
whuber

@whuber Saya pikir secara umum kepercayaan bisa dipandang sebagai kekuatan keyakinan. Dengan cara itu seperti probabilitas. Interval kepercayaan dan interval kepercayaan adalah dua hal yang berbeda. Namun, bahkan untuk interval kepercayaan jangka, tingkat kepercayaan adalah probabilitas cakupan untuk interval acak.
Michael R. Chernick

Saya tidak setuju dengan pernyataan Anda, @Michael, dalam arti bahwa istilah seperti "skor kepercayaan" bisa berarti hampir apa saja (tapi mungkin penggunaannya harus dihentikan karena alasan itu). Namun dalam hal apa nilai yang sesuai dengan regresi logistik merupakan "probabilitas cakupan"? Apakah usulan Anda menggunakan "kepercayaan" sebagai kekuatan keyakinan menjadikannya identik dengan "probabilitas" subyektif, atau adakah perbedaan yang masih dipertahankan? (Jika ya, apa?)
whuber

1
@whuber saya pikir Anda akan jauh lebih dalam tentang ini daripada yang saya maksudkan dengan komentar saya. Saya hanya ingin mengatakan bahwa hanya karena kita biasanya menghubungkan kata "percaya diri" dengan interval kepercayaan, itu tidak berarti bahwa skor kepercayaan istilah OPs tidak dapat digunakan untuk berarti probabilitas (mungkin seperti pandangan Bayesian tentang probabilitas sebagai tingkat subjektif. keyakinan tetapi tidak harus).
Michael R. Chernick

1
@whuber, saya memang mengacu pada kepercayaan pada label kelas dalam arti 'kekuatan keyakinan', yaitu semakin besar nilai probabilitas posterior untuk kelas tertentu, semakin banyak keyakinan yang Anda miliki pada label kelas yang diprediksi. Saya senang menghapus jawaban ini.
BGreene
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.