Jawaban:
Sebagai jawaban lain menyatakan dengan benar, probabilitas yang dilaporkan dari model seperti regresi logistik dan naif Bayes adalah perkiraan probabilitas kelas. Jika model itu benar, kemungkinan memang akan menjadi probabilitas klasifikasi yang benar.
Namun, sangat penting untuk memahami bahwa ini bisa menyesatkan karena modelnya diperkirakan dan karenanya bukan model yang benar. Setidaknya ada tiga masalah.
The ketidakpastian hanya fakta di mana-mana sekarang bahwa probabilitas hanya perkiraan. Interval kepercayaan dari estimasi probabilitas kelas dapat memberikan beberapa gagasan tentang ketidakpastian (probabilitas kelas, bukan klasifikasi).
Jika modelnya salah dan hadapi itu, itu adalah probabilitas kelas bisa sangat menyesatkan bahkan jika prediksi kelas baik. Regresi logistik dapat membuat probabilitas kelas salah untuk dua kelas yang cukup terpisah jika beberapa titik data sedikit ekstrim. Mungkin masih melakukan pekerjaan dengan baik dalam hal klasifikasi.
Jika prosedur estimasi (sengaja) memberikan estimasi bias , probabilitas kelas salah. Ini adalah sesuatu yang saya lihat dengan metode regularisasi seperti laso dan ridge untuk regresi logistik. Sementara pilihan regularisasi yang divalidasi silang mengarah ke model dengan kinerja yang baik dalam hal klasifikasi, probabilitas kelas yang dihasilkan jelas diremehkan (terlalu dekat dengan 0,5) pada kasus uji. Ini tidak selalu buruk, tetapi penting untuk diperhatikan.
Untuk kasus uji (input tertentu), kelasnya (misalkan label 1 untuk output biner) probabilitas prediktif adalah peluang contoh uji milik kelas itu. Pada banyak kasus uji seperti itu, proporsi yang termasuk kelas 1 akan cenderung ke probabilitas prediksi. Keyakinan memiliki konotasi interval kepercayaan, yang merupakan sesuatu yang sangat berbeda.
Jika classifier memprediksi kelas tertentu dengan probabilitas, angka itu dapat digunakan sebagai proksi untuk tingkat kepercayaan pada klasifikasi itu. Tidak perlu bingung dengan interval kepercayaan. Sebagai contoh jika classifier P memprediksi dua kasus sebagai +1 & -1 dengan probabilitas 80% & 60% maka itu benar untuk mengatakan bahwa itu lebih yakin tentang klasifikasi +1 daripada klasifikasi -1. Varians yang diukur dengan p (1-p) juga merupakan ukuran ketidakpastian yang baik. Catatan, kepercayaan dasar adalah 50% bukan 0.
Diberikan sebuah classifier dengan 2 kelas (misalnya classifier linear 2 atau classifier regresi logistik 2) nilai diskriminan untuk kedua kelas dapat diterapkan pada fungsi softmax untuk menghasilkan perkiraan probabilitas posterior untuk kelas tersebut:
P1 = exp (d1) / (exp (d1) + exp (d2))
Di mana P1 adalah estimasi probabilitas posterior untuk kelas 1, d1 dan d2 adalah nilai diskriminan untuk masing-masing kelas 1 dan 2. Dalam hal ini estimasi probabilitas posterior untuk kelas yang diberikan dapat diambil sebagai tingkat kepercayaan di kelas, untuk kasus yang diberikan sebagai P1 akan sama dengan 1 - P2.