Saya memiliki model regresi logistik terlatih yang saya terapkan pada set data pengujian. Variabel dependen adalah biner (boolean). Untuk setiap sampel dalam set data pengujian, saya menerapkan model regresi logistik untuk menghasilkan probabilitas% bahwa variabel dependen akan benar. Lalu saya mencatat apakah nilai acutal itu benar atau salah. Saya mencoba menghitung angka atau Adjusted seperti dalam model regresi linier.
Ini memberi saya catatan untuk setiap sampel dalam set pengujian seperti:
prob_value_is_true acutal_value
.34 0
.45 1
.11 0
.84 0
.... ....
Saya bertanya-tanya bagaimana cara menguji keakuratan model. Upaya pertama saya adalah menggunakan tabel kontingensi dan mengatakan "jika prob_value_is_true
> 0,80, tebak bahwa nilai sebenarnya adalah benar" dan kemudian mengukur rasio klasifikasi benar ke salah. Tapi saya tidak suka itu, karena rasanya lebih seperti saya hanya mengevaluasi 0,80 sebagai batas, bukan keakuratan model secara keseluruhan dan pada semua prob_value_is_true
nilai.
Kemudian saya mencoba untuk hanya melihat setiap nilai diskrit prob_value_is_true, sebagai contoh, melihat semua sampel di mana prob_value_is_true
= 0,34 dan mengukur% dari sampel di mana nilai acutal benar (dalam hal ini, akurasi sempurna akan menjadi jika% sampel sampel itu benar = 34%). Saya mungkin membuat skor akurasi model dengan menjumlahkan perbedaan pada setiap nilai diskrit prob_value_is_true
. Tetapi ukuran sampel menjadi perhatian besar di sini, terutama untuk ekstrem (mendekati 0% atau 100%), sehingga rata-rata nilai acutal tidak akurat, sehingga menggunakannya untuk mengukur akurasi model tampaknya tidak tepat.
Saya bahkan mencoba membuat rentang besar untuk memastikan ukuran sampel yang cukup (0-.25, .25-.50, .50-.75, .75-1.0), tetapi bagaimana mengukur "kebaikan" dari% nilai aktual itu membuat saya bingung . Katakan semua sampel yang prob_value_is_true
berada di antara 0,25 dan 0,50 memiliki rata-rata acutal_value
0,45. Apakah itu bagus karena berada dalam jangkauan? Buruk karena tidak dekat 37,5% (pusat kisaran)?
Jadi saya terjebak pada apa yang tampaknya menjadi pertanyaan yang mudah, dan berharap seseorang dapat mengarahkan saya ke sumber daya atau metode untuk menghitung akurasi yang stabil untuk model regresi logistik.