Menerapkan jawaban Erik ke jawaban Michael :
Anda dapat melakukan jenis pemikiran yang sama dengan Erik ketika memilih ukuran kinerja.
Saya merasa terbantu untuk merujuk pada tindakan yang berbeda seperti itu dengan pertanyaan yang mereka jawab (di sini, dalam bahasa diagnostik medis yang paling saya kenal - tapi mungkin Anda bisa mengganti pasien dengan teks dan penyakit dengan spam ;-)):
Sensitivitas: mengingat pasien benar-benar mengidap penyakit, seberapa besar kemungkinan pengklasifikasi menyadari hal itu?
Spesifisitas: mengingat pasien benar-benar tidak memiliki penyakit, seberapa besar kemungkinan pengklasifikasi menyadari hal itu?
Nilai prediktif positif: mengingat pengklasifikasi mengklaim pasien berpenyakit, seberapa besar kemungkinan pasien menderita penyakit tersebut?
Nilai prediktif negatif: mengingat pengklasifikasi mengklaim pasien tidak berpenyakit, seberapa besar kemungkinan pasien tidak memiliki penyakit tersebut?
Seperti yang Anda lihat, nilai-nilai prediktif adalah apa yang benar-benar diminati oleh para dokter dan pasien. Namun, hampir semua orang menandai penggolongnya dengan sensitivitas dan spesifisitas. Alasannya adalah bahwa nilai-nilai prediktif perlu memperhitungkan prevalensi penyakit, dan itu dapat sangat bervariasi (urutan besarnya!) Untuk berbagai jenis pasien.
Lebih banyak tentang topik untuk pertanyaan Anda:
Saya yakin Anda benar dalam mengkhawatirkan.
Mengambil kedua skenario Erik sebagai contoh:
Berikut adalah contoh uji independen:
> binom.test (x = 810, n = 1000, p = 0.8)
Exact binomial test
data: 810 and 1000
number of successes = 810, number of trials = 1000, p-value = 0.4526
alternative hypothesis: true probability of success is not equal to 0.8
95 percent confidence interval:
0.7842863 0.8338735
sample estimates:
probability of success
0.81
(perhatikan bahwa tes ini dua sisi, dengan asumsi kedua pengklasifikasi akan diterbitkan bahkan jika hasilnya sebaliknya ...)
Inilah situasi terbaik: tes berpasangan, dan penggolong baru tepat untuk semua sampel yang lama benar, juga ditambah 10 lebih:
> ## mc.nemar: best possible case
> oldclassif <- c (rep ("correct", 800), rep ("wrong", 200))
> newclassif <- c (rep ("correct", 810), rep ("wrong", 190))
> table (oldclassif, newclassif)
newclassif
oldclassif correct wrong
correct 800 0
wrong 10 190
> mcnemar.test (oldclassif, newclassif)
McNemar's Chi-squared test with continuity correction
data: oldclassif and newclassif
McNemar's chi-squared = 8.1, df = 1, p-value = 0.004427
(nilai p tetap di bawah magis 0,05 selama tidak lebih dari 10 sampel dari 1000 diprediksi secara berbeda oleh kedua pengklasifikasi).
Bahkan jika nilai-p adalah jawaban yang tepat untuk pertanyaan yang salah, ada indikasi bahwa itu semacam tempat yang ketat.
Namun, dengan mempertimbangkan praktik ilmiah yang biasa yaitu jumlah fitur baru yang tidak diketahui (tidak dipublikasikan) telah diuji, dan hanya fitur yang bekerja sedikit lebih baik yang dipublikasikan, tempat tersebut menjadi semakin ketat. Dan kemudian, 80% classifier mungkin saja merupakan penerus dari beberapa 79% classifer ...
Jika Anda senang membaca bahasa Jerman, ada beberapa buku yang sangat bagus dari Beck-Bornhold dan Dubben. Jika saya ingat benar, Mit an Wahrscheinlichkeit grenzender Sicherheit memiliki diskusi yang sangat bagus tentang masalah ini. (Saya tidak tahu apakah ada edisi bahasa Inggris, terjemahan yang agak literal dari judulnya adalah "Dengan kepastian yang berbatasan dengan probabilitas")