Sebuah aturan skoring adalah sarana mengevaluasi menebak sebuah agen dari probabilitas yang terkait dengan acara kategoris, diberi (kategoris) hasil dari acara tersebut. Bergantung pada tebakan dan hasil yang diamati, aturan pemberian skor memberi nilai pada agen (angka sebenarnya). Aturan penilaian seharusnya menetapkan skor sedemikian rupa sehingga, rata-rata, agen dengan skor terkecil membuat tebakan paling akurat. (Konvensi berbeda mengenai apakah aturan penilaian dibingkai dalam hal minimalisasi atau maksimalisasi. Di sini saya mengambil tampilan minimisasi.)
Properti penting dari aturan penilaian adalah apakah aturan penilaian yang tepat; yaitu, apakah mereka memberikan skor rata-rata paling rendah ketika agen menebak probabilitas sebenarnya (atau, dalam kerangka Bayesian yang subyektif, mereka memberikan skor rata-rata paling rendah, mengingat prior agen sendiri, ketika agen menggunakan tingkat kepercayaannya sendiri sebagai tebakannya). Dalam kasus peristiwa biner, kesalahan kuadrat dari 0 atau 1 (skor Brier) adalah aturan penilaian yang tepat sedangkan kesalahan absolut tidak. Mengapa? Nah, kriteria kelayakan didasarkan pada rata-rata, dan rata-rata adalah ukuran kecenderungan sentral yang meminimalkan jumlah perbedaan kuadrat, tetapi tidak perlu meminimalkan kesalahan absolut.
Garis pemikiran ini menunjukkan bahwa jika kita mengganti nilai rata-rata dalam definisi aturan penilaian yang tepat dengan beberapa fungsi statistik lainnya, seperti median, maka kita akan mendapatkan sejenis keluarga kaya dari aturan penilaian yang tepat. Tidaklah masuk akal membayangkan situasi di mana agen ingin meminimalkan skor mediannya daripada skor rata-rata. Sebenarnya, tampaknya tidak ada aturan penilaian median nontrivial yang tepat. Mempertimbangkan kasus peristiwa biner lagi, jika probabilitas sebenarnya kurang dari 1/2, maka skor median agen akan sama dengan skor apa pun yang diberikan kepada agen ketika acara tidak terjadi, terlepas dari peristiwa itu probabilitas tepat. Tahanan analog tampaknya terjadi jika kita mengganti mean dengan, katakanlah, mean geometrik.
Jadi, adakah pengertian bahwa agar teori aturan penilaian yang tepat berfungsi sebagaimana dimaksud, fungsi statistik harus menjadi rerata?
Saya menyadari ini adalah pertanyaan yang tidak jelas, dan jawaban terbaik kemungkinan adalah penjelasan mengapa pertanyaan itu tidak masuk akal, jadi inilah konteks di mana saya menemukan diri saya bertanya, untuk membantu Anda membuat saya bingung. Saya seorang psikolog pengambilan keputusan, dan saya sering mendapati diri saya ingin mengukur kinerja (baik kinerja prediktif, di bawah cross-validation, atau model fit post-hoc) dari model yang memunculkan kemungkinan apa yang akan dipilih orang dalam skenario keputusan biner. Diskusi di atas menyarankan saya harus menggunakan aturan penilaian yang tepat. Mengganggu, aturan penilaian yang tepat tidak pada skala yang sama dengan probabilitas. Saya menemukan diri saya ingin, misalnya, mengambil akar kuadrat dari kuadrat kesalahan rata-rata daripada hanya melihat rata-rata kuadrat kesalahan (yaitu, skor Brier rata-rata), tetapi dalam kasus satu percobaan, RMSE setara dengan kesalahan absolut, yang tidak tepat, jadi bukankah saya kemudian berpikir bahwa model yang kurang akurat lebih baik? Jelas saya tidak bisa begitu saja mengubah metode saya mengevaluasi aturan penilaian dari satu dalam hal sarana ke satu dalam hal, misalnya, median. Haruskah saya membiasakan diri dengan skala salah satu aturan penilaian yang tepat yang biasa, atau menggunakan statistik seperti deteksi sinyal seperti area di bawah kurva ROC atau d '?
Komplikasi tambahan adalah bahwa untuk satu penelitian saya mencari model bootstrap parametrik cocok, sesuai dengan Wagenmakers, Ratcliff, Gomez, dan Iverson (2004), yang berarti saya melihat plot kepadatan skor daripada skor individu. Maka semakin tidak jelas apakah saya harus khawatir tentang kelayakan atau tentang kriteria yang analog.
Sunting: lihat utas komentar ini di Reddit untuk diskusi lebih lanjut.
Wagenmakers, E.-J., Ratcliff, R., Gomez, P., & Iverson, GJ (2004). Menilai model mimikri menggunakan bootstrap parametrik. Jurnal Psikologi Matematika, 48 , 28-50. doi: 10.1016 / j.jmp.2003.11.004