Dalam buku Nate Silver, The Signal and the Noise, ia menulis yang berikut, yang mungkin memberikan beberapa wawasan untuk pertanyaan Anda:
Salah satu tes paling penting dari ramalan - saya berpendapat bahwa itu adalah yang paling penting - disebut kalibrasi. Dari semua waktu yang Anda katakan ada kemungkinan 40% hujan, seberapa sering hujan benar-benar terjadi? Jika, dalam jangka panjang, hujan benar-benar turun sekitar 40%, itu berarti prakiraan Anda telah dikalibrasi dengan baik. Jika hujan turun hanya 20 persen dari waktu, atau 60 persen dari waktu, mereka tidak.
Jadi ini menimbulkan beberapa poin. Pertama-tama, seperti yang Anda tunjukkan dengan benar, Anda benar-benar tidak dapat membuat kesimpulan tentang kualitas perkiraan tunggal dengan hasil acara yang Anda ramalkan. Yang terbaik yang dapat Anda lakukan adalah untuk melihat bagaimana kinerja model Anda selama banyak prediksi.
Hal lain yang penting untuk dipikirkan adalah bahwa prediksi yang diberikan Nate Silver bukan merupakan peristiwa itu sendiri, tetapi distribusi probabilitas dari peristiwa tersebut. Jadi dalam kasus pemilihan presiden, ia memperkirakan distribusi probabilitas Clinton, Trump, atau Johnson yang memenangkan perlombaan. Jadi dalam hal ini ia memperkirakan distribusi multinomial.
Tapi dia sebenarnya memprediksi balapan di tingkat yang jauh lebih terperinci. Prediksinya memperkirakan distribusi probabilitas persentase suara yang akan dikumpulkan setiap kandidat di setiap negara bagian. Jadi jika kita mempertimbangkan 3 kandidat, ini mungkin dicirikan oleh vektor acak dengan panjang 51 * 3 dan mengambil nilai dalam interval [0, 1], tunduk pada batasan bahwa proporsi menjumlahkan 1 untuk proporsi dalam suatu keadaan. Angka 51 adalah karena yang lainnya adalah 50 negara bagian + DC (dan pada kenyataannya saya pikir itu sebenarnya beberapa lagi karena beberapa negara bagian dapat membagi suara pemilihan perguruan tinggi mereka), dan nomor 3 adalah karena jumlah kandidat.
Sekarang Anda tidak memiliki banyak data untuk mengevaluasi prediksinya - dia hanya memberikan prediksi untuk 3 pemilihan terakhir yang saya ketahui (ada lebih banyak?). Jadi saya tidak berpikir bahwa ada cara untuk secara adil mengevaluasi modelnya, kecuali jika Anda benar-benar memiliki model di tangan dan dapat mengevaluasinya menggunakan data simulasi. Namun masih ada beberapa hal menarik yang bisa Anda lihat. Sebagai contoh, saya pikir akan menarik untuk melihat seberapa akurat dia memperkirakan proporsi pemilihan negara-oleh-negara pada titik waktu tertentu, misalnya seminggu keluar dari pemilihan. Jika Anda mengulangi ini untuk beberapa poin waktu, misalnya seminggu, sebulan, 6 bulan, dan setahun, maka Anda bisa memberikan penjelasan yang cukup menarik untuk prediksi-prediksi tersebut. Satu peringatan penting: hasilnya sangat berkorelasi di seluruh negara bagian dalam pemilihan sehingga Anda tidak dapat benar-benar mengatakan bahwa Anda memiliki 51 negara * 3 contoh prediksi pemilihan independen (yaitu jika model meremehkan kinerja kandidat di satu negara, itu akan cenderung meremehkan di negara-negara lain juga) . Tapi mungkin saya akan berpikir seperti ini saja supaya Anda memiliki cukup data untuk melakukan sesuatu yang berarti.