Bagaimana kita bisa menilai keakuratan prediksi Nate Silver?

Pertama, ia memberikan probabilitas hasil. Jadi, misalnya, prediksinya untuk pemilihan AS saat ini adalah 82% Clinton vs 18% Trump.

Sekarang, bahkan jika Trump menang, bagaimana saya tahu bahwa itu bukan hanya 18% dari waktu yang seharusnya dia menangkan?

Masalah lainnya adalah probabilitasnya berubah seiring waktu. Jadi pada 31 Juli, hampir 50-50 antara Trump dan Clinton.

Pertanyaan saya adalah, mengingat bahwa ia memiliki probabilitas yang berbeda setiap hari untuk peristiwa di masa depan yang sama dengan hasil yang sama, bagaimana saya bisa mengukur seberapa akurat dia untuk setiap hari ia membuat prediksi berdasarkan informasi yang tersedia hingga hari itu?

— Sup Dinosaurus
sumber

Saya kira kita tidak bisa. Kita membutuhkan standar emas untuk membuat penilaian seperti itu, dan yang terbaik yang kita miliki hanyalah pengamatan dari pemilihan sebelumnya yang sulit untuk dibandingkan (karena setiap pemilihan akan mencakup metode alternatif pengambilan sampel dan perilaku pemilih). Tetapi saya bukan ahli dalam survei pemilu, jadi saya meninggalkan ini sebagai komentar dan bukan jawaban :)

— Tal Galili

@ Talgalili: kita bisa mengatakan setidaknya sesuatu, menggunakan aturan penilaian - sama seperti, misalnya, kita bisa mengatakan sesuatu tentang parameter yang tidak dapat diobservasi yang kita perkirakan dalam regresi.

— S. Kolassa - Reinstate Monica

Ini mungkin merupakan "aturan penilaian", tetapi, untuk n peristiwa, gandakan probabilitasnya untuk peristiwa-peristiwa yang terjadi dan ambil akar ke-n untuk mendapatkan semacam tingkat prediksi rata-rata (kami menganggap ia tidak pernah membuat prediksi 0%). Anda dapat mempertimbangkan setiap probabilitas harian sebagai prediksi terpisah.

— barrycarter

Mengapa probabilitas tidak dapat berubah seiring waktu? Dalam acara olahraga, tidakkah peluang berubah setiap kali gol dicetak atau home run tercapai?

— Rodrigo de Azevedo

Model Silver memberikan lebih dari sekedar estimasi probabilitas - ia memberikan estimasi margin kemenangan, yang berasal dari probabilitas menang dan margin kemenangan untuk masing-masing dari 50 negara. Jadi itu memberikan estimasi titik dan margin kesalahan untuk 50 pengukuran yang berbeda (meskipun dengan beberapa - mungkin tingkat korelasi tinggi di antara mereka), tidak hanya memprediksi hasil biner tunggal.

— Mikha

Jawaban:

Prakiraan probabilitas (atau, sebagaimana mereka juga dikenal, perkiraan kepadatan) dapat dievaluasi menggunakan aturan penilaian , yaitu fungsi yang memetakan perkiraan kepadatan dan hasil yang diamati pada apa yang disebut skor, yang diminimalkan dalam harapan jika kepadatan diperkirakan memang kepadatan yang benar untuk diprediksi. Aturan penilaian yang tepat adalah aturan penilaian yang diminimalkan hanya dengan kepadatan masa depan yang benar.

Ada cukup banyak aturan penilaian yang tepat yang tersedia, dimulai dengan Brier (1950, Monthly Weather Review ) dalam konteks peramalan cuaca probabilistik. Czado et al. (2009, Biometrics ) memberikan gambaran yang lebih baru untuk kasus diskrit. Gneiting & Katzfuss (2014, Tinjauan Tahunan Statistik dan Penerapannya ) memberikan ikhtisar peramalan probabilistik secara umum - Gneiting pada khususnya telah sangat aktif dalam memajukan penyebab aturan penilaian yang tepat.

Namun, aturan penilaian agak sulit untuk ditafsirkan, dan mereka benar-benar hanya membantu dalam membandingkan beberapa perkiraan probabilitas - yang memiliki skor lebih rendah lebih baik. Hingga variasi pengambilan sampel, yaitu, jadi selalu lebih baik untuk memiliki banyak perkiraan untuk dievaluasi, yang nilainya akan kami rata-rata.

Bagaimana memasukkan "pemutakhiran" dari perkiraan Silver atau yang lainnya adalah pertanyaan yang bagus. Kita dapat menggunakan aturan penilaian untuk membandingkan "potret" prakiraan yang berbeda pada satu titik waktu, atau kita bahkan dapat melihat prakiraan probabilistik Silver dari waktu ke waktu dan menghitung skor di setiap titik waktu. Orang akan berharap bahwa skor semakin rendah dan lebih rendah (yaitu, perkiraan kepadatan menjadi lebih baik dan lebih baik) semakin dekat hasil yang sebenarnya.

— S. Kolassa - Reinstate Monica
sumber

Cara lain untuk mengatakannya: Peluang individu yang diperkirakan untuk suatu peristiwa unik tidak dapat dievaluasi sendiri, tetapi peramal dapat dievaluasi (berdasarkan fungsi skor).

— kjetil b halvorsen

Untuk "diminimalkan dalam ekspektasi", saya pikir masalah utamanya adalah ekspektasi atas ensemble apa? Apakah kita mengambil semua prediksi Nate Silver? Hanya yang lebih dari pemilihan presiden? Saya tidak tahu apakah ada satu jawaban di sini. Untuk membandingkan peramal yang berbeda, prediksi atas serangkaian peristiwa umum bisa masuk akal.

— GeoMatt22

@ GeoMatt22 - ia memiliki metodologi yang cukup mirip untuk pemilihan lainnya, sehingga mungkin sah untuk menggabungkan semua prediksi pemilu

— DVK

Dalam buku Nate Silver, The Signal and the Noise, ia menulis yang berikut, yang mungkin memberikan beberapa wawasan untuk pertanyaan Anda:

Salah satu tes paling penting dari ramalan - saya berpendapat bahwa itu adalah yang paling penting - disebut kalibrasi. Dari semua waktu yang Anda katakan ada kemungkinan 40% hujan, seberapa sering hujan benar-benar terjadi? Jika, dalam jangka panjang, hujan benar-benar turun sekitar 40%, itu berarti prakiraan Anda telah dikalibrasi dengan baik. Jika hujan turun hanya 20 persen dari waktu, atau 60 persen dari waktu, mereka tidak.

Jadi ini menimbulkan beberapa poin. Pertama-tama, seperti yang Anda tunjukkan dengan benar, Anda benar-benar tidak dapat membuat kesimpulan tentang kualitas perkiraan tunggal dengan hasil acara yang Anda ramalkan. Yang terbaik yang dapat Anda lakukan adalah untuk melihat bagaimana kinerja model Anda selama banyak prediksi.

Hal lain yang penting untuk dipikirkan adalah bahwa prediksi yang diberikan Nate Silver bukan merupakan peristiwa itu sendiri, tetapi distribusi probabilitas dari peristiwa tersebut. Jadi dalam kasus pemilihan presiden, ia memperkirakan distribusi probabilitas Clinton, Trump, atau Johnson yang memenangkan perlombaan. Jadi dalam hal ini ia memperkirakan distribusi multinomial.

Tapi dia sebenarnya memprediksi balapan di tingkat yang jauh lebih terperinci. Prediksinya memperkirakan distribusi probabilitas persentase suara yang akan dikumpulkan setiap kandidat di setiap negara bagian. Jadi jika kita mempertimbangkan 3 kandidat, ini mungkin dicirikan oleh vektor acak dengan panjang 51 * 3 dan mengambil nilai dalam interval [0, 1], tunduk pada batasan bahwa proporsi menjumlahkan 1 untuk proporsi dalam suatu keadaan. Angka 51 adalah karena yang lainnya adalah 50 negara bagian + DC (dan pada kenyataannya saya pikir itu sebenarnya beberapa lagi karena beberapa negara bagian dapat membagi suara pemilihan perguruan tinggi mereka), dan nomor 3 adalah karena jumlah kandidat.

Sekarang Anda tidak memiliki banyak data untuk mengevaluasi prediksinya - dia hanya memberikan prediksi untuk 3 pemilihan terakhir yang saya ketahui (ada lebih banyak?). Jadi saya tidak berpikir bahwa ada cara untuk secara adil mengevaluasi modelnya, kecuali jika Anda benar-benar memiliki model di tangan dan dapat mengevaluasinya menggunakan data simulasi. Namun masih ada beberapa hal menarik yang bisa Anda lihat. Sebagai contoh, saya pikir akan menarik untuk melihat seberapa akurat dia memperkirakan proporsi pemilihan negara-oleh-negara pada titik waktu tertentu, misalnya seminggu keluar dari pemilihan. Jika Anda mengulangi ini untuk beberapa poin waktu, misalnya seminggu, sebulan, 6 bulan, dan setahun, maka Anda bisa memberikan penjelasan yang cukup menarik untuk prediksi-prediksi tersebut. Satu peringatan penting: hasilnya sangat berkorelasi di seluruh negara bagian dalam pemilihan sehingga Anda tidak dapat benar-benar mengatakan bahwa Anda memiliki 51 negara * 3 contoh prediksi pemilihan independen (yaitu jika model meremehkan kinerja kandidat di satu negara, itu akan cenderung meremehkan di negara-negara lain juga) . Tapi mungkin saya akan berpikir seperti ini saja supaya Anda memiliki cukup data untuk melakukan sesuatu yang berarti.

— dpritch
sumber

Untuk setiap prediksi yang tidak dapat Anda lakukan, lebih dari yang dapat kami katakan jika klaim "koin ini memiliki peluang 60% untuk muncul kembali" sudah dekat untuk dikoreksi dengan sekali lemparan.

Namun, Anda dapat menilai metodologinya di banyak prediksi - untuk pemilihan yang diberikan ia membuat banyak prediksi, tidak hanya dari pemilihan presiden secara keseluruhan tetapi banyak prediksi yang berkaitan dengan suara untuk presiden dan dari banyak ras lain (rumah, senat, gubnertorial dan seterusnya), dan dia juga menggunakan metodologi yang serupa secara luas dari waktu ke waktu.

Ada banyak cara untuk melakukan penilaian ini (beberapa cukup canggih), tetapi kita dapat melihat beberapa cara yang relatif sederhana untuk memahami hal itu. Sebagai contoh, Anda dapat membagi prediksi probabilitas menang menjadi band-band misalnya (50-55%, 55-65% dan seterusnya) dan kemudian melihat proporsi prediksi dalam band yang muncul; proporsi prediksi 50-55% yang berhasil harus berada di antara 50-55% tergantung di mana rata-rata berada (ditambah margin untuk variasi acak *).

Jadi dengan pendekatan itu (atau berbagai pendekatan lain) Anda dapat melihat apakah distribusi hasil konsisten dengan prediksi di seluruh pemilu, atau di beberapa pemilu (jika saya ingat benar, saya pikir prediksinya lebih sering benar daripada seharusnya). , yang menunjukkan kesalahan standarnya rata-rata sedikit berlebihan).

* kita harus berhati-hati tentang cara menilai itu, meskipun karena prediksi itu tidak independen.

— Glen_b -Reinstate Monica
sumber