Bagaimana cara memilih metrik terbaik untuk mengukur kalibrasi saya?

10

Saya memprogram dan melakukan pengembangan berbasis tes. Setelah saya membuat perubahan dalam kode saya, saya menjalankan tes saya. Terkadang mereka berhasil dan terkadang mereka gagal. Sebelum saya menjalankan tes saya menuliskan angka 0,01-0,99 untuk kepercayaan saya bahwa tes akan berhasil.

Saya ingin tahu apakah saya membaik dalam memprediksi apakah tes saya akan berhasil atau gagal. Akan lebih baik jika saya dapat melacak apakah saya lebih baik dalam memprediksi apakah tes akan berhasil pada hari Senin atau pada hari Jumat. Jika kemampuan saya untuk memprediksi keberhasilan tes berkorelasi dengan metrik lain yang saya lacak, saya ingin tahu.

Itu membuat saya memilih metrik yang tepat. Dalam Superforcasting Philip Tetlock mengusulkan untuk menggunakan skor Brier untuk mengukur seberapa baik para ahli dikalibrasi. Metrik lain yang telah diusulkan dalam literatur adalah aturan penilaian logaritmik . Ada juga kandidat lain yang mungkin.

Bagaimana cara saya memutuskan metrik mana yang akan digunakan? Apakah ada argumen untuk mendukung satu aturan penilaian atas yang lain?

— Kristen
sumber

1

Sumber potensial kesulitan dalam mengukur perubahan dalam keterampilan perkiraan Anda adalah bahwa kesulitan mendasar dari masalah perkiraan dapat berubah. Perubahan keterampilan Anda mungkin tidak dapat dibedakan dari perubahan kesulitan masalah.

— Matthew Gunn

1

Saya berasumsi bahwa Anda sedang melakukan tes unit untuk kode Anda.

Satu ide yang dapat saya pikirkan, yang mungkin tidak akan melakukan apa yang Anda inginkan, adalah menggunakan model linier.

Manfaat melakukan itu, adalah Anda dapat membuat banyak variabel lain yang dapat Anda sertakan dalam analisis.

$\mathbf{Y}$ $\mathbf{x}$

Sekarang Anda cukup memasukkan model linier

y_{saya} = Sebuah + b x_{saya} + ϵ

$y_i = a + bx_i +\epsilon$

$b$ $b$

Hal yang membuat pendekatan ini menyenangkan adalah bahwa sekarang Anda dapat mulai menambahkan banyak variabel lain untuk melihat apakah itu menciptakan model yang lebih baik, dan variabel-variabel itu dapat membantu dalam membuat prediksi yang lebih baik. Variabel bisa menjadi indikator untuk hari dalam seminggu, misalnya untuk hari Senin akan selalu menjadi 1, dan nol untuk semua hari lainnya. Jika Anda memasukkan variabel itu ke dalam model, Anda akan mendapatkan:

y_{saya} = Sebuah + {Sebuah}_{Senin} + b x_{saya} + ϵ

$y_i = a + a_{\text{Monday}} + bx_i +\epsilon$

$a_{\text{Monday}}$

Anda juga bisa membuat variabel baru di mana Anda memberi skor untuk menilai kesulitan tugas yang Anda lakukan. Jika Anda memiliki kontrol versi, maka Anda dapat mis menggunakan jumlah baris kode sebagai kesulitan, yaitu semakin banyak kode yang Anda tulis, semakin besar kemungkinan sesuatu akan rusak.

Variabel lain bisa jadi, jumlah cangkir kopi hari itu, indikator untuk tenggat waktu mendatang, yang berarti ada lebih banyak stres untuk menyelesaikan barang dll.

Anda juga dapat menggunakan variabel waktu untuk melihat apakah prediksi Anda menjadi lebih baik. Juga, berapa lama Anda menghabiskan waktu untuk tugas itu, atau berapa banyak sesi yang telah Anda habiskan untuk itu, apakah Anda melakukan perbaikan cepat dan mungkin ceroboh dll.

Pada akhirnya Anda memiliki model prediksi, di mana Anda dapat mencoba memprediksi kemungkinan keberhasilan. Jika Anda berhasil membuat ini, maka mungkin Anda bahkan tidak harus membuat prediksi sendiri, Anda bisa menggunakan semua variabel dan memiliki tebakan yang cukup bagus tentang apakah semuanya akan berhasil.

Masalahnya adalah Anda hanya menginginkan satu nomor. Dalam hal ini Anda dapat menggunakan model sederhana yang saya sajikan di awal dan hanya menggunakan kemiringan, dan mengulang perhitungan untuk setiap periode, maka Anda dapat melihat apakah ada tren dalam skor itu dari waktu ke waktu.

Semoga ini membantu.

— Gumeo
sumber

1

b

$b$

Y

$Y$

x

$x$

a

$a$

b

$b$

b

$b$

b

$b$

a

$a$

@IWS Terima kasih atas masukannya, saya setuju dengan Anda sejauh Anda menginginkan nilai tunggal untuk memperkirakan kinerja Anda, lalu menghilangkan intersep adalah ide yang bagus. Jika Anda ingin mencoba menafsirkan data lebih jauh, (dan Anda sudah cukup banyak), maka mungkin ide yang baik untuk menambahkan intersep dan membandingkan model.

— Gumeo

1

Walaupun ini jauh dari jawaban dan lebih banyak referensi, mungkin ide yang baik untuk memeriksa Steyerberg E - Epidemiology 2012 .

Dalam artikel ini Steyerberg dan rekannya menjelaskan berbagai cara untuk memeriksa kinerja model prediksi untuk model dengan hasil biner (sukses atau gagal). Kalibrasi hanyalah salah satu dari langkah-langkah ini. Tergantung pada apakah Anda ingin memiliki akurat probabilitas , klasifikasi akurat , atau reklasifikasi akurat Anda mungkin ingin menggunakan ukuran yang berbeda dari kinerja model. Meskipun manuskrip ini berkenaan dengan model untuk digunakan dalam penelitian biomedis, saya merasa mereka dapat diterapkan untuk situasi lain (milik Anda) juga.

Lebih spesifik untuk situasi Anda, metrik kalibrasi benar-benar sulit untuk ditafsirkan karena meringkas (yaitu rata-rata) kalibrasi pada seluruh rentang prediksi yang mungkin. Akibatnya, Anda mungkin memiliki skor ringkasan kalibrasi yang baik, sementara prediksi Anda tidak aktif dalam kisaran probabilitas prediksi yang penting (mis. Anda mungkin memiliki skor penghubung yang rendah (= baik), sedangkan prediksi untuk keberhasilan tidak ada di atas atau di bawah tertentu prediksi probabilitas) atau sebaliknya (skor ringkasan buruk, sedangkan prediksi dikalibrasi dengan baik di area kritis). Karena itu saya menyarankan Anda untuk memikirkan apakah rentang kritis dari probabilitas keberhasilan yang diprediksi ada dalam kasus Anda. Jika demikian, gunakan tindakan yang sesuai (mis. Indeks reklasifikasi). Jika tidak (artinya Anda tertarik dengan kalibrasi keseluruhan), gunakan brier,

Untuk menyimpulkan, salah satu dari langkah-langkah ringkasan kalibrasi memerlukan langkah pertama Anda untuk merencanakan probabilitas yang diprediksi terhadap probabilitas yang diamati (lihat jawaban Outlier misalnya bagaimana caranya). Selanjutnya, ukuran ringkasan dapat dihitung, tetapi pilihan ukuran ringkasan harus mencerminkan tujuan memprediksi keberhasilan kegagalan.

— IWS
sumber

0

Saya telah melakukan model prediksi pada data jarang dan ini merupakan tantangan besar untuk mendapatkan model Anda dikalibrasi dalam kasus ini. Saya akan memberi tahu Anda apa yang saya lakukan, Anda bisa mendapatkan bantuan dari itu.

Saya membuat 20 nampan probabilitas yang diprediksi dan mencoba merencanakan rata-rata yang diprediksi dan probabilitas keberhasilan yang sebenarnya. Untuk probabilitas prediksi rata-rata, saya mengambil rata-rata kisaran bin. Untuk probabilitas aktual rata-rata, saya menghitung keberhasilan aktual dan kegagalan dihitung dalam nampan, dari mana saya mendapatkan kemungkinan keberhasilan aktual (median) dalam nampan. Untuk mengurangi dampak pencilan, saya menghapus data 5% atas dan bawah sebelum mengambil probabilitas median aktual di setiap nampan.

Setelah saya dapatkan ini saya bisa dengan mudah memplot data.

— Outlier
sumber

Akan lebih baik untuk menunjukkan bahwa ini adalah langkah pertama dalam menghitung uji goodness of fit Hosmer-Lemeshow.

— jwimberley