Saya ingin mengevaluasi beberapa model berbeda yang memberikan prediksi perilaku di tingkat bulanan. Data seimbang, dan 100.000 dan 12. Hasilnya menghadiri konser di bulan tertentu, jadi nol untuk ~ 80% dari orang-orang di bulan apa pun, tetapi ada ekor panjang yang benar dari pengguna berat. Prediksi yang saya miliki tampaknya tidak menghargai sifat hitungan hasil: konser fraksional lazim.
Saya tidak tahu apa-apa tentang model. Saya hanya mengamati 6 prediksi kotak hitam berbeda untuk setiap orang per bulan. Saya memang memiliki satu tahun ekstra data yang tidak dimiliki oleh pembuat model untuk estimasi (meskipun penonton konser tetap sama), dan saya ingin mengukur di mana masing-masing berkinerja baik (dalam hal akurasi dan presisi). Misalnya, apakah beberapa model memprediksi dengan baik untuk penonton konser yang sering, tetapi gagal untuk kentang sofa? Apakah prediksi untuk bulan Januari lebih baik daripada prediksi untuk bulan Desember? Atau, akan menyenangkan untuk mengetahui bahwa prediksi memungkinkan saya untuk memberi peringkat orang dengan benar dalam hal aktual, bahkan jika besaran pastinya tidak dapat dipercaya.
Pikiran pertama saya adalah menjalankan efek tetap regresi aktual pada prediksi dan waktu boneka dan melihat RMSEs atau untuk masing-masing model. Tapi itu tidak menjawab pertanyaan tentang di mana masing-masing model bekerja dengan baik atau jika perbedaannya signifikan (kecuali saya bootstrap RMSE). Distribusi hasilnya juga membuat saya khawatir dengan pendekatan ini.
Gagasan kedua saya adalah untuk memasukkan hasilnya menjadi 0, 1-3, dan 3+, dan menghitung matriks kebingungan, tetapi ini mengabaikan dimensi waktu, kecuali jika saya membuat 12 di antaranya. Ini juga cukup kasar.
Saya mengetahui perintah Stata concord
oleh TJ Steichen dan NJ Cox - yang memiliki by()
pilihan, tetapi itu akan membutuhkan menyusutkan data ke total tahunan. Ini menghitung Indeks Korelasi Konkordansi Lin dengan interval kepercayaan, di antara statistik berguna lainnya. CCC berkisar dari -1 hingga 1, dengan kesepakatan sempurna pada 1.
Ada juga Harrell's (dihitung melalui
R. Newson), yang memiliki opsi, tetapi saya tidak yakin itu akan memungkinkan saya untuk berurusan dengan data panel. Ini memberi Anda interval kepercayaan. Harrell's c adalah generalisasi area di bawah kurva ROC (AUC) untuk hasil yang berkelanjutan. Proporsi semua pasangan yang dapat dipesan sehingga subjek dengan prediksi yang lebih tinggi sebenarnya memiliki hasil yang lebih tinggi. Jadi c = 0,5 untuk prediksi acak c = 1 untuk model diskriminatif sempurna. Lihat buku Harrell , hal.493somersd
cluster
Bagaimana Anda mengatasi masalah ini? Apakah Anda menyarankan menghitung statistik seperti MAPE yang umum dalam peramalan?
Hal-hal berguna yang ditemukan sejauh ini:
- Slide pada versi ukuran berulang Koefisien Korelasi Korelasi Lin