Bagaimana membandingkan akurasi dua model yang berbeda menggunakan signifikansi statistik


10

Saya sedang mengerjakan prediksi deret waktu. Aku punya dua set data D1={x1,x2,....xn} dan D2={xn+1,xn+2,xn+3,....,xn+k} . Saya memiliki tiga model prediksi: M.1,M.2,M.3 . Semua model yang sedang dilatih menggunakan sampel dalam set data D1 , dan kinerja mereka diukur dengan menggunakan sampel data set D2 . Katakanlah metrik kinerja adalah MSE (atau apa pun). MSE dari model-model tersebut ketika diukur untuk set data D2 adalah M.SE1,M.SE2, dan M.SE3 . Bagaimana saya bisa menguji bahwa peningkatan satu model di atas yang lain secara statistik signifikan.

Sebagai contoh, katakanlah M.SE1=200 , M.SE2=205 , M.SE3=210 , dan jumlah total sampel dalam kumpulan data D2 berdasarkan pada mana MSE dihitung adalah 2000. Bagaimana saya bisa menguji bahwa M.SE1 , M.SE2 , dan M.SE3 berbeda secara signifikan. Saya akan sangat menghargai jika ada yang bisa membantu saya dalam masalah ini.

Jawaban:


1

Salah satu pos tertaut di atas mengacu pada penggunaan uji rasio kemungkinan, meskipun model Anda harus bersarang satu sama lain agar ini berfungsi (yaitu semua parameter dalam salah satu model harus ada dalam model yang Anda uji terhadapnya) .

RMSE jelas merupakan ukuran seberapa baik model tersebut cocok dengan data. Namun demikian, rasio kemungkinan. Kemungkinan bagi seseorang, kata Ny. Chen, adalah kemungkinan seseorang dengan semua parameternya memiliki hasil yang dia miliki. Kemungkinan gabungan dari dataset adalah kemungkinan Mrs. Chen * kemungkinan Mrs. Gundersen * kemungkinan Mrs. Johnson * ... dll.

Menambahkan kovariat, atau sejumlah kovariat, tidak dapat benar-benar membuat rasio kemungkinan semakin buruk, saya tidak berpikir. Tetapi hal itu dapat meningkatkan rasio kemungkinan dengan jumlah yang tidak signifikan. Model yang lebih cocok akan memiliki kemungkinan lebih tinggi. Anda dapat menguji secara formal apakah model A lebih cocok dengan model B. Anda harus memiliki semacam fungsi tes LR yang tersedia di perangkat lunak apa pun yang Anda gunakan, tetapi pada dasarnya, statistik uji LR adalah -2 * perbedaan log dari kemungkinan, dan didistribusikan chi-square dengan df = perbedaan dalam jumlah parameter.

Juga, membandingkan AIC atau BIC dari kedua model dan menemukan yang terendah juga dapat diterima. AIC dan BIC pada dasarnya adalah kemungkinan log yang dihukum untuk sejumlah parameter.

Saya tidak yakin tentang menggunakan uji-t untuk RMSEs, dan saya benar-benar akan menentangnya kecuali Anda dapat menemukan beberapa pekerjaan teoritis yang telah dilakukan di daerah tersebut. Pada dasarnya, apakah Anda tahu bagaimana nilai-nilai RMSE terdistribusi secara asimptotik? Saya tidak yakin. Beberapa diskusi lebih lanjut di sini:

http://www.stata.com/statalist/archive/2012-11/index.html#01017


0

Jawaban ini tidak mempertimbangkan fakta, bahwa data Anda membentuk rangkaian waktu tetapi saya tidak berpikir ini akan menjadi masalah.

Saat menggunakan RMSE, postingan ini menyarankan menggunakan uji-t: Menguji signifikansi RMSE model

Anda juga bisa menggunakan korelasi Pearson untuk menilai kecocokan Anda. Menurut posting ini, Anda dapat menggunakan Wolfe's t-Test untuk itu: Statistik signifikansi peningkatan korelasi

Saat ini saya mencoba mempelajari tentang masalah yang sama. Saya akan menghargai jawaban yang lebih rinci.


0

Ada dua cara utama untuk melakukan ini, tetapi pertama-tama saya akan menantang gagasan bahwa Anda hanya ingin memilih satu. Kemungkinan besar, model ensemble dari tiga model yang terpisah akan mencapai kinerja terbaik dari semua.

Cara utama, mungkin yang terbaik, untuk melakukannya adalah menggunakan model untuk mendapatkan interval kepercayaan di sekitar metrik evaluasi. Ini biasanya dilakukan melalui bootstrap ( atau Poisson bootstrap ).

Cara lain adalah dengan menggunakan tes statistik. Setiap tes membuat asumsi yang berbeda, dan ini sering digunakan untuk membandingkan nilai atau sampel yang diambil dari distribusi daripada evaluasi titik tunggal. Banyak dari uji statistik ini secara formal membutuhkan independensi, yang biasanya tidak Anda miliki ketika membandingkan beberapa hasil dari model yang sama atau beberapa model dari data deret waktu.

Dengan prediksi deret waktu secara khusus, Anda harus melakukan pengujian ulang dengan validasi silang dan mengevaluasi kesalahan kereta dan tes pada setiap waktu ( contoh ). Ketika Anda melakukan ini, saya ragu model Anda semua akan melakukan hal yang sama sehingga Anda perlu uji statistik untuk membedakan; kemungkinan besar, Anda akan melihat perbedaan besar.

Perhatikan juga bahwa metrik evaluasi historis (membandingkan aktual dengan perkiraan) saja tidak cukup untuk evaluasi prediksi. Dengan dua prediksi yang sesuai dengan data historis yang diketahui dengan sempurna tetapi satu juga cocok dengan kepercayaan sebelumnya tentang masa depan dan yang lainnya jelas melanggar (misalnya, jika satu menghilang ke nol tetapi Anda memiliki alasan untuk percaya bahwa itu tidak dapat terjadi), Anda akan lebih memilih prediksi yang lebih baik cocok dengan yang sebelumnya.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.