(Pertanyaan ini mungkin sepertinya lebih cocok untuk Philosophy SE. Saya berharap bahwa ahli statistik dapat mengklarifikasi kesalahpahaman saya tentang pernyataan Box dan Shmueli, maka saya mempostingnya di sini).
George Box (dari ARIMA fame) berkata:
"Semua model salah, tetapi beberapa berguna."
Galit Shmueli dalam makalahnya yang terkenal "To Explain or Predict" , berpendapat (dan mengutip orang lain yang setuju dengannya) bahwa:
Menjelaskan dan memprediksi tidak sama, dan bahwa beberapa model melakukan pekerjaan menjelaskan dengan baik, meskipun mereka melakukan pekerjaan yang buruk dalam memprediksi.
Saya merasa bahwa prinsip-prinsip ini entah bagaimana bertentangan.
Jika model tidak memprediksi dengan baik, apakah itu berguna?
Lebih penting lagi, jika suatu model menjelaskan dengan baik (tetapi tidak selalu memprediksi dengan baik), maka itu harus benar (yaitu tidak salah) dalam beberapa hal. Jadi bagaimana kaitannya dengan Box "semua model salah"?
Akhirnya, jika model menjelaskan dengan baik, tetapi tidak dapat memprediksi dengan baik, bagaimana ini bahkan ilmiah? Kebanyakan kriteria demarkasi ilmiah (verifikasi, falsificstionism, dll ...) menyiratkan bahwa pernyataan ilmiah harus memiliki kekuatan prediksi, atau bahasa sehari-hari: Sebuah teori atau model hanya benar jika dapat diuji secara empiris (atau dipalsukan), yang berarti bahwa harus memprediksi hasil di masa depan.
Pertanyaan saya:
- Apakah pernyataan Box dan ide-ide Shmueli memang bertentangan, atau apakah saya kehilangan sesuatu, misalnya model tidak memiliki kekuatan prediktif namun masih berguna?
- Jika pernyataan Box dan Shmueli tidak bertentangan, lalu apa artinya bagi model untuk menjadi salah dan tidak memprediksi dengan baik, namun masih memiliki kekuatan penjelas? Dengan kata lain: Jika seseorang menghilangkan kebenaran dan kemampuan prediksi, apa yang tersisa dari model?
Apa validasi empiris yang mungkin ketika model memiliki kekuatan penjelas, tetapi bukan daya prediksi? Shmueli menyebutkan hal-hal seperti: gunakan AIC untuk penjelasan dan BIC untuk prediksi, dll, ... tapi saya tidak melihat bagaimana itu menyelesaikan masalah. Dengan model prediktif, Anda dapat menggunakan regularisasi AIC, atau BIC, atau , atau , dll ... tetapi pada akhirnya dari pengujian sampel dan kinerja dalam produksi adalah apa yang menentukan kualitas model. Tetapi untuk model yang menjelaskan dengan baik, saya tidak melihat bagaimana fungsi kerugian dapat benar-benar mengevaluasi suatu model. Dalam filsafat sains, ada konsep underdeterminationyang tampaknya relevan di sini: Untuk setiap set data yang diberikan, kita selalu dapat dengan bijaksana memilih beberapa distribusi (atau campuran distribusi) dan fungsi kerugian sedemikian rupa sehingga sesuai dengan data (dan karenanya dapat diklaim untuk menjelaskannya). Selain itu, ambang batas yang harus di bawah untuk seseorang untuk mengklaim bahwa model tersebut cukup menjelaskan data adalah arbitrer (jenis seperti nilai-p, mengapa dan bukan atau ?).
- Berdasarkan hal di atas, bagaimana seseorang dapat secara valid memvalidasi model yang menjelaskan dengan baik, tetapi tidak memprediksi dengan baik, karena dari pengujian sampel tidak mungkin?