Saya sedang membaca model linear buku teks Faraway dengan R (edisi 1) akhir pekan lalu. Faraway memiliki bab yang disebut "Strategi Statistik dan Ketidakpastian Model". Dia menggambarkan (halaman 158) bahwa ia artifisial dihasilkan beberapa data menggunakan model yang sangat rumit, maka ia meminta murid-muridnya untuk memodelkan data dan membandingkan siswa hasil prediksi vs hasil membaca. Sayangnya, sebagian besar siswa melengkapi data pengujian dan memberikan nilai prediksi sepenuhnya melenceng. Untuk menjelaskan fenomena ini, dia menulis sesuatu yang sangat mengesankan bagi saya:
"Alasan mengapa model sangat berbeda adalah bahwa siswa menerapkan berbagai metode dalam urutan yang berbeda. Beberapa melakukan pemilihan variabel sebelum transformasi dan yang lainnya, sebaliknya. Beberapa mengulangi metode setelah model diubah dan yang lainnya tidak. Saya membahas strategi bahwa beberapa siswa menggunakan dan tidak dapat menemukan sesuatu yang jelas salah dengan apa yang telah mereka lakukan .Satu siswa melakukan kesalahan dalam menghitung nilai-nilai yang diprediksinya, tetapi tidak ada yang jelas salah dalam sisanya. Kinerja pada tugas ini tidak menunjukkan hubungan apa pun dengan itu dalam ujian. "
Saya dididik bahwa akurasi prediksi model adalah 'kriteria emas' bagi kami untuk memilih kinerja model terbaik. Jika saya tidak salah, ini juga metode populer yang digunakan dalam kompetisi Kaggle. Tapi di sini Faraway mengamati sesuatu yang berbeda, bahwa kinerja prediksi model tidak ada hubungannyadengan kemampuan yang terlibat statistik. Dengan kata lain, apakah kita dapat membangun model terbaik dalam hal daya prediksi tidak benar-benar ditentukan oleh seberapa berpengalaman kita. Sebaliknya itu ditentukan oleh 'model ketidakpastian' yang sangat besar (nasib sial?). Pertanyaan saya adalah: apakah ini benar dalam analisis data kehidupan nyata juga? Atau apakah saya bingung dengan sesuatu yang sangat mendasar? Karena jika ini benar, maka implikasi untuk analisis data nyata sangat besar: tanpa mengetahui "model nyata" di balik data, tidak ada perbedaan penting antara pekerjaan yang dilakukan oleh ahli statistik berpengalaman / tidak berpengalaman: keduanya hanya tebakan liar di depan data pelatihan tersedia.