Apakah prediksi merupakan 'kriteria emas' untuk menilai kemampuan para ahli statistik?


13

Saya sedang membaca model linear buku teks Faraway dengan R (edisi 1) akhir pekan lalu. Faraway memiliki bab yang disebut "Strategi Statistik dan Ketidakpastian Model". Dia menggambarkan (halaman 158) bahwa ia artifisial dihasilkan beberapa data menggunakan model yang sangat rumit, maka ia meminta murid-muridnya untuk memodelkan data dan membandingkan siswa hasil prediksi vs hasil membaca. Sayangnya, sebagian besar siswa melengkapi data pengujian dan memberikan nilai prediksi sepenuhnya melenceng. Untuk menjelaskan fenomena ini, dia menulis sesuatu yang sangat mengesankan bagi saya:

"Alasan mengapa model sangat berbeda adalah bahwa siswa menerapkan berbagai metode dalam urutan yang berbeda. Beberapa melakukan pemilihan variabel sebelum transformasi dan yang lainnya, sebaliknya. Beberapa mengulangi metode setelah model diubah dan yang lainnya tidak. Saya membahas strategi bahwa beberapa siswa menggunakan dan tidak dapat menemukan sesuatu yang jelas salah dengan apa yang telah mereka lakukan .Satu siswa melakukan kesalahan dalam menghitung nilai-nilai yang diprediksinya, tetapi tidak ada yang jelas salah dalam sisanya. Kinerja pada tugas ini tidak menunjukkan hubungan apa pun dengan itu dalam ujian. "

Saya dididik bahwa akurasi prediksi model adalah 'kriteria emas' bagi kami untuk memilih kinerja model terbaik. Jika saya tidak salah, ini juga metode populer yang digunakan dalam kompetisi Kaggle. Tapi di sini Faraway mengamati sesuatu yang berbeda, bahwa kinerja prediksi model tidak ada hubungannyadengan kemampuan yang terlibat statistik. Dengan kata lain, apakah kita dapat membangun model terbaik dalam hal daya prediksi tidak benar-benar ditentukan oleh seberapa berpengalaman kita. Sebaliknya itu ditentukan oleh 'model ketidakpastian' yang sangat besar (nasib sial?). Pertanyaan saya adalah: apakah ini benar dalam analisis data kehidupan nyata juga? Atau apakah saya bingung dengan sesuatu yang sangat mendasar? Karena jika ini benar, maka implikasi untuk analisis data nyata sangat besar: tanpa mengetahui "model nyata" di balik data, tidak ada perbedaan penting antara pekerjaan yang dilakukan oleh ahli statistik berpengalaman / tidak berpengalaman: keduanya hanya tebakan liar di depan data pelatihan tersedia.


2
+1 pertanyaan yang bagus. Untuk menawarkan sudut lain, katakanlah salah satu analis mengetahui mode yang sebenarnya - maka prediksinya mungkin juga buruk! Jadi, bahkan dengan mengetahui model yang sebenarnya, Anda akan melihat ini. Yang penting mungkin pengamatan Haggerty dan Srivinasans 1991 di Psychometrika bahwa "praktik [...] menyimpulkan bahwa model dengan akurasi prediksi yang lebih tinggi adalah" lebih benar "bukan kesimpulan yang valid".
Momo

1
Saya belum melihat buku itu, tetapi "pemilihan variabel" & "transformasi" sudah membunyikan lonceng peringatan. Lihat Algoritma untuk pemilihan model otomatis & Sifat Hubungan antara Prediktor dan Ketergantungan dalam Regresi . Saya juga tidak akan mengacaukan kinerja ujian siswa Statistik dengan kemampuan kerja nyata ahli statistik.
Scortchi

2
Informasi yang diberikan oleh Faraway ini tampaknya sangat anekdot untuk digunakan sebagai dasar untuk prinsip umum yang luas tentang bidang statistik. Saya tidak ingin membuat model tentang pemodelan prediktif berdasarkan contoh yang tidak dapat direproduksi. Mungkin juga mereka, secara sadar atau tidak, dipetik dengan ceri.
rolando2

3
Satu kesimpulan logis yang valid yang dapat diperoleh dari anekdot ini adalah bahwa tidak ada siswa Faraway yang (belum) memperoleh keterampilan yang diperlukan untuk berprestasi dengan baik pada tes prediksi. Sulit untuk membuat hubungan apa pun antara hasil itu dan spekulasi Anda tentang bagaimana kinerja ahli statistik berpengalaman.
whuber

@whuber: Saya tidak berpikir seperti itu. Saya setuju 28 siswa agak kecil, tetapi saya pikir pengamatan nyata ini memiliki beberapa implikasi serius. Jika Faraway membuat model yang sebenarnya, dan ia pergi dengan pekerjaan beberapa siswa, tidak dapat menemukan kesalahan serius, namun prediksi jauh dari apa yang seharusnya. Kemudian ini mengatakan sesuatu tentang 'model ketidakpastian' yang terlibat, bahwa seseorang setidaknya perlu pekerjaan yang dilakukan oleh analis terpisah untuk membandingkan perbedaan, tidak peduli seberapa 'berpengalaman' analis aslinya. Saya pikir ini cukup mengkhawatirkan saya.
Bombyx mori

Jawaban:


1

Saya bertanya kepada profesor di departemen saya tentang hal ini. Dia berkata terus terang bahwa dia tidak terkejut sama sekali. Dia menyarankan cara berikut untuk melihat ini: apa yang dilakukan Faraway hanyalah eksperimen satu kali, dan tidak mengherankan bahwa hasilnya tampaknya tidak memiliki korelasi dengan nilai akhir. Tetapi jika Faraway mengulangi 'percobaan' 100 kali dengan kelompok siswa yang sama, ia yakin bahwa siswa belajar statistik lebih baik akan berkinerja baik, sama seperti interval kepercayaan. Jadi dalam pengalaman pendapatnya itu penting, hanya saja eksperimen sosial satu kali tidak bisa menunjukkannya karena model ketidakpastian.


Saya menemukan alasan itu lucu. Saya pikir ini adalah alasan mengapa statistik digantikan oleh (atau re-branded) "ilmu data". Orang-orang mulai menyadari bahwa statistik-sebagaimana-diajarkan-di-universitas tidak terlalu bagus dalam prediksi, dan model tanpa kekuatan prediksi tidak berguna.
Flounderer

1
@Flounderer: Saya pikir ini bukan alasan, dan apa yang Anda tulis mungkin tidak terhubung dengan baik ke case ini. Pertama sebagian besar waktu dalam kehidupan nyata seseorang memiliki satu set pengujian dan satu set pelatihan, tidak seperti dalam kasus Faraway hanya ada satu set pelatihan yang tersedia. Kedua jika Anda melihat model Faraway, sangat non-linear sehingga metode regresi tidak bekerja dengan baik. Karenanya semua model linier hanyalah tebakan liar. Moral dari eksperimen ini adalah "semua model salah" daripada "statistik-seperti-yang diajarkan di universitas tidak terlalu bagus dalam prediksi".
Bombyx mori

@Flounderer: Dengan kata lain, saya percaya jika saya (atau siapa pun di forum) berada di posisi mahasiswa Faraway dua puluh tahun yang lalu menghadapi rangkaian pelatihan yang aneh ini, kami tidak mungkin melakukan yang lebih baik menggunakan model linier saja. Saya tidak berpikir ini adalah sesuatu yang berhubungan dengan "statistik-sebagai-diajarkan-di-universitas" sama sekali.
Bombyx mori

1

Model siswa hampir semuanya berpakaian lengkap. Dengan n titik data, seseorang dapat selalu cocok dengan polinomial urutan n-1. Model seperti itu sudah terlambat meninggalkan kesalahan acak. Tampaknya siswa telah membuat kesalahan overfittng serupa, tetapi mungkin dengan fungsi yang berbeda.

Overfitting adalah kesalahan yang seharusnya hanya dilakukan oleh siswa. Dan ini menunjukkan pengalaman dan pendidikan adalah kualifikasi yang diperlukan untuk pemodelan.


2
"Overfitting adalah kesalahan yang seharusnya hanya dilakukan oleh siswa" adalah standar yang cukup tinggi untuk ditanggung. Pemodelan sulit. Mungkin sesuatu seperti "Overfitting adalah sesuatu yang dipelajari oleh para model yang diakui dan dihindari melalui pengalaman dan pendidikan" akan lebih dekat dengan kebenaran?
Matthew Drury
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.