Kapan harus berhenti memperbaiki model?

I have been studying statistics from many books for the last 3 years, and thanks to this site I learned a lot. Nevertheless one fundamental question still remains unanswered for me. It may have a very simple or a very difficult answer, but I know for sure it requires some deep understanding of statistics.

Saat memasang model ke data, baik itu pendekatan yang sering atau Bayesian, kami mengusulkan model, yang dapat terdiri dari bentuk fungsional untuk kemungkinan, prior, atau kernel (non-parametrik), dll. Masalahnya adalah model apa pun cocok dengan sampel dengan tingkat kebaikan tertentu. Seseorang selalu dapat menemukan model yang lebih baik atau lebih buruk dibandingkan dengan apa yang ada saat ini. Pada titik tertentu kita berhenti dan mulai menggambar kesimpulan, menggeneralisasi ke parameter populasi, melaporkan interval kepercayaan, menghitung risiko, dll. Oleh karena itu, kesimpulan apa pun yang kita gambar selalu tergantung pada model yang kita putuskan untuk diselesaikan. Bahkan jika kita menggunakan alat untuk memperkirakan jarak KL yang diharapkan seperti AIC, MDL, dll., Itu tidak mengatakan apa-apa tentang di mana kita berdiri dengan dasar absolut, tetapi hanya meningkatkan estimasi kita atas dasar relatif.

Sekarang anggaplah kita ingin mendefinisikan prosedur langkah demi langkah untuk diterapkan pada set data apa pun saat membangun model. Apa yang harus kita tentukan sebagai aturan penghentian? Bisakah kita setidaknya mengikat kesalahan model yang akan memberi kita titik henti objektif (ini berbeda dari menghentikan pelatihan menggunakan sampel validasi, karena hal itu juga memberikan titik henti dalam kelas model yang dievaluasi daripada menggunakan DGP yang sebenarnya)?

modeling inference aic

— Cagdas Ozgenc
sumber

I think you should add other tags to the question than just inference, e.g. some modeling tags and model-selection. I think that might be relevant for this is also Occam's razor. Here is also a paper that discusses it w.r.t. Bayesian modeling.

— Gumeo

Kadang-kadang Anda membangun model tertentu karena sangat baik untuk memperkirakan parameter tertentu, bukan karena Anda berpikir distribusi keseluruhan akurat (lihat M-estimasi, persamaan estimasi umum) dll. Jadi, jika Anda benar-benar peduli tentang perkiraan lokasi yang layak, Anda mungkin lebih baik dengan model yang salah tetapi model yang tidak mudah dilemparkan oleh kebisingan (untuk parameter yang Anda minati). Secara umum, lihat Estimasi Kuat.

Pertanyaan yang sangat menarik. Hanya komentar yang setidaknya dalam pengaturan Bayesian satu daripada juga menimbulkan pertanyaan rata-rata atas subset model yang masuk akal daripada memilih satu. Saya tidak yakin ada cara teoretis untuk pertanyaan OP dan saya kira secara praktis itu dilakukan oleh apakah model yang dipilih cukup baik untuk masalah yang kita coba pecahkan. Mungkin kita membutuhkan pemilihan model dengan metode MCMC atau semacamnya! Saya bisa membayangkan pendekatan MCMC bersarang untuk ini ...

— Luca

@Luca Ini sudah dilakukan. Namun masalah tetap karena ruang model yang ditentukan oleh Bayesian sebelumnya mungkin atau mungkin tidak mengandung model yang sebenarnya. Bahkan jika itu terjadi kesalahan model masih ada, itu adalah kesalahan dari model rata-rata sehubungan dengan DGP yang sebenarnya.

— Cagdas Ozgenc

+1 untuk pertanyaan. Sebagian besar, keprihatinannya bersifat filosofis atau epistemiologis, yaitu, tidak hanya "apa yang kita ketahui dan bagaimana kita mengetahuinya" tetapi "apa yang bisa kita ketahui dan bagaimana kita bisa mengetahuinya?" Seperti kata fisikawan Richard Feynman, "Tidak mungkin menemukan jawaban yang suatu hari kelak tidak akan ditemukan salah." Dengan kata lain dan kecuali Anda seorang yang religius, ada keraguan yang masuk akal apakah ada kebenaran dasar yang kekal dan univokal yang bisa digunakan untuk melabuhkan sesuatu. .

— Mike Hunter

Jawaban:

Sayangnya, pertanyaan ini tidak memiliki jawaban yang bagus. Anda dapat memilih model terbaik berdasarkan fakta bahwa ia meminimalkan kesalahan absolut, kesalahan kuadrat, memaksimalkan kemungkinan, menggunakan beberapa kriteria yang menghukum kemungkinan (misalnya AIC, BIC) untuk menyebutkan hanya beberapa pilihan paling umum. Masalahnya adalah bahwa tidak satu pun dari kriteria itu akan membiarkan Anda memilih model terbaik yang objektif, tetapi lebih baik dari yang Anda membandingkan. Masalah lain adalah bahwa sementara mengoptimalkan Anda selalu dapat berakhir di beberapa lokal maksimum / minimum. Namun masalah lain adalah bahwa pilihan Anda untuk kriteria pemilihan model adalah subyektif . Dalam banyak kasus Anda secara sadar, atau setengah sadar, membuat keputusan tentang apa yang Anda minati dan memilih kriteria berdasarkan ini. Sebagai contoh , menggunakan BIC daripada AIC mengarah ke model yang lebih pelit, dengan lebih sedikit parameter. Biasanya, untuk pemodelanAnda tertarik pada model yang lebih pelit yang mengarah pada beberapa kesimpulan umum tentang alam semesta, sedangkan untuk memprediksinya tidak harus begitu dan kadang-kadang model yang lebih rumit dapat memiliki kekuatan prediksi yang lebih baik (tetapi tidak harus dan seringkali tidak) . Dalam kasus lain, kadang-kadang model yang lebih rumit lebih disukai karena alasan praktis , misalnya saat memperkirakan model Bayesian dengan MCMC, model dengan hyperpriors dapat berperilaku lebih baik dalam simulasi daripada yang lebih sederhana. Di sisi lain, umumnya kita takut overfitting hierarkis dan model yang lebih sederhana memiliki risiko lebih rendah dari overfitting, sehingga merupakan pilihan yang lebih aman. Contoh yang bagus untuk ini adalah pemilihan model bertahap otomatis yang umumnya tidak direkomendasikan karena mudah mengarah pada perkiraan yang berlebihan dan bias. Ada juga argumen filosofis,pisau cukur Occam , bahwa model yang paling sederhana adalah yang paling disukai. Perhatikan juga, yang sedang kita bahas di sini membandingkan model yang berbeda, sementara dalam situasi kehidupan nyata juga bisa sehingga menggunakan alat statistik yang berbeda dapat menghasilkan hasil yang berbeda - sehingga ada lapisan tambahan dalam memilih metode!

Semua ini mengarah pada fakta yang menyedihkan, namun menghibur, yang tidak pernah bisa kami yakini. Kita mulai dengan ketidakpastian, menggunakan metode untuk menghadapinya dan kita berakhir dengan ketidakpastian. Ini mungkin paradoks, tetapi ingat bahwa kita menggunakan statistik karena kita percaya bahwa dunia tidak pasti dan probabilistik (jika tidak kita akan memilih karier para nabi), jadi bagaimana mungkin kita bisa berakhir dengan kesimpulan yang berbeda? Tidak ada aturan penghentian yang objektif, ada beberapa model yang mungkin, semuanya salah (maaf untuk klise!) Karena mereka mencoba untuk menyederhanakan realitas yang rumit (terus berubah dan probabilistik). Kami menemukan beberapa dari mereka lebih berguna daripada yang lain untuk tujuan kami dan kadang-kadang kami lakukanmenemukan model yang berbeda berguna untuk tujuan yang berbeda. Anda dapat pergi ke paling bawah untuk memperhatikan bahwa dalam banyak kasus kami membuat model yang tidak diketahui $\theta$ Itu, yang dalam banyak kasus tidak pernah bisa diketahui, atau bahkan tidak ada (apakah populasi memiliki $\mu$ untuk usia?). Sebagian besar model bahkan tidak mencoba menggambarkan realitas tetapi memberikan abstraksi dan generalisasi, sehingga mereka tidak bisa "benar", atau "benar".

Anda dapat melangkah lebih dalam dan menemukan bahwa tidak ada yang namanya "probabilitas" dalam kenyataan - itu hanya beberapa perkiraan ketidakpastian di sekitar kita dan ada juga cara alternatif untuk memperkirakannya seperti misalnya logika fuzzy (lihat Kosko, 1993 untuk diskusi). Bahkan alat dan teorema yang sangat mendasar yang menjadi dasar metode kita adalah perkiraan dan bukan satu-satunya yang mungkin. Kami tidak bisa memastikan pengaturan seperti itu.

Aturan berhenti yang Anda cari selalu spesifik masalah dan subyektif, yaitu berdasarkan penilaian profesional. Ngomong-ngomong, ada banyak contoh penelitian yang menunjukkan bahwa para profesional sering kali tidak lebih baik dan kadang-kadang bahkan lebih buruk dalam penilaian mereka daripada orang awam (misalnya dihidupkan kembali dalam makalah dan buku-buku oleh Daniel Kahneman ), sambil lebih cenderung terlalu percaya diri (ini sebenarnya argumen tentang mengapa kita tidak mencoba untuk "yakin" tentang model kita).

Kosko, B. (1993). Pemikiran fuzzy: ilmu baru logika fuzzy. New York: Hyperion.

— Tim
sumber

Jika ada "DGP sebenarnya" dan kami dapat mengukurnya, kami tidak akan membutuhkan statistik, kami akan mengukurnya secara langsung. Itu tidak ada, jadi kami membuat perkiraan realitas. DGP bersifat abstrak dan tidak benar dan dalam banyak kasus tidak banyak berkaitan dengan bagaimana data benar - benar dihasilkan. Saya ingin menunjukkan bahwa saya tidak mengatakan bahwa statistik bersifat subyektif dan tidak berguna, tetapi lebih merupakan perkiraan dan tidak ada hal seperti "true DGP" atau "true

μ

$\mu$ "dll.

— Tim

Klaim itu benar ketika asumsinya terpenuhi (misalnya kita diberikan sampel tetap, yang berlaku dalam praktiknya). Diambil keluar dari konteks dan dengan pelanggaran asumsi, tentu saja dapat dibuat salah.

— Richard Hardy

@CagdasOzgenc adalah seseorang yang memiliki metodologi untuk membuat model yang mencerminkan realitas dengan sempurna, daripada tidak perlu menghentikan aturan, atau untuk mengukur kesalahan model - model ini sempurna menurut definisi. Jika Anda tahu yang aturan untuk membangun model seperti, tidak ada kebutuhan untuk mengukur perbedaan model Anda dari DGP benar, karena mengetahui DGP benar hanya memanfaatkan pengetahuan tersebut. Di sisi lain, jika model Anda adalah penyederhanaan berdasarkan data yang Anda miliki, maka aturan statistik umum berlaku, seperti yang dijelaskan dalam jawaban saya.

— Tim

@CagdasOzgenc masih, jika Anda tahu "kebenaran", daripada aturan menghentikannya sederhana: berhenti ketika model Anda cocok dengan "kebenaran". Jika Anda tidak tahu apa yang sebenarnya, daripada "semua model [sama-sama] salah ..." dan Anda harus menggunakan statistik. Jika Anda tidak tahu, Anda tidak bisa mengukur divergensi darinya.

— Tim

@Luca Ini berarti sangat banyak, tapi itu adalah abstrak.

— Tim

Ada seluruh bidang yang disebut statistik nonparametrik yang menghindari penggunaan model yang kuat. Namun, kekhawatiran Anda tentang model pemasangan, per se, valid. Sayangnya tidak ada prosedur mekanis untuk menyesuaikan model yang akan diterima secara universal sebagai "optimal". Misalnya, jika Anda ingin mendefinisikan model yang memaksimalkan kemungkinan data Anda, maka Anda akan diarahkan ke fungsi distribusi empiris.

Namun, kami biasanya memiliki beberapa asumsi latar belakang dan kendala, seperti terus menerus dengan momen pertama dan kedua terbatas. Untuk kasus-kasus seperti ini, satu pendekatan adalah memilih ukuran seperti Shannon Differential Entropy dan memaksimalkannya di ruang distribusi kontinu yang memenuhi batasan batas Anda.

Yang ingin saya tunjukkan adalah bahwa jika Anda tidak hanya ingin default ke ECDF, maka Anda perlu menambahkan asumsi, di luar data, untuk sampai ke sana, dan itu membutuhkan keahlian materi pelajaran, dan, ya , ..... penilaian profesional yang ditakuti

Jadi, apakah ada titik berhenti dijamin untuk pemodelan ... jawabannya tidak. Apakah ada tempat yang cukup baik untuk berhenti? Secara umum, ya, tetapi titik itu akan tergantung pada lebih dari sekedar data dan beberapa desiderata statistik, Anda biasanya akan memperhitungkan risiko kesalahan yang berbeda, keterbatasan teknis untuk menerapkan model, dan kekuatan perkiraannya, dll.

Seperti yang ditunjukkan oleh @Luca, Anda selalu dapat rata-rata di atas kelas model, tetapi, seperti yang Anda tunjukkan dengan benar, itu hanya akan mendorong pertanyaan ke tingkat hyperparameter berikutnya. Sayangnya, kita tampaknya hidup dalam bawang berlapis-lapis ... di kedua arah!