Optimalisasi: Akar semua kejahatan dalam statistik?

Saya telah mendengar ungkapan berikut sebelumnya:

"Optimasi adalah akar dari semua kejahatan dalam statistik".

Sebagai contoh, jawaban teratas di utas ini membuat pernyataan itu mengacu pada bahaya mengoptimalkan terlalu agresif selama pemilihan model.

Pertanyaan pertama saya adalah sebagai berikut: Apakah kutipan ini disebabkan oleh orang tertentu? (misalnya dalam literatur statistik)

Dari apa yang saya mengerti, pernyataan itu mengacu pada risiko overfitting. Kearifan tradisional akan mengatakan bahwa validasi silang yang tepat sudah berjuang melawan masalah ini, tetapi sepertinya ada lebih banyak masalah dari itu.

Haruskah ahli statistik & praktisi ML berhati-hati dalam mengoptimalkan model mereka secara berlebihan bahkan ketika mematuhi protokol validasi silang yang ketat (mis. 100 nested 10-fold CV)? Jika demikian, bagaimana kita tahu kapan harus berhenti mencari model "yang terbaik"?

cross-validation optimization overfitting

— Amelio Vazquez-Reina
sumber

Pertanyaan kedua jelas berdiri sendiri, bukan?

— russellpierce

@ Glen_b Saya meninggalkan referensi di utas itu. Tetapi hanya untuk mengklarifikasi, Dikran sudah menyarankan untuk membuka pertanyaan lanjutan untuk jawabannya di utas terpisah, dan saya ragu pertanyaan ini harus ditangani dalam komentar.

— Amelio Vazquez-Reina

@ RussellS.Pierce Suntingan yang berisi pertanyaan seperti yang ada sekarang - meskipun sudah dibuat sebelum komentar saya - tidak ada ketika saya memuatnya dan mulai meneliti pertanyaan awal dan kemungkinan jawaban, hanya ada apa yang saya jelaskan sebagai pertanyaan retoris di sana. Pertanyaan yang ada sekarang baik-baik saja.

— Glen_b -Reinstate Monica

Masalah validasi silang tercakup dalam pertanyaan lain di sini: stats.stackexchange.com/questions/29354 /... Validasi silang dapat membantu menghindari pemasangan berlebihan, tetapi itu tidak menyelesaikan masalah sepenuhnya. Mengetahui kapan harus berhenti bisa menjadi masalah yang sangat sulit, dan saya pikir tidak ada solusi umum.

— Dikran Marsupial

"Validasi silang yang tepat sudah berjuang melawan masalah ini, tapi sepertinya ada lebih banyak masalah dari ini." Ya: masalahnya masih merupakan varian dari estimasi validasi silang (dikombinasikan dengan beberapa pengujian yang bermasalah). Jika saya menemukan waktu, saya akan menulis jawaban untuk pertanyaan terkait Anda.

— cbeleites mendukung Monica

Jawaban:

Kutipan itu adalah parafrase dari kutipan Donald Knuth , kutipan yang dia sendiri kaitkan dengan Hoare. Tiga ekstrak dari halaman di atas:

Optimalisasi prematur adalah akar dari semua kejahatan (atau setidaknya sebagian besar) dalam pemrograman.

Optimalisasi prematur adalah akar dari semua kejahatan.

Knuth menyebut ini sebagai "Diktum Hoare" 15 tahun kemudian ...

Saya tidak tahu bahwa saya setuju dengan parafrase statistik *. Ada banyak 'kejahatan' dalam statistik yang tidak berhubungan dengan optimasi.

Haruskah ahli statistik & praktisi ML selalu waspada untuk mengoptimalkan model mereka secara berlebihan bahkan ketika mematuhi protokol validasi silang yang ketat (mis. 100 nested 10-fold CV)? Jika demikian, bagaimana kita tahu kapan harus berhenti mencari model "yang terbaik"?

Saya pikir hal yang penting adalah untuk sepenuhnya memahami (atau sepenuhnya layak) properti dari prosedur apa yang Anda lakukan.

$\,^\text{* I won't presume to comment on Knuth's use of it, since there's little I could}$ $\quad ^\text{say that he couldn't rightly claim to understand ten times as well as I do.}$

— Glen_b -Reinstate Monica
sumber

Terima kasih, ini sangat membantu. Saya pikir ada beberapa koneksi yang menarik antara optimasi pra-matang dalam pemrograman dan overfitting. Saya bertanya-tanya apakah ada kutipan serupa di komunitas kami, dan apakah ada cara yang ketat untuk melawan ini dalam statistik.

— Amelio Vazquez-Reina

Saya menggunakan frasa ini terinspirasi oleh Knuth, meskipun alasannya berbeda dan dari perspektif Bayesian hampir semua optimasi adalah hal yang buruk dan marginalisasi lebih baik.

— Dikran Marsupial

Beberapa cara Anda dapat menguraikan kutipan (dalam statistik), dengan asumsi optimasi mengacu pada pemilihan model (didorong data):

Jika Anda peduli tentang prediksi, Anda mungkin lebih baik dengan rata-rata model daripada memilih model tunggal.
Jika Anda memilih model pada dataset yang sama yang digunakan agar sesuai dengan model, itu akan mendatangkan malapetaka pada alat / prosedur inferensi biasa yang menganggap Anda telah memilih model a priori . (Katakan Anda melakukan regresi bertahap, memilih ukuran model dengan cross-validation. Untuk analisis Frequentist, nilai-p atau CI biasa untuk model yang dipilih akan salah. Saya yakin ada masalah yang sesuai untuk analisis Bayesian yang melibatkan model pilihan.)
Jika dataset Anda cukup besar dibandingkan dengan kelompok model yang Anda pertimbangkan, overfitting bahkan mungkin tidak menjadi masalah dan pemilihan model mungkin tidak perlu. (Katakanlah Anda akan cocok dengan regresi linier menggunakan dataset dengan beberapa variabel dan sangat banyak pengamatan. Setiap variabel palsu harus mendapatkan koefisien yang diperkirakan mendekati 0, jadi mungkin Anda bahkan tidak perlu repot memilih model yang lebih kecil.)
Jika dataset Anda cukup kecil, Anda mungkin tidak memiliki cukup data agar sesuai dengan model "benar" atau "terbaik" untuk masalah tersebut. Apa artinya melakukan pemilihan model dengan baik, dalam hal ini? (Kembali ke regresi linear: Haruskah Anda bertujuan untuk memilih "true" model dengan variabel yang tepat, bahkan jika Anda tidak memiliki cukup data untuk mengukur mereka semua cukup Haruskah Anda hanya memilih model terbesar yang Anda lakukan memiliki cukup data ?)
Akhirnya, meskipun sudah jelas Anda bisa dan harus melakukan pemilihan model, validasi silang bukanlah obat mujarab. Ini memiliki banyak varian dan bahkan parameter penyetelannya sendiri (jumlah lipatan, atau rasio kereta: uji) yang memengaruhi propertinya. Jadi jangan percaya begitu saja.

— civilstat
sumber