Saya telah mendengar ungkapan berikut sebelumnya:
"Optimasi adalah akar dari semua kejahatan dalam statistik".
Sebagai contoh, jawaban teratas di utas ini membuat pernyataan itu mengacu pada bahaya mengoptimalkan terlalu agresif selama pemilihan model.
Pertanyaan pertama saya adalah sebagai berikut: Apakah kutipan ini disebabkan oleh orang tertentu? (misalnya dalam literatur statistik)
Dari apa yang saya mengerti, pernyataan itu mengacu pada risiko overfitting. Kearifan tradisional akan mengatakan bahwa validasi silang yang tepat sudah berjuang melawan masalah ini, tetapi sepertinya ada lebih banyak masalah dari itu.
Haruskah ahli statistik & praktisi ML berhati-hati dalam mengoptimalkan model mereka secara berlebihan bahkan ketika mematuhi protokol validasi silang yang ketat (mis. 100 nested 10-fold CV)? Jika demikian, bagaimana kita tahu kapan harus berhenti mencari model "yang terbaik"?