Misalkan seseorang melakukan apa yang disebut bootstrap non-parametrik dengan menggambar sampel ukuran masing-masing dari pengamatan asli dengan penggantian. Saya percaya prosedur ini setara dengan memperkirakan fungsi distribusi kumulatif oleh cdf empiris:n n
http://en.wikipedia.org/wiki/Empirical_distribution_function
dan kemudian mendapatkan sampel bootstrap dengan mensimulasikan pengamatan dari estimasi cdf kali berturut-turut.B
Jika saya benar dalam hal ini, maka seseorang harus mengatasi masalah overfitting, karena cdf empiris memiliki tentang parameter N. Tentu saja, asimptotik itu menyatu dengan populasi cdf, tetapi bagaimana dengan sampel yang terbatas? Misalnya jika saya memberi tahu Anda bahwa saya memiliki 100 pengamatan dan saya akan memperkirakan cdf sebagai dengan dua parameter, Anda tidak akan khawatir. Namun, jika jumlah parameter naik hingga 100, sepertinya tidak masuk akal sama sekali.
Demikian juga, ketika seseorang menggunakan regresi linier berganda standar, distribusi istilah kesalahan diperkirakan sebagai . Jika seseorang memutuskan untuk beralih ke bootstrap residu, ia harus menyadari bahwa sekarang ada sekitar n parameter yang digunakan hanya untuk menangani distribusi istilah kesalahan.
Bisakah Anda mengarahkan saya ke beberapa sumber yang membahas masalah ini secara eksplisit, atau beri tahu saya mengapa ini bukan masalah jika Anda pikir saya salah.