Secara umum, jika kita memiliki dataset besar, kita dapat membaginya menjadi (1) pelatihan, (2) validasi, dan (3) tes. Kami menggunakan validasi untuk mengidentifikasi hyperparameter terbaik dalam validasi silang (misalnya, C dalam SVM) dan kemudian kami melatih model menggunakan hyperparameter terbaik dengan set pelatihan dan menerapkan model yang terlatih untuk menguji untuk mendapatkan kinerja.
Jika kami memiliki dataset kecil, kami tidak dapat membuat set pelatihan dan tes (tidak cukup sampel). Oleh karena itu, kami akan melakukan validasi silang (k-fold, leave-one-out, dll) untuk mengevaluasi kinerja model.
Saya telah melihat validasi silang bersarang (apakah berulang atau bertingkat) telah digunakan dalam pengaturan dataset kecil, yaitu, untuk menghasilkan kinerja model umum sambil mengoptimalkan pemilihan parameter. Pertanyaan saya adalah, bagaimana saya bisa mendapatkan hiperparameter terbaik dalam validasi silang bersarang (berulang / tidak diulang)? Saya tertarik melakukan ini di scikit-belajar, jika memungkinkan. Saya agak bingung bagaimana melakukannya.
Saya telah membaca beberapa sumber tetapi tidak ada yang memberi saya jawaban pasti untuk pertanyaan ini:
Validasi silang bersarang untuk pemilihan model
Validasi silang bersarang dan pemilihan fitur: kapan harus melakukan pemilihan fitur?