Halaman Scikit Learn pada Seleksi Model menyebutkan penggunaan validasi silang bersarang:
>>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas), ... n_jobs=-1) >>> cross_validation.cross_val_score(clf, X_digits, y_digits)
Dua loop validasi silang dilakukan secara paralel: satu oleh estimator GridSearchCV untuk mengatur gamma dan yang lainnya oleh cross_val_score untuk mengukur kinerja prediksi estimator. Skor yang dihasilkan adalah estimasi yang tidak bias dari skor prediksi pada data baru.
Dari apa yang saya mengerti, clf.fit
akan menggunakan validasi silang secara native untuk menentukan gamma terbaik. Dalam hal itu, mengapa kita perlu menggunakan nested cv seperti yang diberikan di atas? Catatan tersebut menyebutkan bahwa nested cv menghasilkan "perkiraan tidak bias" dari skor prediksi. Bukankah itu juga masalahnya clf.fit
?
Juga, saya tidak bisa mendapatkan perkiraan terbaik dari cross_validation.cross_val_score(clf, X_digits, y_digits)
prosedur. Bisakah Anda memberi saran bagaimana itu bisa dilakukan?