Saya pikir Anda mungkin salah paham kesalahan pengujian bersyarat. Ini mungkin karena Hastie, Friedman, dan Tibshirani (HFT) tidak konsisten dalam terminologi mereka, kadang-kadang menyebut gagasan yang sama ini "kesalahan pengujian", "kesalahan generalisasi", "kesalahan prediksi pada set tes independen", "kesalahan kondisional yang sebenarnya" , atau "kesalahan tes aktual".
Terlepas dari nama, itu rata-rata error bahwa model Anda dipasang pada training set tertentu akan dikenakan bila diterapkan contoh yang diambil dari distribusi (X, Y) pasang. Jika Anda kehilangan uang setiap kali model yang dipasang membuat kesalahan (atau sebanding dengan kesalahan jika Anda berbicara tentang regresi), itu adalah jumlah rata-rata uang yang Anda kehilangan setiap kali Anda menggunakan classifier. Boleh dibilang, itu hal yang paling alami untuk diperhatikan untuk model yang telah Anda pasang pada set pelatihan tertentu.τ
Setelah itu meresap, pertanyaan sebenarnya adalah mengapa orang harus peduli dengan kesalahan tes yang diharapkan! (HFT juga menyebutnya "kesalahan prediksi yang diharapkan".) Bagaimanapun, ini adalah rata-rata dari semua jenis pelatihan yang biasanya tidak akan Anda gunakan. (Tampaknya, bagaimanapun, bahwa HFT bermaksud rata-rata lebih dari set pelatihan ukuran tertentu dalam mendefinisikan kesalahan tes yang diharapkan, tetapi mereka tidak pernah mengatakan ini secara eksplisit.)
Alasannya adalah bahwa kesalahan tes yang diharapkan adalah karakteristik yang lebih mendasar dari suatu algoritma pembelajaran, karena itu rata-rata lebih dari keanehan apakah Anda beruntung atau tidak dengan set pelatihan khusus Anda.
Seperti yang Anda sebutkan, HFT menunjukkan perkiraan CV kesalahan tes yang diharapkan lebih baik daripada perkiraan kesalahan tes bersyarat. Ini beruntung jika Anda membandingkan algoritma pembelajaran mesin, tetapi disayangkan jika Anda ingin tahu seberapa baik model tertentu yang Anda cocok dengan set pelatihan tertentu akan bekerja.