Arti kesalahan pengujian bersyarat vs kesalahan pengujian yang diharapkan dalam cross-validation

9

Buku teks saya tentang validasi silang adalah Elemen Pembelajaran Statistik oleh Hastie et al. (2nd ed.). Di bagian 7.10.1 dan 7.12, mereka berbicara tentang perbedaan antara kesalahan pengujian bersyarat dan tes yang diharapkan kesalahan Di sini adalah kumpulan data pelatihan, adalah fungsi kerugian, adalah model yang dilatih pada . adalah harapannya.

E_{(X^{*}, Y^{*})} [L (Y, \hat{f} (X)) | τ]

$E_{(X^*,Y^*)}[L(Y, \hat{f}(X))|\tau]$

E_{τ} [E_{(X^{*}, Y^{*})} [L (Y, \hat{f} (X)) | τ]] .

$E_\tau [E_{(X^*,Y^*)}[L(Y, \hat{f}(X))|\tau]].$

τ

$\tau$

L

$L$

\hat{f}

$\hat{f}$

τ

$\tau$

E

$E$

Mereka menjelaskan bahwa CV hanya memperkirakan kesalahan tes yang diharapkan dengan baik.

Pertanyaan saya adalah, adakah alasan mengapa kita peduli dengan kesalahan pengujian bersyarat?

Satu-satunya alasan yang bisa saya pikirkan adalah bahwa kita ingin menjawab pertanyaan 'Jika Tuhan meletakkan set data di atas meja, tetapi hanya memungkinkan kita membawa 1 rumah untuk cocok dengan model kita, yang mana yang harus kita pilih?' $n$

cross-validation definition

— qoheleth
sumber

5

Saya pikir Anda mungkin salah paham kesalahan pengujian bersyarat. Ini mungkin karena Hastie, Friedman, dan Tibshirani (HFT) tidak konsisten dalam terminologi mereka, kadang-kadang menyebut gagasan yang sama ini "kesalahan pengujian", "kesalahan generalisasi", "kesalahan prediksi pada set tes independen", "kesalahan kondisional yang sebenarnya" , atau "kesalahan tes aktual".

Terlepas dari nama, itu rata-rata error bahwa model Anda dipasang pada training set tertentu akan dikenakan bila diterapkan contoh yang diambil dari distribusi (X, Y) pasang. Jika Anda kehilangan uang setiap kali model yang dipasang membuat kesalahan (atau sebanding dengan kesalahan jika Anda berbicara tentang regresi), itu adalah jumlah rata-rata uang yang Anda kehilangan setiap kali Anda menggunakan classifier. Boleh dibilang, itu hal yang paling alami untuk diperhatikan untuk model yang telah Anda pasang pada set pelatihan tertentu. $\tau$

Setelah itu meresap, pertanyaan sebenarnya adalah mengapa orang harus peduli dengan kesalahan tes yang diharapkan! (HFT juga menyebutnya "kesalahan prediksi yang diharapkan".) Bagaimanapun, ini adalah rata-rata dari semua jenis pelatihan yang biasanya tidak akan Anda gunakan. (Tampaknya, bagaimanapun, bahwa HFT bermaksud rata-rata lebih dari set pelatihan ukuran tertentu dalam mendefinisikan kesalahan tes yang diharapkan, tetapi mereka tidak pernah mengatakan ini secara eksplisit.)

Alasannya adalah bahwa kesalahan tes yang diharapkan adalah karakteristik yang lebih mendasar dari suatu algoritma pembelajaran, karena itu rata-rata lebih dari keanehan apakah Anda beruntung atau tidak dengan set pelatihan khusus Anda.

Seperti yang Anda sebutkan, HFT menunjukkan perkiraan CV kesalahan tes yang diharapkan lebih baik daripada perkiraan kesalahan tes bersyarat. Ini beruntung jika Anda membandingkan algoritma pembelajaran mesin, tetapi disayangkan jika Anda ingin tahu seberapa baik model tertentu yang Anda cocok dengan set pelatihan tertentu akan bekerja.

— DavidDewis
sumber

+1. Apakah Anda mengerti mengapa CV, khususnya CV cuti-keluar-keluar (LOOCV), memperkirakan kesalahan pengujian yang diharapkan dan bukan kesalahan pengujian bersyarat (on )? Hastie et al. cukup klaim bahwa ini adalah kasus di Bagian 7.12 berdasarkan pada beberapa simulasi yang mereka lakukan (yang tidak disajikan dengan sangat jelas), tetapi tidak menawarkan penjelasan mengapa ini harus terjadi. Saya bingung dengan bagian ini. Bagi saya LOOCV adalah cara paling langsung untuk memperkirakan kesalahan bersyarat .

τ

$\tau$

— amoeba

1

Secara intuitif, masuk akal bagi saya bahwa CV tidak terlalu bagus untuk kesalahan pengujian bersyarat karena seluruh prosedur didasarkan pada perubahan data pelatihan Anda. (Untuk perkiraan terbaik dari kesalahan pengujian bersyarat, Anda memerlukan set tes terpisah.) Tapi itu wajar untuk bertanya mengapa perubahan kecil pada set pelatihan yang terlibat dalam LOOCV cukup memadai untuk ini.

— Kodiolog

@amoeba Anda mengatakan sesuatu yang menarik perhatian saya. LOOCV tampaknya menjadi cara yang lebih langsung untuk memperkirakan kesalahan bersyarat dibandingkan dengan mengatakan 10 kali lipat CV. Namun memang, halaman 255 buku HTF, dari latihan simulasi, menunjukkan bahwa 10 kali lipat CV adalah cara yang lebih baik untuk memperkirakan kesalahan bersyarat. Saya pikir ini masih membuat saya khawatir juga

— Chamberlain Foncha

0

Saya berpikir tentang bagian yang sama dan saya juga bertanya-tanya kapan saya akan tertarik pada kesalahan pengujian bersyarat. Terlebih lagi, sejauh yang saya mengerti mereka harus sama asymptotically: untuk pelatihan yang sangat besar dan set tes pelatihan / split test set yang tepat tidak lagi menghasilkan perkiraan kesalahan tes bersyarat yang berbeda. Seperti yang Anda lihat di Hastie et al. buku contoh mereka pada perbedaan yang diharapkan bersyarat selalu didasarkan pada jumlah pengamatan yang relatif kecil, yang jika saya memahami ini dengan benar adalah alasan mengapa kesalahan pengujian bersyarat dan yang diharapkan terlihat berbeda dalam grafik.

Buku ini menyebutkan bahwa rata-rata kesalahan tes yang diharapkan lebih dari keacakan dalam set pelatihan, sedangkan kesalahan tes (bersyarat) tidak. Sekarang kapan saya ingin mengambil ketidakpastian yang terkait dengan bagian pelatihan / set tes tertentu yang saya perhitungkan? Jawaban saya adalah bahwa saya biasanya tidak pernah tertarik untuk mengakomodasi ketidakpastian semacam ini karena ini bukan yang saya minati ketika saya melakukan penilaian model: Dalam menilai kualitas prediksi model, saya ingin tahu bagaimana caranya. akan ongkos masuk katakanlah besok cuaca. Cuaca besok terkait dengan data keseluruhan saya cukup banyak karena data pengujian saya terkait dengan data pelatihan saya - jadi saya menghitung satu kesalahan tes bersyarat untuk menilai model saya. Namun, cuaca besok terkait dengan keseluruhan data saya tidak seperti satu set tes spesifik terkait dengan set pelatihan spesifik yang sesuai, tetapi bagaimana set tes rata-rata terkait dengan set pelatihan rata-rata. Jadi saya mendapatkan partisi training / set-test berikutnya dan mendapatkan kesalahan tes bersyarat lainnya. Saya melakukan ini berkali-kali (seperti misalnya dalam K-fold cross-validation) - variasi kesalahan tes bersyarat individu rata-rata keluar - dan saya pergi dengan kesalahan tes yang diharapkan; yang, sekali lagi, yang bisa kupikirkan ingin mendapatkannya. dalam K-fold cross-validation) - variasi kesalahan pengujian bersyarat individu rata-rata habis - dan saya pergi dengan kesalahan pengujian yang diharapkan; yang, sekali lagi, yang bisa kupikirkan ingin mendapatkannya. dalam K-fold cross-validation) - variasi kesalahan pengujian bersyarat individu rata-rata habis - dan saya pergi dengan kesalahan pengujian yang diharapkan; yang, sekali lagi, yang bisa kupikirkan ingin mendapatkannya.

Dengan kata lain, dalam grafik kesalahan tes / tes yang diharapkan dalam Hastie et al., Kami mendapatkan gagasan tentang efisiensi penduga model: jika kesalahan uji bersyarat tersebar luas di sekitar kesalahan pengujian yang diharapkan, ini merupakan indikasi penduga. menjadi tidak efisien, sementara variasi yang lebih sedikit dalam kesalahan pengujian bersyarat akan menunjukkan penduga yang lebih efisien, mengingat jumlah pengamatan.

Bottomline: Saya mungkin salah di sini, dan saya akan senang untuk dikoreksi mengenai hal ini, tetapi seperti yang saya lihat saat ini konsep kesalahan pengujian bersyarat adalah upaya yang meragukan dalam menilai validitas model eksternal melalui hanya mengizinkan satu pelatihan / tembakan uji-partisi. Untuk sampel besar, bidikan tunggal ini harus sama dengan kesalahan uji konditoinal yang dirata-ratakan pada banyak bidikan latihan / partisi, yaitu kesalahan pengujian yang diharapkan. Untuk sampel kecil di mana perbedaan terjadi, ukuran aktual minat menurut saya adalah yang diharapkan, dan bukan kesalahan pengujian bersyarat.

— pengguna52821
sumber