Jawaban singkat: Kedua teknik validasi melibatkan pelatihan dan pengujian sejumlah model.
Jawaban panjang tentang bagaimana melakukan yang terbaik: Itu tentu saja tergantung. Tapi di sini ada beberapa pemikiran yang saya gunakan untuk memandu keputusan saya tentang resampling validasi. Saya ahli kimia, jadi strategi ini dan juga istilahnya kurang lebih terkait erat dengan masalah analitik-kimia.
Untuk sedikit menjelaskan pikiran saya, saya menganggap validasi sebagai pengukuran kualitas model, dan pelatihan sebagai parameter pengukuran model - ini mengarah pada analogi yang cukup kuat untuk setiap jenis pengukuran lainnya.
Ada dua sudut pandang berbeda untuk pendekatan ini sehubungan dengan validasi:
sudut pandang tradisional untuk validasi resampling adalah: set data resampled (kadang-kadang disebut set atau subset data) secara praktis sama dengan set data asli (nyata).
Oleh karena itu, "model pengganti" yang cocok dengan set data pengganti praktis sama dengan model yang sesuai dengan seluruh rangkaian data nyata. Tetapi beberapa sampel ditinggalkan dari set data pengganti, model ini tidak tergantung pada ini. Jadi, saya mengambil sampel yang ditinggalkan atau keluar dari bootstrap sebagai set validasi independen untuk model pengganti dan menggunakan hasilnya sebagai perkiraan model-data keseluruhan.
Namun, model pengganti sering tidak benar-benar setara dengan seluruh-data-model: lebih sedikit sampel yang digunakan untuk pelatihan (bahkan untuk bootstrap, jumlah sampel yang berbeda kurang). Selama kurva pembelajaran meningkat, model pengganti rata-rata sedikit lebih buruk daripada keseluruhan-data-model. Ini adalah bias pesimis yang terkenal dari validasi resampling (jika Anda berakhir dengan bias optimistis, itu biasanya merupakan indikator bahwa rangkaian uji kiri-keluar / oob tidak terlepas dari model).
Pandangan kedua adalah bahwa set data yang di-resampled adalah versi yang terganggu dari seluruh set data. Meneliti bagaimana model pengganti (atau prediksi mereka untuk sampel yang ditinggalkan / oob) berbeda dari seluruh-data-model kemudian memberi tahu sesuatu tentang stabilitas model sehubungan dengan data pelatihan.
Dari perspektif ini, model pengganti adalah sesuatu seperti pengukuran berulang. Katakanlah tugas Anda adalah mengukur kandungan beberapa mineral dari seluruh rangkaian bijih. Bijihnya tidak homogen. Jadi, Anda mengambil sampel fisik dari lokasi yang berbeda dan kemudian melihat konten keseluruhan dan variasinya di kereta. Demikian pula, jika Anda berpikir model Anda mungkin tidak stabil, Anda dapat melihat keseluruhan kinerja dan variasi model pengganti.
n
Saya biasanya sampel ulang kasus, misalnya satu kasus = semua pengukuran satu pasien. Kemudian out-of-bag adalah semua pasien yang tidak ada pengukuran terjadi dalam data pelatihan. Ini berguna jika Anda tahu bahwa pengukuran satu case lebih mirip satu sama lain daripada pengukuran case lainnya (atau setidaknya Anda tidak bisa mengecualikan kemungkinan ini).
Bukan berarti resampling validasi memungkinkan Anda mengukur kinerja untuk sampel yang tidak dikenal . Jika selain itu Anda ingin mengukur kinerja untuk sampel masa depan yang tidak diketahui (drift instrumental!), Maka Anda memerlukan set tes yang diukur "di masa depan" yaitu waktu tertentu setelah semua sampel pelatihan diukur. Dalam kimia analitik, ini diperlukan misalnya jika Anda ingin mengetahui seberapa sering Anda perlu mengulang kalibrasi instrumen Anda (untuk setiap penentuan, harian, mingguan, bulanan, ...)
Bootstrap vs terminologi validasi silang :
- resampling dengan penggantian sering disebut bootstrap,
- resampling tanpa validasi silang pengganti.
Keduanya dapat memiliki semacam stratifikasi. Secara historis, pemisahan untuk validasi silang (setidaknya dalam chemometrics) telah sering dilakukan secara non-acak, misalnya validasi silang 3 kali lipat dari bentuk abcabc..abc (kumpulan data diurutkan berdasarkan hasil) untuk kalibrasi / regresi jika Anda memiliki sangat sedikit kasus (sampel fisik), dan Anda ingin memastikan bahwa seluruh rentang data Anda tercakup.
Kedua teknik ini biasanya diulang / diulang beberapa kali. Sekali lagi karena alasan historis dan setidaknya dalam kemometrik, validasi k-fold sering berarti pelatihan dan pengujian model k (masing-masing diuji dengan 1 / kth dari data yang tidak terlibat dalam pelatihan). Jika pemisahan acak seperti itu diulangi, orang menyebutnya iterasi atau validasi silang berulang.
kknnn
- Perhatikan bahwa bootstrap tidak sesuai untuk beberapa teknik pemasangan model yang pertama-tama menghapus pengukuran duplikat.
- Beberapa varian dari bootstrap ada, misalnya .632-bootstrap dan .632 + -bootstrap
kk