Mengapa peneliti menggunakan validasi silang 10 kali lipat alih-alih menguji pada set validasi?

23

Saya telah membaca banyak makalah penelitian tentang klasifikasi sentimen dan topik terkait.

Sebagian besar dari mereka menggunakan validasi silang 10 kali lipat untuk melatih dan menguji pengklasifikasi. Itu berarti tidak ada pengujian / validasi terpisah yang dilakukan. Mengapa demikian?

Apa keuntungan / kerugian dari pendekatan ini, terutama bagi mereka yang melakukan penelitian?

classification cross-validation

— pengguna18075
sumber

3

Apakah Anda yakin tidak ada pengujian terpisah yang dilakukan?

— Douglas Zare

17

Ini bukan masalah jika CV disarangkan , yaitu semua optimisasi, pilihan fitur dan pilihan model, apakah mereka sendiri menggunakan CV atau tidak, dibungkus dalam satu CV besar.

Bagaimana hal ini dibandingkan dengan memiliki set validasi tambahan? Sementara set validasi biasanya hanya bagian yang kurang lebih dipilih secara acak dari seluruh data, itu hanya setara dengan satu iterasi dari CV. Untuk tujuan ini, sebenarnya merupakan metode yang lebih buruk karena dapat dengan mudah dibiaskan oleh (mudah-mudahan) untung / tidak terpilih dipilih atau set validasi cherry-pick

Satu-satunya pengecualian untuk ini adalah deret waktu dan data lain di mana urutan objek penting; tetapi mereka membutuhkan perlakuan khusus.

— Gala
sumber

16

Alasan utama adalah bahwa penaksir validasi silang k-fold memiliki varians yang lebih rendah daripada penaksir set penahan tunggal, yang bisa sangat penting jika jumlah data yang tersedia terbatas. Jika Anda memiliki satu set tahan keluar, di mana 90% data digunakan untuk pelatihan dan 10% digunakan untuk pengujian, set uji sangat kecil, sehingga akan ada banyak variasi dalam perkiraan kinerja untuk sampel data yang berbeda, atau untuk partisi data yang berbeda untuk membentuk set pelatihan dan tes. validasi k-fold mengurangi varians ini dengan rata-rata atas k partisi yang berbeda, sehingga estimasi kinerja kurang sensitif terhadap partisi data. Anda dapat melangkah lebih jauh dengan validasi silang k-fold berulang, di mana validasi silang dilakukan menggunakan partisi yang berbeda dari data untuk membentuk sub-set k,

Namun perlu dicatat, semua langkah prosedur pemasangan model (pemilihan model, pemilihan fitur, dll.) Harus dilakukan secara independen di setiap lipatan prosedur validasi silang, atau estimasi kinerja yang dihasilkan akan bias secara optimis.

— Dikran Marsupial
sumber

9

[Diedit berdasarkan komentar]

Saya pikir ada masalah jika Anda menggunakan hasil CV untuk memilih di antara banyak model.

CV memungkinkan Anda untuk menggunakan seluruh dataset untuk melatih dan menguji satu model / metode, sambil dapat memiliki gagasan yang masuk akal tentang seberapa baik akan digeneralisasikan. Tetapi jika Anda membandingkan beberapa model, naluri saya adalah bahwa perbandingan model menggunakan tingkat ekstra isolasi uji kereta yang diberikan CV kepada Anda, sehingga hasil akhirnya tidak akan menjadi perkiraan yang masuk akal dari akurasi model yang dipilih.

Jadi saya rasa jika Anda membuat beberapa model dan memilih satu berdasarkan CV-nya, Anda terlalu optimis tentang apa yang Anda temukan. Set validasi lain akan diperlukan untuk melihat seberapa baik pemenang digeneralisasikan.

— Wayne
sumber

Terima kasih. Betul sekali. Tetapi pertanyaan saya terutama tentang mengapa penelitian tidak memiliki validasi akhir? Apakah ada alasan yang tepat? Apakah ini akan mengurangi data atau karena CV berfungsi dengan baik dan validasi terpisah tidak diperlukan?

— user18075

5

Pendekatan pemisahan data sangat tidak efisien. Sampai kedua pelatihan dan set tes sangat besar, kesalahan kuadrat rata-rata untuk perkiraan kemungkinan kinerja masa depan untuk model prediksi lebih kecil dengan bootstrap atau dengan 100 pengulangan validasi silang 10 kali lipat, dengan asumsi prosedur resampling memiliki akses ke semua langkah pemodelan yang terlibat

Y

$Y$ . Gunakan pemisahan data saat Anda juga perlu memvalidasi proses pengukuran, instrumen survei, atau prosedur lain yang terkait dengan makna data. Penggunaan pemisahan data yang baik adalah saat instrumentasi berbeda-beda di setiap negara.

— Frank Harrell

7

Dalam pengalaman saya, alasan utama biasanya karena Anda tidak memiliki cukup sampel.
Di bidang saya (klasifikasi sampel biologis / medis), kadang-kadang satu set tes disimpan terpisah, tetapi seringkali hanya terdiri dari beberapa kasus. Dalam hal ini, interval kepercayaan biasanya terlalu luas untuk digunakan.
Keuntungan lain dari validasi silang berulang / berulang atau validasi out-of-bootstrap adalah bahwa Anda membangun banyak model "pengganti". Ini dianggap sama. Jika tidak, mode tidak stabil. Anda benar-benar dapat mengukur ketidakstabilan ini (berkenaan dengan bertukar beberapa kasus pelatihan) dengan membandingkan baik model pengganti sendiri atau prediksi yang dibuat model pengganti berbeda untuk kasus yang sama.
Makalah ini oleh Esbensen & Geladi memberikan diskusi yang bagus tentang beberapa batasan validasi silang.
Anda dapat menangani sebagian besar dari mereka, tetapi satu poin penting yang tidak dapat ditangani dengan melakukan validasi ulang adalah drift, yang terkait dengan poin mbq:

Satu-satunya pengecualian untuk ini adalah time-series dan data lain di mana urutan objek penting

Drift berarti bahwa respons instrumen / kalibrasi sebenarnya berubah perlahan dari waktu ke waktu. Jadi kesalahan generalisasi untuk kasus yang tidak diketahui mungkin tidak sama dengan untuk kasus yang tidak diketahui di masa mendatang . Anda tiba di instruksi seperti "ulang kalibrasi harian / mingguan / ..." jika Anda menemukan penyimpangan selama validasi, tetapi ini membutuhkan set tes yang diperoleh secara sistematis lebih lambat dari data pelatihan.
(Anda dapat melakukan pemisahan "khusus" yang memperhitungkan waktu akuisisi akun, jika percobaan Anda direncanakan secara acak, tetapi biasanya ini tidak akan mencakup waktu sebanyak yang ingin Anda uji untuk deteksi drift)

— Cbeleites mendukung Monica
sumber