Sebuah kritis perbedaan adalah apakah Anda ingin:
- [Kasus paling umum]: Bangun estimasi kinerja pada subjek baru (diambil dari populasi yang sama dengan data Anda).
- Bangun estimasi kinerja pada pengamatan baru dari subjek yang sama seperti pada sampel Anda.
Kasus yang jauh lebih umum adalah nomor kasus (1). Misalnya, seberapa baik Anda memprediksi serangan jantung untuk seseorang yang datang ke ruang gawat darurat? Dan jika Anda dalam kasus (1), Anda hampir pasti harus melakukan (a) validasi silang subjek-bijaksana daripada (b) cross-validasi record-wise. Melakukan validasi catatan-bijaksana jika (1) kemungkinan akan menyebabkan perkiraan kinerja palsu yang terlalu tinggi pada subjek baru.
Saya tidak benar-benar mengerti apa yang Anda coba lakukan (dan mungkin ini adalah belajar mandiri sehingga pertanyaannya tidak sepenuhnya realistis). Saya tidak tahu kasus apa yang Anda hadapi. Jika Anda berada dalam kasus yang kurang umum (2), validasi catatan yang bijaksana mungkin ok.
Tema umum dalam statistik adalah untuk berpikir dengan hati-hati tentang apa yang independen dan apa yang berkorelasi. Secara umum, pengamatan independen cenderung menjadi subjek yang berbeda. Jika Anda ingin memprediksi kinerja pada subjek baru , Anda harus menguji pada subjek yang tidak Anda latih!
Mengapa validasi silang subjek-bijaksana daripada catatan-bijaksana?
Dalam pengaturan yang khas, pengamatan berulang dari individu yang sama berkorelasi satu sama lain bahkan setelah pengkondisian fitur. Oleh karena itu dengan validasi silang catatan-bijaksana, set tes Anda tidak terlepas dari set pelatihan Anda! Dalam kasus ekstrim korelasi sempurna, Anda akan memiliki pengamatan yang sama persis di set pelatihan dan set tes! Anda akan berlatih di set tes! Kinerja yang diukur dalam validasi silang tidak akan menjadi prediksi kinerja pada subjek baru.
Sebagai contoh, makalah ini baru-baru ini panggilan validasi lintas catatan bijaksana, `` Voodoo Machine Learning. "
Apa yang harus dilakukan dengan begitu sedikit subjek ...
Mungkin beberapa komentator yang lebih berpengalaman dengan cross-validation daripada saya bisa berpadu, tetapi bagi saya, ini sepertinya kandidat yang mungkin untuk (alias tinggalkan satu validasi silang)?k=n
Untuk memaksimalkan data untuk pelatihan, sesuatu yang bisa Anda lakukan adalah meninggalkan satu subjek untuk validasi silang. Setiap iterasi, uji pada subjek bertahan yang berbeda dan latih semua yang lain.
Jika semua subjek sangat berbeda, Anda mungkin secara efektif mendekati dan mungkin ingin memasukkan sebanyak mungkin subjek independen dalam rangkaian pelatihan.n=38