Metode pengambilan sampel caret


20

Saya menggunakan perpustakaan caretdi R untuk menguji berbagai prosedur pemodelan.

The trainControlobjek memungkinkan seseorang untuk menentukan metode re-sampel. Metode dijelaskan dalam dokumentasi bagian 2.3 dan meliputi: boot, boot632, cv, LOOCV, LGOCV, repeatedcvdan oob. Meskipun beberapa di antaranya mudah disimpulkan, tidak semua metode ini didefinisikan dengan jelas.

Apa prosedur yang sesuai dengan metode resampling ini?


tautan dokumentasi rusak. Gunakan ini sebagai gantinya.
vikas

Jawaban:


20

Ok, ini saya coba:

  • boot - bootstrap
  • boot632 - 0,632 bootstrap
  • cv - cross-validation, mungkin ini mengacu pada K-fold cross-validation .
  • LOOCV - validasi silang leave-one-out, juga dikenal sebagai jacknife.
  • LGOCV - validasi silang keluar-grup-keluar, varian LOOCV untuk data hierarkis.
  • repeatcv - mungkin validasi sub-sampling acak yang diulang , yaitu pembagian untuk melatih dan menguji data dilakukan secara acak.
  • oob - mengacu pada estimasi out-of-bag yang diajukan oleh Breiman , yang selanjutnya terkait dengan agregasi bootstrap . (File dalam tautan bukan file ps, tetapi file ps.Z, ganti nama lalu coba buka.)

1
Saya percaya bahwa LGOCV adalah pemisahan acak antara set pelatihan dan set validasi, diulangi sebanyak n kali. Jadi, alih-alih kasus biasa membagi data antara kereta dan penunda (membangun model di kereta dan memvalidasi saat penahanan) satu kali, proses ini diulang berkali-kali.
B_Miner

3
Saya juga percaya bahwa repeatCV adalah validasi k-fold cross, dilakukan beberapa kali.
B_Miner

Sulit dipercaya ini tidak didokumentasikan di suatu tempat.
andrew

4

The repeatedcvdiulang 10 kali lipat cross-validasi pasti, menurut presentasi Max Kuhn. Skema resampling default adalah bootstrap.

File yang bagus yang dapat Anda lihat tentang metode resampling adalah Pemodelan Prediktif dengan R dan Paket caret ( pdf ). Max mempresentasikan ini di "useR! 2013".

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.