Validasi Lintas Lipatk
Misalkan Anda memiliki 100 poin data. Untuk validasi silang -fold, 100 poin ini dibagi menjadi k 'lipatan' berukuran sama dan eksklusif satu sama lain. Untuk k = 10, Anda dapat menetapkan poin 1-10 untuk melipat # 1, 11-20 untuk melipat # 2, dan seterusnya, menyelesaikannya dengan menetapkan poin 91-100 untuk melipat # 10. Selanjutnya, kami memilih satu lipatan untuk bertindak sebagai set uji, dan menggunakan lipatan k - 1 yang tersisa untuk membentuk data pelatihan. Untuk putaran pertama, Anda dapat menggunakan poin 1-10 sebagai set tes dan 11-100 sebagai set pelatihan. Run selanjutnya akan menggunakan poin 11-20 sebagai set tes dan berlatih pada poin 1-10 ditambah 21-100, dan seterusnya, hingga setiap lipatan digunakan satu kali sebagai set tes.kkkk−1
Validasi Palang Monte-Carlo
Monte Carlo bekerja agak berbeda. Anda secara acak memilih (tanpa penggantian) sebagian kecil dari data Anda untuk membentuk set pelatihan, dan kemudian menetapkan sisa poin ke set tes. Proses ini kemudian diulang beberapa kali, menghasilkan pelatihan (secara acak) baru dan menguji partisi setiap waktu. Misalnya, anggap Anda memilih untuk menggunakan 10% data Anda sebagai data uji. Kemudian set tes Anda pada rep # 1 mungkin poin 64, 90 , 63, 42 , 65, 49, 10, 64, 96, dan 48. Pada putaran berikutnya, set tes Anda mungkin 90 , 60, 23, 67, 16, 78, 42 , 17, 73, dan 26. Karena partisi dilakukan secara independen untuk setiap proses, titik yang sama dapat muncul dalam set pengujian beberapa kali,yang merupakan perbedaan utama antara Monte Carlo dan validasi silang .
Perbandingan
Setiap metode memiliki kelebihan dan kekurangannya sendiri. Di bawah validasi silang, setiap titik diuji secara tepat satu kali, yang tampaknya adil. Namun, validasi silang hanya mengeksplorasi beberapa kemungkinan cara data Anda dapat dipartisi. Monte Carlo memungkinkan Anda menjelajahi lebih banyak partisi yang mungkin, meskipun Anda tidak mungkin mendapatkan semuanya - ada cara yang memungkinkan untuk 50/50 membagi 100 titik data yang ditetapkan (!).(10050)≈1028
Jika Anda mencoba melakukan inferensi (yaitu, membandingkan dua algoritma secara statistik), rata-rata hasil dari validasi lintas silang k memberi Anda (hampir) estimasi kinerja algoritma yang tidak bias, tetapi dengan varian tinggi (seperti yang Anda inginkan). harapkan dari hanya memiliki 5 atau 10 poin data). Karena Anda dapat, pada prinsipnya, menjalankannya selama yang Anda inginkan / mampu, validasi silang Monte Carlo dapat memberi Anda estimasi yang kurang variabel, tetapi lebih bias.k
Beberapa pendekatan menggabungkan keduanya, seperti pada validasi silang 5x2 (lihat Dietterich (1998) untuk ide tersebut, meskipun saya pikir ada beberapa perbaikan lebih lanjut sejak itu), atau dengan mengoreksi bias (misalnya, Nadeau dan Bengio, 2003 ) .