Apakah implementasi validasi silang memengaruhi hasilnya?

Seperti yang Anda ketahui, ada dua jenis populer validasi silang, K-fold dan subsampling acak (seperti yang dijelaskan dalam Wikipedia ). Namun demikian, saya tahu bahwa beberapa peneliti membuat dan menerbitkan makalah di mana sesuatu yang digambarkan sebagai CV K-fold memang merupakan subsampling acak, jadi dalam praktiknya Anda tidak pernah tahu apa yang sebenarnya ada dalam artikel yang Anda baca.
Biasanya tentu saja perbedaannya tidak terlalu mencolok, dan begitulah pertanyaan saya - dapatkah Anda memikirkan sebuah contoh ketika hasil dari satu jenis berbeda secara signifikan dari yang lain?

machine-learning cross-validation

Anda tentu bisa mendapatkan hasil yang berbeda hanya karena Anda melatih berbagai contoh. Saya sangat meragukan bahwa ada algoritma atau domain masalah di mana hasil keduanya akan berbeda dalam beberapa cara yang dapat diprediksi.

— bmargulies
sumber

Maksud saya hasil yang sangat berbeda. Saya juga berpikir tidak ada, setidaknya contoh dunia nyata. Tetap saja, saya pikir saya akan menunggu beberapa saat lagi.

Biasanya tentu saja perbedaannya tidak terlalu mencolok, dan begitulah pertanyaan saya - dapatkah Anda memikirkan sebuah contoh ketika hasil dari satu jenis berbeda secara signifikan dari yang lain?

Saya tidak yakin sama sekali perbedaannya tidak terlalu mencolok, dan hanya dalam contoh ad hoc akan terlihat. Kedua metode cross-validasi dan bootstrap (sub-sampling) sangat tergantung pada parameter desain mereka, dan pemahaman ini belum lengkap. Secara umum, hasil dalam k-fold cross-validation sangat tergantung pada jumlah lipatan, sehingga Anda dapat mengharapkan hasil yang selalu berbeda dari apa yang akan Anda amati dalam sub-sampling.

Contoh kasus: katakan bahwa Anda memiliki model linier sejati dengan jumlah parameter tetap. Jika Anda menggunakan validasi silang k-fold (dengan k, diberikan tetap), dan membiarkan jumlah pengamatan menjadi tak terbatas, validasi k-fold silang akan asimtotik tidak konsisten untuk pemilihan model, yaitu, itu akan mengidentifikasi model yang salah dengan probabilitas lebih besar dari 0. Hasil mengejutkan ini disebabkan oleh Jun Shao, "Seleksi Model Linier dengan Cross-Validation", Jurnal Asosiasi Statistik Amerika , 88 , 486-494 (1993), tetapi lebih banyak makalah dapat ditemukan dalam nada ini.

Secara umum, makalah statistik terhormat menentukan protokol validasi silang, tepatnya karena hasilnya tidak invarian. Dalam kasus di mana mereka memilih sejumlah besar lipatan untuk kumpulan data besar, mereka berkomentar dan mencoba untuk memperbaiki bias dalam pemilihan model.

— gappy
sumber

Tidak, tidak, tidak, ini tentang pembelajaran mesin bukan pemilihan model.

Perbedaan yang menarik. Saya pikir pemilihan model adalah pusat pembelajaran mesin, dalam hampir semua makna istilah.

— gappy

Semua hal itu bekerja untuk model sepele (kebanyakan linier) ketika Anda memiliki beberapa parameter dan Anda hanya ingin mencocokkannya dengan data untuk mengatakan sesuatu tentang itu, seperti Anda memiliki y dan x dan Anda ingin memeriksa apakah y = x ^ 2 atau y = x. Di sini saya berbicara tentang memperkirakan kesalahan model seperti SVM atau RF yang dapat memiliki ribuan parameter dan masih tidak terlalu cocok karena heuristik yang kompleks.

Hasil ini valid untuk regresi model linear umum dengan jumlah variabel independen yang sewenang-wenang. Variabel dapat menjadi pembelajar yang sewenang-wenang. Asumsi penting adalah bahwa ketika jumlah pengamatan menuju tak terbatas, jumlah pelajar yang menggambarkan model yang sebenarnya tetap terbatas. Semua ini berfungsi untuk regresi, jadi untuk tugas klasifikasi seperti Anda, saya tidak yakin itu membantu.

— bersenang-senang

Itu tidak; GLM bukan pembelajaran mesin. Metode pembelajaran mesin yang sebenarnya cukup bijak untuk mempertahankan tingkat kerumitannya terlepas dari semakin banyaknya objek (jika tentu saja cukup); bahkan untuk model linier seluruh teori ini bekerja sangat buruk karena konvergensi buruk.