Kapan tidak menggunakan validasi silang?

Ketika saya membaca situs ini sebagian besar jawaban menyarankan bahwa validasi silang harus dilakukan dalam algoritma pembelajaran mesin. Namun ketika saya membaca buku "Memahami Pembelajaran Mesin" saya melihat ada latihan yang terkadang lebih baik untuk tidak menggunakan validasi silang. Saya sangat bingung. Kapan algoritma pelatihan pada seluruh data lebih baik daripada cross-validation? Apakah itu terjadi dalam kumpulan data nyata?

Biarkan menjadi k kelas hipotesis. Misalkan Anda diberi IID pelatihan contoh dan Anda ingin belajar kelas . Pertimbangkan dua pendekatan alternatif: $H_1,...,H_k$ $m$ $H=\cup^k_{i=1}H_i$

Pelajari pada contoh menggunakan aturan ERM $H$ $m$

Bagilah contoh m menjadi set pelatihan ukuran dan set validasi ukuran , untuk beberapa . Kemudian, terapkan pendekatan pemilihan model menggunakan validasi. Yaitu, pertama-tama latih setiap kelas pada contoh pelatihan menggunakan aturan ERM sehubungan dengan , dan mari menjadi hipotesis yang dihasilkan . Kedua, terapkan aturan ERM sehubungan dengan kelas { } pada contoh validasi . $(1−\alpha)m$ $\alpha m$ $\alpha\in(0,1)$ $H_i$ $(1−\alpha)m$ $H_i$ $\hat{h}_1,\ldots,\hat{h}_k$ $\hat{h}_1,\ldots,\hat{h}_k$ $\alpha m$

Jelaskan skenario di mana metode pertama lebih baik daripada yang kedua dan sebaliknya.

Gambar quastion .

machine-learning self-study cross-validation

— SMA.D
sumber

Ini latihan yang menarik, tapi saya tidak setuju dengan labelnya. Saya pikir validasi silang melakukan tugasnya dengan sempurna di sini. Sebagai tangensial, akan sangat disukai jika Anda mengetik latihan dan mengutipnya, sebagai lawan melampirkan gambar. Gambar tidak dapat diakses oleh pengguna dengan gangguan penglihatan.

— Matthew Drury

Satu kelemahan yang mungkin terjadi untuk menggunakan validasi silang bisa terlalu pas (seperti dalam kasus tinggalkan satu validasi silang). Pada dasarnya, dengan menggunakan teknik validasi silang, kami menyetel parameter model pada set data validasi (dan bukan pada dataset uji). Tetapi kadang-kadang, penyetelan ini bisa menjadi terlalu banyak sehingga kemungkinan over-fit ketika classifier diuji pada set tes.

— Upendra Pratap Singh

Apa arti "paritas" di sini?

— shadowtalker

@shadowtalker Saya pikir itu berarti penjumlahan modulo 2.

— SMA.D

Apakah Anda membedakan antara validasi silang (berulang) dan bootstrap?

— usεr11852

Pesan dibawa pulang:

latihan harus mengajarkan Anda bahwa kadang-kadang (tergantung pada bidang Anda: sering atau bahkan hampir selalu) lebih baik untuk tidak melakukan optimasi / tuning / pemilihan model data-driven.
Ada juga situasi di mana validasi silang bukan pilihan terbaik di antara opsi validasi yang berbeda , tetapi pertimbangan ini tidak relevan dalam konteks latihan Anda di sini.
Dan tidak memvalidasi (memverifikasi, menguji) model Anda tidak pernah merupakan pilihan yang baik.

Sayangnya, teks yang Anda kutip mengubah dua hal antara pendekatan 1 dan 2:

Pendekatan 2 melakukan validasi silang dan pemilihan model / penyetelan / optimisasi data-driven
Pendekatan 1 tidak menggunakan validasi silang, atau pemilihan model tuning / optimisasi data.
Pendekatan 3 validasi silang tanpa pemilihan model / penyetelan / optimasi model data sangat layak (dan IMHO akan menghasilkan lebih banyak wawasan) dalam konteks yang dibahas di sini
Pendekatan 4, tidak ada validasi silang tetapi pemilihan model / penyetelan / optimisasi data juga dimungkinkan, tetapi lebih rumit untuk dibangun.

IMHO, validasi silang, dan optimisasi berbasis data adalah dua keputusan yang sangat berbeda (dan sebagian besar independen) dalam mengatur strategi pemodelan Anda. Satu- satunya koneksi adalah Anda dapat menggunakan perkiraan validasi silang sebagai fungsional target untuk optimisasi Anda. Tetapi ada fungsi target lainnya yang siap digunakan, dan ada kegunaan lain perkiraan validasi silang (penting, Anda dapat menggunakannya untuk verifikasi model Anda, alias validasi atau pengujian)

Sayangnya, terminologi pembelajaran mesin adalah IMHO saat ini berantakan yang menunjukkan koneksi / penyebab / dependensi palsu di sini.

Saat Anda mencari pendekatan 3 (validasi silang bukan untuk optimisasi tetapi untuk mengukur kinerja model), Anda akan menemukan validasi silang "keputusan" vs. pelatihan pada seluruh data yang ditetapkan sebagai dikotomi palsu dalam konteks ini: Saat menggunakan validasi silang untuk mengukur kinerja classifier, angka validasi silang digunakan sebagai estimasi untuk model yang dilatih pada seluruh kumpulan data. Yakni pendekatan 3 meliputi pendekatan 1.
$p$ parameter / koefisien model, tetapi yang dilakukan optimasi adalah memperkirakan parameter lebih lanjut, yang disebut hyperparameters. Jika Anda menggambarkan proses pemasangan dan optimisasi / penyetelan model sebagai pencarian parameter model, maka optimasi hiperparameter ini berarti bahwa ruang pencarian yang jauh lebih besar dipertimbangkan. Dengan kata lain, dalam pendekatan 1 (dan 3) Anda membatasi ruang pencarian dengan menentukan hyperparameter tersebut. Kumpulan data dunia nyata Anda mungkin cukup besar (berisi informasi yang cukup) untuk memungkinkan pemasangan di dalam ruang pencarian yang dibatasi, tetapi tidak cukup besar untuk memperbaiki semua parameter dengan cukup baik di ruang pencarian yang lebih besar dari pendekatan 2 (dan 4).

Bahkan, di bidang saya, saya sangat sering harus berurusan dengan set data yang terlalu kecil untuk memungkinkan pemikiran optimasi data-driven. Jadi apa yang harus saya lakukan: Saya menggunakan pengetahuan domain saya tentang data dan proses pembuatan data untuk memutuskan model mana yang cocok dengan sifat fisik data dan aplikasi. Dan di dalam ini, saya masih harus membatasi kompleksitas model saya.

— cbeleites tidak senang dengan SX
sumber

Jawaban bagus. Saya entah bagaimana berharap Anda berkontribusi pada utas ini. Jelas +1

— usεr11852

Terima kasih atas jawaban informatif dan bermanfaat Anda. Apa yang saya pelajari dari jawaban Anda adalah bahwa kami dapat memilih pendekatan 2 ketika kami memiliki set data kecil bukan karena validasi tetapi karena pemilihan model. Apakah saya benar? Apakah Menggunakan pemilihan model untuk set data kecil, entah bagaimana, menyebabkan underfitting?

— SMA.D

Pertanyaan lain adalah bahwa dalam latihan ukuran kelas hipotesis adalah sama untuk kedua pendekatan 1 dan 2. Bagaimana ruang pencarian lebih besar dalam kasus untuk pendekatan 2?

— SMA.D

Nah, jika ada pilihan dalam 2 dan bukan dalam 1 maka ruang pencarian di 2 lebih besar. Jika ruang pencarian di 2 tidak lebih besar, maka benar-benar tidak ada yang harus dipilih dalam pendekatan 2. Jawaban dan interpretasi saya tentang apa arti pendekatan 2 dipicu oleh istilah "pemilihan model menggunakan validasi". Jika konteksnya masih merupakan salah satu dari "kapan validasi silang gagal" dilakukan sebelum yang dipertanyakan di sini, maka buku itu dapat berarti apa yang saya sebut pendekatan 3 di atas, yaitu tidak ada pemilihan model yang terlibat. Tetapi dalam hal itu, pemilihan model kata-kata tidak harus ada. Saya tidak bisa menilai seberapa besar kemungkinan ini ..

— cbeleites tidak senang dengan SX

... adalah karena saya tidak tahu apa yang dikatakan buku tentang pemilihan model, atau apa aturan ERM mereka (dalam perbendaharaan kata saya, ERM memperluas ke manajemen risiko perusahaan ...). Namun, jawaban saya berlaku terlepas dari algoritma pemodelan.

— cbeleites tidak senang dengan SX