Pesan dibawa pulang:
latihan harus mengajarkan Anda bahwa kadang-kadang (tergantung pada bidang Anda: sering atau bahkan hampir selalu) lebih baik untuk tidak melakukan optimasi / tuning / pemilihan model data-driven.
Ada juga situasi di mana validasi silang bukan pilihan terbaik di antara opsi validasi yang berbeda , tetapi pertimbangan ini tidak relevan dalam konteks latihan Anda di sini.
- Dan tidak memvalidasi (memverifikasi, menguji) model Anda tidak pernah merupakan pilihan yang baik.
Sayangnya, teks yang Anda kutip mengubah dua hal antara pendekatan 1 dan 2:
- Pendekatan 2 melakukan validasi silang dan pemilihan model / penyetelan / optimisasi data-driven
- Pendekatan 1 tidak menggunakan validasi silang, atau pemilihan model tuning / optimisasi data.
- Pendekatan 3 validasi silang tanpa pemilihan model / penyetelan / optimasi model data sangat layak (dan IMHO akan menghasilkan lebih banyak wawasan) dalam konteks yang dibahas di sini
- Pendekatan 4, tidak ada validasi silang tetapi pemilihan model / penyetelan / optimisasi data juga dimungkinkan, tetapi lebih rumit untuk dibangun.
IMHO, validasi silang, dan optimisasi berbasis data adalah dua keputusan yang sangat berbeda (dan sebagian besar independen) dalam mengatur strategi pemodelan Anda. Satu- satunya koneksi adalah Anda dapat menggunakan perkiraan validasi silang sebagai fungsional target untuk optimisasi Anda. Tetapi ada fungsi target lainnya yang siap digunakan, dan ada kegunaan lain perkiraan validasi silang (penting, Anda dapat menggunakannya untuk verifikasi model Anda, alias validasi atau pengujian)
Sayangnya, terminologi pembelajaran mesin adalah IMHO saat ini berantakan yang menunjukkan koneksi / penyebab / dependensi palsu di sini.
Saat Anda mencari pendekatan 3 (validasi silang bukan untuk optimisasi tetapi untuk mengukur kinerja model), Anda akan menemukan validasi silang "keputusan" vs. pelatihan pada seluruh data yang ditetapkan sebagai dikotomi palsu dalam konteks ini: Saat menggunakan validasi silang untuk mengukur kinerja classifier, angka validasi silang digunakan sebagai estimasi untuk model yang dilatih pada seluruh kumpulan data. Yakni pendekatan 3 meliputi pendekatan 1.
halparameter / koefisien model, tetapi yang dilakukan optimasi adalah memperkirakan parameter lebih lanjut, yang disebut hyperparameters. Jika Anda menggambarkan proses pemasangan dan optimisasi / penyetelan model sebagai pencarian parameter model, maka optimasi hiperparameter ini berarti bahwa ruang pencarian yang jauh lebih besar dipertimbangkan. Dengan kata lain, dalam pendekatan 1 (dan 3) Anda membatasi ruang pencarian dengan menentukan hyperparameter tersebut. Kumpulan data dunia nyata Anda mungkin cukup besar (berisi informasi yang cukup) untuk memungkinkan pemasangan di dalam ruang pencarian yang dibatasi, tetapi tidak cukup besar untuk memperbaiki semua parameter dengan cukup baik di ruang pencarian yang lebih besar dari pendekatan 2 (dan 4).
Bahkan, di bidang saya, saya sangat sering harus berurusan dengan set data yang terlalu kecil untuk memungkinkan pemikiran optimasi data-driven. Jadi apa yang harus saya lakukan: Saya menggunakan pengetahuan domain saya tentang data dan proses pembuatan data untuk memutuskan model mana yang cocok dengan sifat fisik data dan aplikasi. Dan di dalam ini, saya masih harus membatasi kompleksitas model saya.