Saya tidak tahu apakah ini memenuhi syarat sebagai komentar atau sebagai jawaban. Saya meletakkan di sini karena rasanya seperti jawaban.
Dalam k-fold cross-validation Anda mempartisi data Anda menjadi k groups. Jika Anda membahas bahkan "dasar-dasar" maka Anda secara acak memilih anggota untuk masing-masing tempat sampah.
Ketika saya berbicara tentang data, saya menganggap setiap baris sebagai sampel, dan setiap kolom sebagai dimensi. Saya terbiasa menggunakan berbagai metode untuk menentukan kepentingan variabel, kepentingan kolom.
Bagaimana jika Anda, sebagai latihan pemikiran, berangkat dari seragam "buku teks" secara acak, dan menentukan baris mana yang penting? Mungkin mereka menginformasikan satu variabel pada satu waktu, tetapi mungkin mereka memberi informasi lebih lanjut. Apakah ada beberapa baris yang kurang penting daripada yang lain? Mungkin banyak poin informatif, mungkin sedikit.
Mengetahui pentingnya variabel, mungkin Anda bisa menganggapnya penting. Mungkin Anda bisa membuat satu tempat sampah dengan sampel paling penting. Ini bisa menentukan ukuran "k" Anda. Dengan cara ini, Anda akan menentukan ember kth "paling informatif" dan membandingkannya dengan yang lain, dan terhadap ember yang paling informatif.
Ini bisa memberi Anda gambaran tentang variasi maksimal dari parameter model Anda. Itu hanya satu bentuk.
Cara kedua untuk memisahkan ember k adalah dengan besarnya dan arah pengaruh. Jadi Anda bisa menempatkan sampel yang mengubah parameter atau parameter dalam satu arah ke satu ember dan menempatkan sampel yang mengubah parameter atau parameter yang sama dalam arah yang berlawanan ke dalam ember yang berbeda.
Variasi parameter dalam formulir ini mungkin memberikan sapuan yang lebih luas untuk variabel, berdasarkan bukan pada kepadatan informasi, tetapi pada jenis informasi.
Semoga berhasil.