Saya ingin tahu apakah proses yang dijelaskan di bawah ini valid / dapat diterima dan ada pembenaran yang tersedia.
Idenya: Algoritma pembelajaran terawasi tidak mengasumsikan struktur / distribusi yang mendasari tentang data. Pada akhirnya mereka membuat estimasi titik keluaran. Saya berharap bisa mengukur ketidakpastian estimasi tersebut. Sekarang, proses pembuatan model ML secara inheren acak (misalnya dalam pengambilan sampel untuk validasi silang untuk penyetelan hyperparameter dan dalam subsampling dalam GBM stokastik), jadi pipa pemodelan akan memberi saya output yang berbeda untuk prediktor yang sama dengan setiap benih yang berbeda. Gagasan saya (naif) adalah menjalankan proses ini berulang-ulang untuk menghasilkan distribusi prediksi, dan mudah-mudahan saya dapat membuat pernyataan tentang ketidakpastian prediksi.
Jika itu penting, set data yang saya kerjakan biasanya sangat kecil (~ 200 baris.)
Apakah ini masuk akal?
Untuk memperjelas, saya sebenarnya tidak bootstrap data dalam arti tradisional (yaitu saya tidak mengambil sampel kembali data). Dataset yang sama digunakan dalam setiap iterasi, saya hanya mengeksploitasi keacakan dalam xval dan stochastic GBM.