Saya memiliki beberapa model prediktif yang kinerjanya ingin saya uji kembali (yaitu, ambil dataset saya, "putar kembali" ke titik waktu sebelumnya, dan lihat bagaimana model tersebut akan tampil secara prospektif).
Masalahnya adalah bahwa beberapa model saya dibangun melalui proses interaktif. Misalnya, mengikuti saran dalam Strategi Pemodelan Regresi Frank Harrell , dalam satu model saya menggunakan splines kubik terbatas untuk menangani kemungkinan asosiasi nonlinear antara fitur dan respons. Saya mengalokasikan derajat kebebasan masing-masing spline berdasarkan pada kombinasi pengetahuan domain dan ukuran kekuatan asosiasi yang univariat. Tetapi derajat kebebasan yang saya ingin izinkan model saya jelas tergantung pada ukuran dataset, yang bervariasi secara dramatis ketika backtesting. Jika saya tidak ingin memilih sendiri derajat kebebasan secara terpisah untuk setiap kali model diuji ulang, apa pilihan saya yang lain?
Sebagai contoh lain, saya sedang bekerja pada deteksi outlier melalui menemukan poin dengan leverage tinggi. Jika saya senang melakukan ini dengan tangan, saya hanya akan melihat pada setiap titik data leverage tinggi, memeriksa kewaspadaan bahwa data itu bersih, dan apakah menyaringnya atau membersihkannya dengan tangan. Tapi ini bergantung pada banyak pengetahuan domain, jadi saya tidak tahu bagaimana mengotomatiskan proses.
Saya akan menghargai saran dan solusi baik (a) untuk masalah umum otomatisasi bagian interaktif dari proses pembangunan model, atau (b) saran khusus untuk dua kasus ini. Terima kasih!